|
一.建议在全局菜单里面增加一个锁定修改任务采网址,采信息,发信息功能.
因为听见有朋友说,其实我自己也有这个经历,就是任务太多的时候,某一些任务在运行,系统有点卡了,但是某些任务我们又想修改一下.就展开站点,结果一不注意,很多任务的发信息就被全取消掉了.
二.就是系统目录,名称前面都有他的ID号,在软件任务名称前能不能也加上他的ID号?
因为如果出现多个站点下面任务名称重名,就还真的不知道如何去区分他.
三.最重要的一个,就是全局里面有一个功能,就是判断重复网址,如果超过10条(可以自己设),就不进行采集了.这个功能的确很好.我的建议是能不能把这个功能扩展到站点属性,任务属性里面,优先判断任务再判断站点再判断全局设置.默认状态下面,站点与任务的是为空,这样就和现在一样了,如果有需要的人直接去设置一下站点或者任务的可以了.
下面我就要说为什么要这么做.
因为大家要采集的信息大多为好几个站,而且某类型的网站他的栏目上百上千个,而自己的网站又没有这么多栏目,只好把它某一个栏目下面的N个小栏目都采集到你指定的一个栏目中.如果他们每个小栏目的规则都一样.
这样的话,规则一般都会写成在采集的网址里面一般都会写成:
http://list.china.alibaba.com/buyer/offerlist/16-p(*).html?post_time=1&max_cat_id=16&trade_type=1
http://list.china.alibaba.com/buyer/offerlist/17-p(*).html?post_time=1&max_cat_id=17&trade_type=1
http://list.china.alibaba.com/buyer/offerlist/18-p(*).html?post_time=1&max_cat_id=18&trade_type=1
http://list.china.alibaba.com/buyer/offerlist/19-p(*).html?post_time=1&max_cat_id=19&trade_type=1
这样写,就会把这四个栏目采集到你指定的一个栏目当中,然后一般采集一遍后,我们又会把规则修改为只采集前面几十页,因为最需要采集最新的就行了.但这时候问题就出来了,如果第一个小栏目没有更新,或者更新小,这时候下面的就不会被采集了.
这时候有人可能会问,你把全局设为0不就行了?我也想过这个问题,但是任务过多,设成0的话,就会所有任务都会把任务网址采一个遍,这样对架了N个站,任务规则有NNN条的人来说,软件在定时采集的时候时间会花得更久.
希望我的这几个建议对大家有帮助.
希望管理员能够优化这几个建议. |
|