chq1860 发表于 2009-10-13 13:23:53

两个实用的建议,希望采纳!

1.比如我在火车里建个3个站点,每个站点下有10个任务,开3个线程同时采集发布。现在的火车处理方式是把这30个任务看成一个整体,从里面随机选取3个任务进行工作。这样有可能选取的3个任务都是对同一个网站发布的,而造成同一个网站压力大,发布失败的问题。
我的建议:开3个线程工作的时候,可以每个站点选取一个任务进行工作,这样可以同时处理3个不同的网站发布任务,提高效率。

2.希望增加一个判断采集标签内的内容少于(或多余)多少字节,而跳过采集这条记录的功能。这样当我采集百度知道的时候,内容只有一句话的时候我就可以不采集这条数据了。

zuowenxiang 发表于 2009-10-13 14:12:46

嗯,没试过,不过先顶一个...如果愿意的话,可以丢个QQ号之类的,也好直接交流下嘛..

连通 发表于 2009-10-13 15:16:59

1.没意见
2.用接口

lbjyuer 发表于 2016-2-9 02:16:59

爪,以后学习下。。
页: [1]
查看完整版本: 两个实用的建议,希望采纳!