两个实用的建议,希望采纳!
1.比如我在火车里建个3个站点,每个站点下有10个任务,开3个线程同时采集发布。现在的火车处理方式是把这30个任务看成一个整体,从里面随机选取3个任务进行工作。这样有可能选取的3个任务都是对同一个网站发布的,而造成同一个网站压力大,发布失败的问题。我的建议:开3个线程工作的时候,可以每个站点选取一个任务进行工作,这样可以同时处理3个不同的网站发布任务,提高效率。
2.希望增加一个判断采集标签内的内容少于(或多余)多少字节,而跳过采集这条记录的功能。这样当我采集百度知道的时候,内容只有一句话的时候我就可以不采集这条数据了。 嗯,没试过,不过先顶一个...如果愿意的话,可以丢个QQ号之类的,也好直接交流下嘛.. 1.没意见
2.用接口 爪,以后学习下。。
页:
[1]