SunPHCT 发表于 2012-7-22 15:55:39

一级网址重复采集也读取其下二级网址

第一、现在火车能采集多级网址,但是当上级网址重复的时候,他就不会去探测下级网址直接跳过了
这样就有一个问题,两级列表采集,当一级网址重复的时候,二级新增的内容就采集不到了
建议允许按需求设置是否在上级网址重复的情况下依旧读取下级网址
比如电视剧,电视剧一个列表,其下剧集又是一个列表,并且在不断更新
现在的情况是第一次采集能采集到已有的剧集,但是第二次采集的时候,因为电视剧URL重复,火车就不进下级去获取该电视剧新更新的剧集了,同样,小说采集也是这个情况

第二、现在能实现边采集边发布,但是这个时候数据不存库,就意味着不能通过火车带着数据跑了,用一次就要采集一次
最好是允许边采集边发布,同时数据入库备份采集数据方便某些特殊情况下的二次发布

rq204 发表于 2012-7-30 16:19:54

1.采集器采网址时对重复的检测是检查内容页网址,并不存在检查多页网址的功能,因此您的这种更新式采集功能不能支持。
2.现在的同时采集并发布时,数据是不保存的,只保存记录是否采集完成。该功能的初衷也是为了减少数据库的操作,而您现在的要求正和其相反,所以暂时也不会支持。

lbjyuer 发表于 2016-2-10 18:39:22

爪,以后学习下。。
页: [1]
查看完整版本: 一级网址重复采集也读取其下二级网址