求助,内容因为重复而不再被采集
http://iceing-wordpress.stor.sinaapp.com/uploads/2011/08/未标题-1.jpg如上图。求教,需要采集的是 “深度1” 里面的网址(采内容),第一次进行采集是没有问题的。
但是之后,再按采集,网址会被判断为“重复”,而不再对这些网址的内容进行采集。怎么解决呢?如果清空数据,又会出现以前采集过的内容,这样发布的时候就会出现很多重复的了。。。怎么解决呢? ali61ls没人回答一下吗? 你的问题好像描述得不太清楚。
采集过的网址重复的火车头是会自动排除的 这个问题我也考虑过。期待答案。
页:
[1]