iceing 发表于 2011-8-21 20:01:14

求助,内容因为重复而不再被采集

http://iceing-wordpress.stor.sinaapp.com/uploads/2011/08/未标题-1.jpg

如上图。求教,需要采集的是 “深度1” 里面的网址(采内容),第一次进行采集是没有问题的。

但是之后,再按采集,网址会被判断为“重复”,而不再对这些网址的内容进行采集。怎么解决呢?如果清空数据,又会出现以前采集过的内容,这样发布的时候就会出现很多重复的了。。。怎么解决呢?

iceing 发表于 2011-8-22 15:45:47

ali61ls没人回答一下吗?

303718 发表于 2011-8-22 15:47:37

你的问题好像描述得不太清楚。

采集过的网址重复的火车头是会自动排除的

vrencai 发表于 2011-8-23 11:31:37

这个问题我也考虑过。期待答案。
页: [1]
查看完整版本: 求助,内容因为重复而不再被采集