siasleonard 发表于 2010-6-8 11:17:56

2010版本第一页重复采集问题:为什么第一页会被采集两次?

这是件很奇怪的事情:

在测试节点的时候,查看源代码发现采集是正确的,第一页只采集一次。

但在正式采集的时候,发现目标文章的第一页被采集了两次,本地编辑采集数据时,也可以看到第一页被采集了两次,重复了。

为什么测试的时候正常,而正式采集的时候却重复呢?求解。

rq204 发表于 2010-6-9 08:55:22

这种情况可能是你的第一页有多个不同的地址,比如一个带有page=1,一个没有带.因为采集器只是识别网址是否相同,如果不相同则不同的内容.
页: [1]
查看完整版本: 2010版本第一页重复采集问题:为什么第一页会被采集两次?