modaowohao 发表于 2010-12-24 13:35:00

强烈建议完善此功能


比如说这两个地址

第一次采集的时候都采集到3个网址,我设置2个重复网址就跳过。

第二次采集的时候http://127.0.0.1/1.htm下面有新的内容,但是因为http://127.0.0.1/2.htm里面有3个网址被程序认定是重复的,所以如果http://127.0.0.1/2.htm不更新的话,http://127.0.0.1/1.htm永远都采集不到了。
望改进,或者有没有什么办法可以解决的。

rq204 发表于 2010-12-24 16:59:33

您这个问题比较特殊,如果两个都需要采到的话就需要设置更多的重复网址数。但不设置的话就不可能采集到第二页。按您的需求没有更好的办法。建议您设置多的重复网址。

boyjx 发表于 2010-12-25 18:47:12

这个还是分开采好一些,,,,

modaowohao 发表于 2010-12-25 21:44:11

哎。。其实这个也不是很特殊的问题。看来目前不想让它用更多的时间来判定重复网址,也只能分开建采集规则了。

lbjyuer 发表于 2016-2-8 18:37:38

历史帖子回顾中。
页: [1]
查看完整版本: 强烈建议完善此功能