强烈建议完善此功能
比如说这两个地址
第一次采集的时候都采集到3个网址,我设置2个重复网址就跳过。
第二次采集的时候http://127.0.0.1/1.htm下面有新的内容,但是因为http://127.0.0.1/2.htm里面有3个网址被程序认定是重复的,所以如果http://127.0.0.1/2.htm不更新的话,http://127.0.0.1/1.htm永远都采集不到了。
望改进,或者有没有什么办法可以解决的。 您这个问题比较特殊,如果两个都需要采到的话就需要设置更多的重复网址数。但不设置的话就不可能采集到第二页。按您的需求没有更好的办法。建议您设置多的重复网址。 这个还是分开采好一些,,,, 哎。。其实这个也不是很特殊的问题。看来目前不想让它用更多的时间来判定重复网址,也只能分开建采集规则了。 历史帖子回顾中。
页:
[1]