关于重复采集的问题
本帖最后由 ywzheng 于 2009-10-29 14:12 编辑PW论坛的列表页为 URL/thread.php?fid=2&page=1
然后火车头进行自动分析 得出网址为URL/read.php?tid=56841
那在采集的时候就会出现如下问题
首先 URL/read.php?tid=56841页面采集一次
然后分析分页 分页里比如有10个分页,分别是 URL/read.php?tid=56841&fpage=0&toread=&page=1 等等
这个时候URL/read.php?tid=56841和URL/read.php?tid=56841&fpage=0&toread=&page=1实际上是同一个页面...............
重复的问题发生了...
请高手指点下如何解决 不得包含 fpage toread等字符串。保证采集到的URL唯一。 谢谢管理员,按你的提示,更改了下思路,现在好像已经可以不重复了
谢谢
页:
[1]