请教：过滤重复网址时为何网址没重复仍然被过滤掉？

adabaohan 发表于 2010-9-14 12:36:42

采集数据时先分析了网址，提取到内容所在的页面共4900多个存在txt文件里，直接用0级深度采集，勾选了重复网址过滤。

但不知道为什么采集内容的时候有500多个网址显示“生成0级网址--重复网址，排除：”然后这些页面的数据就没有采集下来，但搜索txt文件里明明同一个网址只有一个，哪位大大知道这是什么原因吗？

该任务的地址库已经清空过了，还是会产生这样的问题，到底是哪里出错了呢？

adabaohan 发表于 2010-9-17 03:58:14

自己解决了,是因为站点地址库的问题,把站点地址库清空以后就好了

qzc212 发表于 2010-10-31 22:13:01

是因为站点地址库的问题,我也郁闷了半天呢，谢谢啊。。。

Emma 发表于 2010-11-3 10:35:16

我的还是不行啊！我重新建了一个站点，也是不行的！把以前的采集规则里面的地址库都清空了，还有问题也！{:1_201:}

china008 发表于 2010-12-7 12:42:28

多谢楼主，确实如此。

页: [1]

火车采集器软件交流官方论坛's Archiver

请教：过滤重复网址时为何网址没重复仍然被过滤掉？