adabaohan 发表于 2010-9-14 12:36:42

请教:过滤重复网址时为何网址没重复仍然被过滤掉?

采集数据时先分析了网址,提取到内容所在的页面共4900多个存在txt文件里,直接用0级深度采集,勾选了重复网址过滤。

但不知道为什么采集内容的时候有500多个网址显示“生成0级网址--重复网址,排除:”然后这些页面的数据就没有采集下来,但搜索txt文件里明明同一个网址只有一个,哪位大大知道这是什么原因吗?

该任务的地址库已经清空过了,还是会产生这样的问题,到底是哪里出错了呢?

adabaohan 发表于 2010-9-17 03:58:14

自己解决了,是因为站点地址库的问题,把站点地址库清空以后就好了

qzc212 发表于 2010-10-31 22:13:01

是因为站点地址库的问题,我也郁闷了半天呢,谢谢啊。。。

Emma 发表于 2010-11-3 10:35:16

我的还是不行啊!我重新建了一个站点,也是不行的!把以前的采集规则里面的地址库都清空了,还有 问题也!{:1_201:}

china008 发表于 2010-12-7 12:42:28

多谢楼主,确实如此。
页: [1]
查看完整版本: 请教:过滤重复网址时为何网址没重复仍然被过滤掉?