请教:过滤重复网址时为何网址没重复仍然被过滤掉?
采集数据时先分析了网址,提取到内容所在的页面共4900多个存在txt文件里,直接用0级深度采集,勾选了重复网址过滤。但不知道为什么采集内容的时候有500多个网址显示“生成0级网址--重复网址,排除:”然后这些页面的数据就没有采集下来,但搜索txt文件里明明同一个网址只有一个,哪位大大知道这是什么原因吗?
该任务的地址库已经清空过了,还是会产生这样的问题,到底是哪里出错了呢? 自己解决了,是因为站点地址库的问题,把站点地址库清空以后就好了 是因为站点地址库的问题,我也郁闷了半天呢,谢谢啊。。。 我的还是不行啊!我重新建了一个站点,也是不行的!把以前的采集规则里面的地址库都清空了,还有 问题也!{:1_201:} 多谢楼主,确实如此。
页:
[1]