“检测重复网址”选项无效问题。
我有一个采集任务,初始地址是一个列表,每个初始地址下面,会采集若干个2级地址。问题来了,举例子说明。假设:
第一个初始地址是:百度知道搜索“零食”,结果中的前50条。
第二个初始地址是:百度知道搜索“什么零食好吃”,结果中的前50条。
这两个初始地址下面的2级地址,一定是会用重复的。但是我需要重复采集。
我把 “检测重复网址” 这个选项放空,依然会出现这个问题。
我把“检测重复网址”这个选项选上,然后填写一个很大的数字,比如99999,也依然有这个问题。
何解?
我发现以前在本论坛上,也有人问过同样的问题。移步这里查看
http://bbs.locoy.com/forum.php?mod=viewthread&tid=136334
本帖最后由 coool 于 2014-7-24 02:34 编辑
检测重复网址,还会带来一个问题,就是:如果采集的数据很多,比如超过几万条这样,会越来越慢。
因为每次都需要到数据库里面去检索是否重复,所以50条数据和5万条数据的差别,将是巨大的!
而且在这个采集任务中,我确实需要重复采集一些页面,但是强大的火车头居然不能做到,我觉得不应该。。。
是不是我哪里设置有问题,还望高手指点一下。谢谢! coool 发表于 2014-7-24 02:32 static/image/common/back.gif
检测重复网址,还会带来一个问题,就是:如果采集的数据很多,比如超过几万条这样,会越来越慢。
因为每 ...
如果您是在单次运行中 有网址重复的,这种情况采集器是自动排除重复的,您是否勾选 检查重复网址,对这个是不起作用的。
所以如果您想2个起始地址 下网址不排除重复,只能分2个规则运行。
具体说明 http://faq.locoy.com/q-1097.html 用收费版MSSQL MYSQL数据库应该都要快很多 火车头的收费版本,有没有这种可以允许单次采集的时候采集重复网址的?
因为目前看来,单次里面的一定会有重复了。 那个选项是对于多次之间的排除重复。
我的初始网址有上百个,所以每个初始网址建一个规则,是不太可能了。
用2010版本,楼主的问题瞬间就不是问题了 眼睛里进了沙子,好难受,对同桌说,好难受啊,帮我吹下!妹子看了我一眼,红着脸说 下不为例啊,说着拉开了我的裤拉链http://www.bxwx.la/b/2/2726/ 290576138 发表于 2014-7-24 20:36 static/image/common/back.gif
用2010版本,楼主的问题瞬间就不是问题了
谢谢你! 2010版我在论坛下载,看到好像是V8? 我试试。
页:
[1]