coool 发表于 2014-7-24 02:28:01

“检测重复网址”选项无效问题。

我有一个采集任务,初始地址是一个列表,每个初始地址下面,会采集若干个2级地址。

问题来了,举例子说明。假设:
第一个初始地址是:百度知道搜索“零食”,结果中的前50条。
第二个初始地址是:百度知道搜索“什么零食好吃”,结果中的前50条。

这两个初始地址下面的2级地址,一定是会用重复的。但是我需要重复采集。

我把 “检测重复网址” 这个选项放空,依然会出现这个问题。
我把“检测重复网址”这个选项选上,然后填写一个很大的数字,比如99999,也依然有这个问题。

何解?


我发现以前在本论坛上,也有人问过同样的问题。移步这里查看

http://bbs.locoy.com/forum.php?mod=viewthread&tid=136334

coool 发表于 2014-7-24 02:32:38

本帖最后由 coool 于 2014-7-24 02:34 编辑

检测重复网址,还会带来一个问题,就是:如果采集的数据很多,比如超过几万条这样,会越来越慢。

因为每次都需要到数据库里面去检索是否重复,所以50条数据和5万条数据的差别,将是巨大的!

而且在这个采集任务中,我确实需要重复采集一些页面,但是强大的火车头居然不能做到,我觉得不应该。。。

是不是我哪里设置有问题,还望高手指点一下。谢谢!

kuhabe 发表于 2014-7-24 10:48:10

coool 发表于 2014-7-24 02:32 static/image/common/back.gif
检测重复网址,还会带来一个问题,就是:如果采集的数据很多,比如超过几万条这样,会越来越慢。

因为每 ...

如果您是在单次运行中 有网址重复的,这种情况采集器是自动排除重复的,您是否勾选 检查重复网址,对这个是不起作用的。

所以如果您想2个起始地址 下网址不排除重复,只能分2个规则运行。

具体说明 http://faq.locoy.com/q-1097.html

303718 发表于 2014-7-24 14:03:34

用收费版MSSQL MYSQL数据库应该都要快很多

coool 发表于 2014-7-24 14:22:21

火车头的收费版本,有没有这种可以允许单次采集的时候采集重复网址的?

因为目前看来,单次里面的一定会有重复了。 那个选项是对于多次之间的排除重复。

我的初始网址有上百个,所以每个初始网址建一个规则,是不太可能了。

290576138 发表于 2014-7-24 20:36:40

用2010版本,楼主的问题瞬间就不是问题了

造化之门 发表于 2014-7-25 12:37:16

眼睛里进了沙子,好难受,对同桌说,好难受啊,帮我吹下!妹子看了我一眼,红着脸说 下不为例啊,说着拉开了我的裤拉链http://www.bxwx.la/b/2/2726/

coool 发表于 2014-7-28 03:41:50

290576138 发表于 2014-7-24 20:36 static/image/common/back.gif
用2010版本,楼主的问题瞬间就不是问题了

谢谢你! 2010版我在论坛下载,看到好像是V8? 我试试。
页: [1]
查看完整版本: “检测重复网址”选项无效问题。