火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3552|回复: 7

“检测重复网址”选项无效问题。

[复制链接]
发表于 2014-7-24 02:28:01 | 显示全部楼层 |阅读模式
我有一个采集任务,初始地址是一个列表,每个初始地址下面,会采集若干个2级地址。

问题来了,举例子说明。假设:
第一个初始地址是:百度知道搜索“零食”,结果中的前50条。
第二个初始地址是:百度知道搜索“什么零食好吃”,结果中的前50条。

这两个初始地址下面的2级地址,一定是会用重复的。但是我需要重复采集。

我把 “检测重复网址” 这个选项放空,依然会出现这个问题。
我把“检测重复网址”这个选项选上,然后填写一个很大的数字,比如99999,也依然有这个问题。

何解?


我发现以前在本论坛上,也有人问过同样的问题。移步这里查看

http://bbs.locoy.com/forum.php?mod=viewthread&tid=136334
 楼主| 发表于 2014-7-24 02:32:38 | 显示全部楼层
本帖最后由 coool 于 2014-7-24 02:34 编辑

检测重复网址,还会带来一个问题,就是:如果采集的数据很多,比如超过几万条这样,会越来越慢。

因为每次都需要到数据库里面去检索是否重复,所以50条数据和5万条数据的差别,将是巨大的!

而且在这个采集任务中,我确实需要重复采集一些页面,但是强大的火车头居然不能做到,我觉得不应该。。。

是不是我哪里设置有问题,还望高手指点一下。谢谢!
发表于 2014-7-24 10:48:10 | 显示全部楼层
coool 发表于 2014-7-24 02:32
检测重复网址,还会带来一个问题,就是:如果采集的数据很多,比如超过几万条这样,会越来越慢。

因为每 ...

如果您是在单次运行中 有网址重复的,这种情况采集器是自动排除重复的,您是否勾选 检查重复网址,对这个是不起作用的。

所以如果您想2个起始地址 下网址不排除重复,只能分2个规则运行。

具体说明 http://faq.locoy.com/q-1097.html
发表于 2014-7-24 14:03:34 | 显示全部楼层
用收费版MSSQL MYSQL数据库应该都要快很多
 楼主| 发表于 2014-7-24 14:22:21 | 显示全部楼层
火车头的收费版本,有没有这种可以允许单次采集的时候采集重复网址的?

因为目前看来,单次里面的一定会有重复了。 那个选项是对于多次之间的排除重复。

我的初始网址有上百个,所以每个初始网址建一个规则,是不太可能了。
发表于 2014-7-24 20:36:40 | 显示全部楼层
用2010版本,楼主的问题瞬间就不是问题了
发表于 2014-7-25 12:37:16 | 显示全部楼层
眼睛里进了沙子,好难受,对同桌说,好难受啊,帮我吹下!妹子看了我一眼,红着脸说 下不为例啊,说着拉开了我的裤拉链
 楼主| 发表于 2014-7-28 03:41:50 | 显示全部楼层
290576138 发表于 2014-7-24 20:36
用2010版本,楼主的问题瞬间就不是问题了

谢谢你! 2010版我在论坛下载,看到好像是V8? 我试试。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-25 07:42

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表