火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3988|回复: 3

建议改进重复网址的比较方法

[复制链接]
发表于 2008-6-3 10:05:20 | 显示全部楼层 |阅读模式
现在的去除重复网址的方法是,每采集一个网址就在该站点的地址库中比较一下,当地址库中的地址达到10万以上时明显速度变慢,严重影响了效率。建议在任务采完网址后统一比较,然后去除重复网址。这样只每个任务只进行一次比较。
我的一个想法:在站点的地址库里加一个标识任务的字段和是否是新增的字段。当任务采集完地址后,在站点地址库中比较,去掉新增网址中和已有网址重复的网址,然后按任务标识字段所标识的内容把新增的网址写入相应的任务地址库。
发表于 2008-6-3 10:07:47 | 显示全部楼层
ACC的负荷不好,下一个版用sqlite的
 楼主| 发表于 2008-6-3 17:01:56 | 显示全部楼层
用什么数据库,数据一多都会变慢。每个网址都要遍历一次数据库,很不效率。
发表于 2016-2-10 02:54:31 | 显示全部楼层
历史帖子回顾中。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-24 18:36

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表