火车采集器V2008版更新[2008-08-08][火车车厢管理制度]论坛活跃、奖励计划http://domain.locoy.com火车采集器高级版本在线订购高级版本功能及技术支持列表
返回列表 回复 发帖

建议改进重复网址的比较方法

现在的去除重复网址的方法是,每采集一个网址就在该站点的地址库中比较一下,当地址库中的地址达到10万以上时明显速度变慢,严重影响了效率。建议在任务采完网址后统一比较,然后去除重复网址。这样只每个任务只进行一次比较。
我的一个想法:在站点的地址库里加一个标识任务的字段和是否是新增的字段。当任务采集完地址后,在站点地址库中比较,去掉新增网址中和已有网址重复的网址,然后按任务标识字段所标识的内容把新增的网址写入相应的任务地址库。
ACC的负荷不好,下一个版用sqlite的
火车头商业版购买与咨询、火车高难度采集、全站采集入库服务、采集规则定制、web在线发布、入库模块定制等业务、大家多多支持呀!联系QQ:86020004
┏┄┄┄┄站长交流中心┄┄┄┄┓
┇ 欢迎大家加入以下群,此群组主要为各位从事计算机爱好者服务欢迎各位高手加盟共同学习QQ群號:7830012  4671518┇
用什么数据库,数据一多都会变慢。每个网址都要遍历一次数据库,很不效率。
返回列表
售前客服QQ: 火车采集器客服 rq204, 火车采集器客服 飞越无限火车采集器客服 孤魂火车采集器客服 尘缘, 联系电话:0551-3495249(技术合作问题) 023-58436018 (08:00-20:00-客服),0752-2553545(09:00-20:00-客服)