查看完整版本: 建议改进重复网址的比较方法

bbswin 2008-6-3 10:05

建议改进重复网址的比较方法

现在的去除重复网址的方法是,每采集一个网址就在该站点的地址库中比较一下,当地址库中的地址达到10万以上时明显速度变慢,严重影响了效率。建议在任务采完网址后统一比较,然后去除重复网址。这样只每个任务只进行一次比较。
我的一个想法:在站点的地址库里加一个标识任务的字段和是否是新增的字段。当任务采集完地址后,在站点地址库中比较,去掉新增网址中和已有网址重复的网址,然后按任务标识字段所标识的内容把新增的网址写入相应的任务地址库。

飛越無限 2008-6-3 10:07

ACC的负荷不好,下一个版用sqlite的

bbswin 2008-6-3 17:01

用什么数据库,数据一多都会变慢。每个网址都要遍历一次数据库,很不效率。
页: [1]
查看完整版本: 建议改进重复网址的比较方法
售前客服QQ: 火车采集器客服 rq204, 火车采集器客服 飞越无限火车采集器客服 孤魂火车采集器客服 尘缘, 联系电话:0551-3495249(技术合作问题) 023-58436018 (08:00-20:00-客服),0752-2553545(09:00-20:00-客服)