|
 
- UID
- 3209
- 帖子
- 150
- 活跃度
- 204 点
- 火车车厢
- 14 节
- 注册时间
- 2006-6-10
|
1楼
发表于 2008-6-3 10:05
| 只看该作者
建议改进重复网址的比较方法
现在的去除重复网址的方法是,每采集一个网址就在该站点的地址库中比较一下,当地址库中的地址达到10万以上时明显速度变慢,严重影响了效率。建议在任务采完网址后统一比较,然后去除重复网址。这样只每个任务只进行一次比较。
我的一个想法:在站点的地址库里加一个标识任务的字段和是否是新增的字段。当任务采集完地址后,在站点地址库中比较,去掉新增网址中和已有网址重复的网址,然后按任务标识字段所标识的内容把新增的网址写入相应的任务地址库。 |
|