11 12
发新话题
打印

地址库里的无效地址越来越多怎么办?

地址库里的无效地址越来越多怎么办?

好象有问题的地址都会在下次被重新采集,这样垃圾地址不是越来越多,并且每次工作量越来越大了么?本来列表页面只有几十个地址,现在采集一次,连同以前没有采集成功的(其实就是地址不对)一共要采集上千个地址.这些垃圾地址可以扔掉么?

请大大们指点下

TOP

第一次采集时所有列表页的地址都采集;采完后,只保留最后一页,删除多余的列表页并保存设置,以后采集时就不会有太多的重复地址了。
我是这样做的

TOP

回管理员:

我也是这么做的
第一次采集完所有页以后,把规则改为只采集第一页,以后每次只采集第一页最新的信息,即使是这样,地址也越来越多,现在基本一页都是上千条,慢的要死

TOP

又不好清空地址库,那你得去地址的字段手动删除那些不需要的!
火车采集器VIP,论坛大挪移VIP,模块以及规则定制,免费模块规则和采集录像教程请进

TOP

引用:
原帖由 西狂曲 于 2007-2-11 11:11 发表
回管理员:

我也是这么做的
第一次采集完所有页以后,把规则改为只采集第一页,以后每次只采集第一页最新的信息,即使是这样,地址也越来越多,现在基本一页都是上千条,慢的要死
对了,还可限制采集器使用模块在线发表到网站是一个模拟浏览器提交网址的范围哦。这功能可把要采集的地址限制在最小范围内。

TOP

MM说的好深奥!嘿嘿:) :victory:
火车采集器VIP,论坛大挪移VIP,模块以及规则定制,免费模块规则和采集录像教程请进

TOP

引用:
原帖由 netdream 于 2007-2-11 16:06 发表

对了,还可限制采集范围哦。这功能可把要采集的地址限制在最小范围内。

TOP

呵呵,晕死,刚才输些什么 啊:L :L :L

TOP

:) mm太累了!休息下哈!长时间对着电脑,对皮肤可不好哦!!
火车采集器VIP,论坛大挪移VIP,模块以及规则定制,免费模块规则和采集录像教程请进

TOP

呵呵,好的
唉,一弄起来就忘了时间,下了哈 88

TOP

 11 12
发新话题
Powered by Discuz! 6.0.0  © 2001-2007 Comsenz Technology Ltd
Processed in 0.210687 second(s), 6 queries, Gzip enabled
当前时区 GMT+8, 现在时间是 2008-11-24 02:52 皖ICP备06000549 清除 Cookies - 联系我们 - 火车采集器官方站 - 静态归档