火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 4719|回复: 6

关于站点地址库的建议。

[复制链接]
发表于 2007-11-7 11:37:57 | 显示全部楼层 |阅读模式
我采集某个大站的列表第一个列表,(我只采集列表的第一页,如:http://www.**.com/栏目/列表_1.htm

由于该站更新量大,栏目众多,每天都可以采集5000左右的新数据。

采集数据是很爽的,但也带来的了个问题,就是地址库越来越大,(现在我的那个地址库80多MB了。)

采集速度越来越慢。(原因是:每次,采集到的新网址,都要与地址库中的几十万地址中进行对比,看是否重复。)


希望新版的火车头能添加如这种功能:如果采集3次,在列表页都无法找到该地址,就把该地址从地址库中删除。


这样就可以让地址库也永远保持年轻了。
发表于 2007-11-7 11:44:24 | 显示全部楼层
这个可以自己处理一下的
在\PageUrl里面有如同:Site_2.mdb这样的access数据库文件,打开清理一下不就可以了吗


sql语句可以这样写的
delete from PageUrl  where id <100
清理最早的100条

[ 本帖最后由 luobo525 于 2007-11-7 11:47 编辑 ]
 楼主| 发表于 2007-11-7 11:56:49 | 显示全部楼层
原帖由 luobo525 于 2007-11-7 11:44 发表
这个可以自己处理一下的
在\PageUrl里面有如同:Site_2.mdb这样的access数据库文件,打开清理一下不就可以了吗


sql语句可以这样写的
delete from PageUrl  where id  

不能这么清理啊,

我的目标站,有60多个栏目,有的栏目经常更新,有的栏目只一周只更新几十条。

如果用SQL语句的话,可能会把不常更新的栏目地址库全部删除。造成重复采集。
发表于 2007-11-7 12:13:40 | 显示全部楼层
还有JOBID这个字段,加一个and
 楼主| 发表于 2007-11-7 12:34:16 | 显示全部楼层
谢谢,这样判断确实有用,
但手动80多个栏目,一个个进行,还是很累,还要在数据库里翻,看采集到了多少ID。



但还是希望以后的版本能加上智能化,

只需要添加个字段,如果采集,如果没有发现该地址,就+1,如果+到3,还没有,那就删除该地址。

当然几次删除,这个可以用户自己设置最好。

[ 本帖最后由 chenghua 于 2007-11-7 12:36 编辑 ]
发表于 2007-11-7 14:10:43 | 显示全部楼层
,对的,希望官方重视啊
发表于 2016-2-10 11:17:51 | 显示全部楼层
和你们一块学习。。。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-4-5 07:50

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表