关于站点地址库的建议。
我采集某个大站的列表第一个列表,(我只采集列表的第一页,如:http://www.**.com/栏目/列表_1.htm)由于该站更新量大,栏目众多,每天都可以采集5000左右的新数据。
采集数据是很爽的,但也带来的了个问题,就是地址库越来越大,(现在我的那个地址库80多MB了。)
采集速度越来越慢。(原因是:每次,采集到的新网址,都要与地址库中的几十万地址中进行对比,看是否重复。)
希望新版的火车头能添加如这种功能:如果采集3次,在列表页都无法找到该地址,就把该地址从地址库中删除。
这样就可以让地址库也永远保持年轻了。 这个可以自己处理一下的
在\PageUrl里面有如同:Site_2.mdb这样的access数据库文件,打开清理一下不就可以了吗
sql语句可以这样写的
delete from PageUrlwhere id <100
清理最早的100条
[ 本帖最后由 luobo525 于 2007-11-7 11:47 编辑 ] 原帖由 luobo525 于 2007-11-7 11:44 发表 http://bbs.locoy.com/images/common/back.gif
这个可以自己处理一下的
在\PageUrl里面有如同:Site_2.mdb这样的access数据库文件,打开清理一下不就可以了吗
sql语句可以这样写的
delete from PageUrlwhere id
不能这么清理啊,
我的目标站,有60多个栏目,有的栏目经常更新,有的栏目只一周只更新几十条。
如果用SQL语句的话,可能会把不常更新的栏目地址库全部删除。造成重复采集。 还有JOBID这个字段,加一个and 谢谢,这样判断确实有用,
但手动80多个栏目,一个个进行,还是很累,还要在数据库里翻,看采集到了多少ID。
但还是希望以后的版本能加上智能化,
只需要添加个字段,如果采集,如果没有发现该地址,就+1,如果+到3,还没有,那就删除该地址。
当然几次删除,这个可以用户自己设置最好。
[ 本帖最后由 chenghua 于 2007-11-7 12:36 编辑 ] :ali11ls ,对的,希望官方重视啊 和你们一块学习。。。
页:
[1]