chenghua 发表于 2007-11-7 11:37:57

关于站点地址库的建议。

我采集某个大站的列表第一个列表,(我只采集列表的第一页,如:http://www.**.com/栏目/列表_1.htm)

由于该站更新量大,栏目众多,每天都可以采集5000左右的新数据。

采集数据是很爽的,但也带来的了个问题,就是地址库越来越大,(现在我的那个地址库80多MB了。)

采集速度越来越慢。(原因是:每次,采集到的新网址,都要与地址库中的几十万地址中进行对比,看是否重复。)


希望新版的火车头能添加如这种功能:如果采集3次,在列表页都无法找到该地址,就把该地址从地址库中删除。


这样就可以让地址库也永远保持年轻了。

luobo525 发表于 2007-11-7 11:44:24

这个可以自己处理一下的
在\PageUrl里面有如同:Site_2.mdb这样的access数据库文件,打开清理一下不就可以了吗


sql语句可以这样写的
delete from PageUrlwhere id <100
清理最早的100条

[ 本帖最后由 luobo525 于 2007-11-7 11:47 编辑 ]

chenghua 发表于 2007-11-7 11:56:49

原帖由 luobo525 于 2007-11-7 11:44 发表 http://bbs.locoy.com/images/common/back.gif
这个可以自己处理一下的
在\PageUrl里面有如同:Site_2.mdb这样的access数据库文件,打开清理一下不就可以了吗


sql语句可以这样写的
delete from PageUrlwhere id
不能这么清理啊,

我的目标站,有60多个栏目,有的栏目经常更新,有的栏目只一周只更新几十条。

如果用SQL语句的话,可能会把不常更新的栏目地址库全部删除。造成重复采集。

luobo525 发表于 2007-11-7 12:13:40

还有JOBID这个字段,加一个and

chenghua 发表于 2007-11-7 12:34:16

谢谢,这样判断确实有用,
但手动80多个栏目,一个个进行,还是很累,还要在数据库里翻,看采集到了多少ID。



但还是希望以后的版本能加上智能化,

只需要添加个字段,如果采集,如果没有发现该地址,就+1,如果+到3,还没有,那就删除该地址。

当然几次删除,这个可以用户自己设置最好。

[ 本帖最后由 chenghua 于 2007-11-7 12:36 编辑 ]

luobo525 发表于 2007-11-7 14:10:43

:ali11ls ,对的,希望官方重视啊

lbjyuer 发表于 2016-2-10 11:17:51

和你们一块学习。。。
页: [1]
查看完整版本: 关于站点地址库的建议。