发新话题
打印

[3.2版] 关于站点地址库的建议。

关于站点地址库的建议。

我采集某个大站的列表第一个列表,(我只采集列表的第一页,如:http://www.**.com/栏目/列表_1.htm

由于该站更新量大,栏目众多,每天都可以采集5000左右的新数据。

采集数据是很爽的,但也带来的了个问题,就是地址库越来越大,(现在我的那个地址库80多MB了。)

采集速度越来越慢。(原因是:每次,采集到的新网址,都要与地址库中的几十万地址中进行对比,看是否重复。)


希望新版的火车头能添加如这种功能:如果采集3次,在列表页都无法找到该地址,就把该地址从地址库中删除。


这样就可以让地址库也永远保持年轻了。

TOP

这个可以自己处理一下的
在\PageUrl里面有如同:Site_2.mdb这样的access数据库文件,打开清理一下不就可以了吗


sql语句可以这样写的
delete from PageUrl  where id <100
清理最早的100条

[ 本帖最后由 luobo525 于 2007-11-7 11:47 编辑 ]

TOP

引用:
原帖由 luobo525 于 2007-11-7 11:44 发表
这个可以自己处理一下的
在\PageUrl里面有如同:Site_2.mdb这样的access数据库文件,打开清理一下不就可以了吗


sql语句可以这样写的
delete from PageUrl  where id  
不能这么清理啊,

我的目标站,有60多个栏目,有的栏目经常更新,有的栏目只一周只更新几十条。

如果用SQL语句的话,可能会把不常更新的栏目地址库全部删除。造成重复采集。

TOP

还有JOBID这个字段,加一个and

TOP

谢谢,这样判断确实有用,
但手动80多个栏目,一个个进行,还是很累,还要在数据库里翻,看采集到了多少ID。



但还是希望以后的版本能加上智能化,

只需要添加个字段,如果采集,如果没有发现该地址,就+1,如果+到3,还没有,那就删除该地址。

当然几次删除,这个可以用户自己设置最好。

[ 本帖最后由 chenghua 于 2007-11-7 12:36 编辑 ]

TOP

,对的,希望官方重视啊

TOP

发新话题
Powered by Discuz! 6.0.0  © 2001-2007 Comsenz Technology Ltd
Processed in 0.190362 second(s), 6 queries, Gzip enabled
当前时区 GMT+8, 现在时间是 2008-11-23 07:55 皖ICP备06000549 清除 Cookies - 联系我们 - 火车采集器官方站 - 静态归档