关于火车头本地采集数据量的问题咨询
想咨询一个问题我用了火车头免费版本的,正在采集中,犹豫目标网站数据量大,更新频率很高,所以每次采集都需要记录采集过的文章,否则会采集重复,这样一来时间长了就会本地积累采集过的数据很大,我想知道火车头能支撑多少数据呢?像我这样的采集方法!
谢谢,第一次发帖子,不知道的板块对不对,希望知情人士给予回答,谢谢! 每次你都要从头到尾的采集吗??
其实你只需要第一次全站采集一遍,然后第二次从第一页开始采集,每天都是他更新的,就不会有重复了。然后你定期清理一下本地数据库,保证不会有重复的。 每次你都要从头到尾的采集吗??
其实你只需要第一次全站采集一遍,然后第二次从第一页开始采集,每天都是 ...
yzimhao 发表于 2010-7-8 14:37 http://bbs.locoy.com/images/common/back.gif
恩,我看见本地有一个地址库 和一个本地采集数据库,地址库只存放的是采集过的url地址,本地采集库是存放的文章数据,假如我每次清除掉本地采集数据库,是不是就可以大量的减少数据库空间了,这样也不会影响重复采集吧! 是的火车判断重复采集是 根据地址来判断的,不是比对数据。
只要保留地址库的数据就行了 是的火车判断重复采集是 根据地址来判断的,不是比对数据。
只要保留地址库的数据就行了
yzimhao 发表于 2010-7-8 17:01 http://bbs.locoy.com/images/common/back.gif
那有没有采集数据更新的解决方案呢
只通过地址判断是否重复还不够 和你们一块学习。。。 历史帖子回顾中。
页:
[1]