红色自由人 发表于 2010-7-8 14:08:07

关于火车头本地采集数据量的问题咨询

想咨询一个问题

我用了火车头免费版本的,正在采集中,犹豫目标网站数据量大,更新频率很高,所以每次采集都需要记录采集过的文章,否则会采集重复,这样一来时间长了就会本地积累采集过的数据很大,我想知道火车头能支撑多少数据呢?像我这样的采集方法!

谢谢,第一次发帖子,不知道的板块对不对,希望知情人士给予回答,谢谢!

yzimhao 发表于 2010-7-8 14:37:30

每次你都要从头到尾的采集吗??
其实你只需要第一次全站采集一遍,然后第二次从第一页开始采集,每天都是他更新的,就不会有重复了。然后你定期清理一下本地数据库,保证不会有重复的。

红色自由人 发表于 2010-7-8 14:51:22

每次你都要从头到尾的采集吗??
其实你只需要第一次全站采集一遍,然后第二次从第一页开始采集,每天都是 ...
yzimhao 发表于 2010-7-8 14:37 http://bbs.locoy.com/images/common/back.gif

恩,我看见本地有一个地址库 和一个本地采集数据库,地址库只存放的是采集过的url地址,本地采集库是存放的文章数据,假如我每次清除掉本地采集数据库,是不是就可以大量的减少数据库空间了,这样也不会影响重复采集吧!

yzimhao 发表于 2010-7-8 17:01:25

是的火车判断重复采集是 根据地址来判断的,不是比对数据。
只要保留地址库的数据就行了

missquiet 发表于 2010-12-22 15:10:23

是的火车判断重复采集是 根据地址来判断的,不是比对数据。
只要保留地址库的数据就行了
yzimhao 发表于 2010-7-8 17:01 http://bbs.locoy.com/images/common/back.gif

那有没有采集数据更新的解决方案呢

只通过地址判断是否重复还不够

lbjyuer 发表于 2016-2-8 18:41:28

和你们一块学习。。。

lbjyuer 发表于 2016-2-8 20:09:11

历史帖子回顾中。
页: [1]
查看完整版本: 关于火车头本地采集数据量的问题咨询