火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 4065|回复: 6

关于火车头本地采集数据量的问题咨询

[复制链接]
发表于 2010-7-8 14:08:07 | 显示全部楼层 |阅读模式
想咨询一个问题

我用了火车头免费版本的,正在采集中,犹豫目标网站数据量大,更新频率很高,所以每次采集都需要记录采集过的文章,否则会采集重复,这样一来时间长了就会本地积累采集过的数据很大,我想知道火车头能支撑多少数据呢?像我这样的采集方法!

谢谢,第一次发帖子,不知道的板块对不对,希望知情人士给予回答,谢谢!
发表于 2010-7-8 14:37:30 | 显示全部楼层
每次你都要从头到尾的采集吗??
其实你只需要第一次全站采集一遍,然后第二次从第一页开始采集,每天都是他更新的,就不会有重复了。然后你定期清理一下本地数据库,保证不会有重复的。
 楼主| 发表于 2010-7-8 14:51:22 | 显示全部楼层
每次你都要从头到尾的采集吗??
其实你只需要第一次全站采集一遍,然后第二次从第一页开始采集,每天都是 ...
yzimhao 发表于 2010-7-8 14:37


恩,我看见本地有一个地址库 和一个本地采集数据库,地址库只存放的是采集过的url地址,本地采集库是存放的文章数据,假如我每次清除掉本地采集数据库,是不是就可以大量的减少数据库空间了,这样也不会影响重复采集吧!
发表于 2010-7-8 17:01:25 | 显示全部楼层
是的  火车判断重复采集是 根据地址来判断的,不是比对数据。
只要保留地址库的数据就行了
发表于 2010-12-22 15:10:23 | 显示全部楼层
是的  火车判断重复采集是 根据地址来判断的,不是比对数据。
只要保留地址库的数据就行了
yzimhao 发表于 2010-7-8 17:01


那有没有采集数据更新的解决方案呢

只通过地址判断是否重复还不够
发表于 2016-2-8 18:41:28 | 显示全部楼层
和你们一块学习。。。
发表于 2016-2-8 20:09:11 | 显示全部楼层
历史帖子回顾中。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-24 22:09

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表