火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 12022|回复: 4

一百万数据用火车头采集数据需要多长时间?

[复制链接]
发表于 2015-12-19 10:34:13 | 显示全部楼层 |阅读模式
本帖最后由 hxyang 于 2015-12-19 10:53 编辑

我采集的实际数据:40万    我用的本地4M电信宽带  V8.6 旗舰版
单采集列表用了一天时间(只用到一条规则,四个多级网址获取), 然后采集内容用了2天多点(内容没有采集图片的,没分页,数据量不大),  还没发布内容上去,    预计发布所有内容在1.5天左右  
整个采集时间共花了5天左右  ,感觉速度是挺慢的       怎么才能提高采集效果呢。 这么采集如果是上千万数据估计得要花两个月才能完成了.  
PS:1、火车头官方的图文吧数据量应该也有上千万吧,不知道采集用了多长时间。
2、听说大数据采集用python 爬虫程序快,实际能有多快,有没有前辈告知下 实际爬虫速度.(一般普通服务器配置)




发表于 2015-12-19 12:18:23 | 显示全部楼层
数据量大~采集速度加快可以使用各种方法~可分割成多个任务运行~还可提高采集线程数~
发表于 2015-12-29 13:39:43 | 显示全部楼层
分解成多个任务。
如果条件允许的话,多台电脑采集。
发表于 2016-1-1 11:04:26 | 显示全部楼层
老雷 发表于 2015-12-29 13:39
分解成多个任务。
如果条件允许的话,多台电脑采集。

基本上他分解多台不大有用....

宽带4M 来个100台火车头也只是互抢。
换成100台爬虫也是抢...

 楼主| 发表于 2016-1-3 18:18:35 | 显示全部楼层
s80022 发表于 2016-1-1 11:04
基本上他分解多台不大有用....

宽带4M 来个100台火车头也只是互抢。

确实本地带宽确实太慢了 8M带宽也没快多少,还有就是一个栏目一条规则,单维护规则就累死了,还是等我研究好python爬虫程序,开多线程爬,直接在服务器运行 24小时不定时爬. 直接写入服务器数据库,应该快好多倍.   火车头只适合小量数据采集。  不适合大数据.   
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-8-24 22:47

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表