hxyang 发表于 2015-12-19 10:34:13

一百万数据用火车头采集数据需要多长时间?

本帖最后由 hxyang 于 2015-12-19 10:53 编辑

我采集的实际数据:40万    我用的本地4M电信宽带V8.6 旗舰版
单采集列表用了一天时间(只用到一条规则,四个多级网址获取), 然后采集内容用了2天多点(内容没有采集图片的,没分页,数据量不大),还没发布内容上去,    预计发布所有内容在1.5天左右
整个采集时间共花了5天左右,感觉速度是挺慢的       怎么才能提高采集效果呢。 这么采集如果是上千万数据估计得要花两个月才能完成了.
PS:1、火车头官方的图文吧数据量应该也有上千万吧,不知道采集用了多长时间。
2、听说大数据采集用python 爬虫程序快,实际能有多快,有没有前辈告知下 实际爬虫速度.(一般普通服务器配置)




imfly 发表于 2015-12-19 12:18:23

数据量大~采集速度加快可以使用各种方法~可分割成多个任务运行~还可提高采集线程数~

老雷 发表于 2015-12-29 13:39:43

分解成多个任务。
如果条件允许的话,多台电脑采集。

s80022 发表于 2016-1-1 11:04:26

老雷 发表于 2015-12-29 13:39
分解成多个任务。
如果条件允许的话,多台电脑采集。

基本上他分解多台不大有用....

宽带4M 来个100台火车头也只是互抢。
换成100台爬虫也是抢...

hxyang 发表于 2016-1-3 18:18:35

s80022 发表于 2016-1-1 11:04
基本上他分解多台不大有用....

宽带4M 来个100台火车头也只是互抢。


确实本地带宽确实太慢了 8M带宽也没快多少,还有就是一个栏目一条规则,单维护规则就累死了,还是等我研究好python爬虫程序,开多线程爬,直接在服务器运行 24小时不定时爬. 直接写入服务器数据库,应该快好多倍.   火车头只适合小量数据采集。不适合大数据.   
页: [1]
查看完整版本: 一百万数据用火车头采集数据需要多长时间?