【高手请进】火车采集器采集3000万个网页要多长时间?
如题!火车采集器采集3000万个网页要多长时间?
在线等、、、
[ 本帖最后由 在路上 于 2008-10-8 16:26 编辑 ] 难道这里没高手吗? 没人回?自己顶!!!!!!!!!!!!!! 一:跟您的互联网速度有关
二:跟目标站访问速度有关
三:跟目标站页面结构有关
四:跟采集规则的编写有关
五:跟你的计算机配置有关
您可以根据1条数据/秒的速率来估计 在我的机器上采集分秒一个。发布一秒三个 我的情况是:
一:中国电信ADSL 速率:4Mbps;
二:目标站是大站,类似163.com,qq.com;
三:页面结构比较标准;
四:不采集网址,网址直接提供,第一页即为目标页;
五:电脑是奔腾D双核1.8G,内存1G,硬盘120G;
能帮我估算一个大概吗?
1条数据/秒,实在是太慢了!!!这样一天才8万条数据。3000万的话,哇,要1年。我的妈呀! 楼主,你好牛啊,这么漫长的你都来采集啊???真牛,如果真的要采集那么多的话就不是一台电脑能搞定的了 我就在想如何能缩短时间啊!!!!!!
假如页面大小只有2-3KB呢? 火车一般是针对多少数据量级的网页采集啊? 我的情况是:
一:中国电信ADSL 速率:4Mbps;
二:目标站是大站,类似163.com,qq.com;
三:页面结构比较标准;
四:不采集网址,网址直接提供,第一页即为目标页;
五:电脑是奔腾D双核1.8G,内存1G,硬盘120G;
能帮我估算一个大概吗?
页:
[1]