在路上 发表于 2008-10-8 18:02:01

【关于产品定位】火车一般是针对多少数量级的网页采集啊?万?or 千万?

【关于产品定位】

火车一般是针对多少数量级的网页采集啊?

万? or十万?or百万?or千万?

[ 本帖最后由 在路上 于 2008-10-8 18:09 编辑 ]

在路上 发表于 2008-10-8 18:07:35

谁能准确回答一下!
我的一节车厢就给他!

垃圾狗 发表于 2008-10-8 18:10:58

没明白啥意思
你想采多少都可以啊
机器配置不高,卡,就分几批采好了

sushy 发表于 2008-10-8 18:28:45

觉得你这个问题没有意义。只要你的电脑足够牛,只要你足够有时间,有恒心,有毅力。你可以把sohu或者sina的新闻搬下来,可以把alibaba的企业搬下来,可以把taobao 的商品搬下来。

只要没人找你麻烦,你可以做任何事情,当然,你的硬盘要大,CPU够强。你的ACCESS要能顶的住。

在路上 发表于 2008-10-8 18:53:16

时效性要求比较高。
采集周期超过一个月的就没有意义了!
听说有 单机 能达到500万个网页/天 的爬虫!

chenfy 发表于 2008-10-8 20:28:52

这些都没有去试过,但如果你的配置越好那么采集的速度也就越快,当然,网速要跟的上

xyz5200 发表于 2008-10-8 22:35:24

真的有这个想法。一采采一个月的。
页: [1]
查看完整版本: 【关于产品定位】火车一般是针对多少数量级的网页采集啊?万?or 千万?