【关于产品定位】火车一般是针对多少数量级的网页采集啊?万?or 千万?
【关于产品定位】火车一般是针对多少数量级的网页采集啊?
万? or十万?or百万?or千万?
[ 本帖最后由 在路上 于 2008-10-8 18:09 编辑 ] 谁能准确回答一下!
我的一节车厢就给他! 没明白啥意思
你想采多少都可以啊
机器配置不高,卡,就分几批采好了 觉得你这个问题没有意义。只要你的电脑足够牛,只要你足够有时间,有恒心,有毅力。你可以把sohu或者sina的新闻搬下来,可以把alibaba的企业搬下来,可以把taobao 的商品搬下来。
只要没人找你麻烦,你可以做任何事情,当然,你的硬盘要大,CPU够强。你的ACCESS要能顶的住。 时效性要求比较高。
采集周期超过一个月的就没有意义了!
听说有 单机 能达到500万个网页/天 的爬虫! 这些都没有去试过,但如果你的配置越好那么采集的速度也就越快,当然,网速要跟的上 真的有这个想法。一采采一个月的。
页:
[1]