大量采集时开始很慢,vip版会快一些吗?
比如说建一个30或者50万链接的采集,点任务开始之后就要等上几个小时才真正开始,这段时间就一直不能点击或其他任何动作。猜测这段时间是不是往access数据库里写链接呢?如果是vip版的sqlite,开始的这段时间会不会快很多? 不知道,我刚刚买的,还没测试呢 你可以每次采集一部分页面比如300页每次只采集50页。 楼上两位都是个人版的,管理员不是测试过sqlite生成十万级的链接只需要很少的时间吗?
因为采集的东西都很小,但是量都是很多的,20w、50w、80w这种比较常见的数量级,挂上几天不用管。如果分成太小份的就比较累了。
做一个猜测,如果开始这几个小时的假死是因为写access的关系,那么自己写程序操作SpiderResult.mdb,只要保证什么true、false、pageurl的值都正确,标签也对应,确保是初始状态,然后再开始任务就可以直接进行采集了吧?? 有看头,回复支持下. 采集速度一样,但是写入和读取数据库的速度会快一些 写入速度上来看,ViP版的Sqlite确实要快数倍乃至数十倍。 没遇到楼主的现象。。。。。。。。。 楼主说得这个问题还是很重要的。
如果是需要获取cookier的网站,是无法一下子采集很多数据的,设置的多了,火车开始假死机的这段时间很长,很多时候cookier就过期了,无法猜到正确的数据,只能设置一次采集少量数据,分次采集才可以。
页:
[1]