火车头采集时几点要注意的问题
火车头绝对是采集数据的第一选择。这里说下用3.0要注意的几个问题。
1. 系统全局设置中几个选项要和你的网速协调起来,综合权衡。 如果出错较频繁,就把“同时运行任务数”,“线程数”设小点,间隔时间设大点。
2. 发布时标签是否为空的问题,感觉只要一出错,后面的发表几乎就停止了。此项建议设为“否”。
3. 每次采集网址尽量少点,减少出错的几率。
4. 采集和发布经常不协调,尤其是采集页面多的时候,造成前边采完了,但发布跟不上。我把发布线程数改为1,才好了点。
5. 用1.2.1版本采,网址可以上5000都没问题,但3.0网址数到500系统都反应慢了,而且容易出莫名其妙的错误。 同感啊,3.0我采音乐站不知死了多少次,比的上人肉了,现在一采上万的网址就有点怕怕了。
音乐站以后不采了,不做了。 :hug: :Q 我的机器,每次采的不能超过1000,超过就死
页:
[1]