feezai 发表于 2006-11-17 16:46:36

火车头采集时几点要注意的问题

火车头绝对是采集数据的第一选择。
这里说下用3.0要注意的几个问题。

1. 系统全局设置中几个选项要和你的网速协调起来,综合权衡。 如果出错较频繁,就把“同时运行任务数”,“线程数”设小点,间隔时间设大点。

2. 发布时标签是否为空的问题,感觉只要一出错,后面的发表几乎就停止了。此项建议设为“否”。

3. 每次采集网址尽量少点,减少出错的几率。

4. 采集和发布经常不协调,尤其是采集页面多的时候,造成前边采完了,但发布跟不上。我把发布线程数改为1,才好了点。

5. 用1.2.1版本采,网址可以上5000都没问题,但3.0网址数到500系统都反应慢了,而且容易出莫名其妙的错误。

freeall 发表于 2006-11-18 20:27:10

同感啊,3.0我采音乐站不知死了多少次,比的上人肉了,现在一采上万的网址就有点怕怕了。
音乐站以后不采了,不做了。

tpsys 发表于 2006-11-20 09:58:57

:hug: :Q

梦想中文 发表于 2006-11-21 15:17:49

我的机器,每次采的不能超过1000,超过就死
页: [1]
查看完整版本: 火车头采集时几点要注意的问题