soarb 发表于 2008-6-5 23:11:12

火车的开发团队请进

请问下。火车头在采集这个流程时,是并发读取同一源地址的数据流的,还是顺序读取的呢?

sushy 发表于 2008-6-6 11:05:23

默认3个并发按顺序读取。其顺序就是采集列表。

soarb 发表于 2008-6-6 13:29:24

原帖由 sushy 于 2008-6-6 11:05 发表 http://bbs.locoy.com/images/common/back.gif
默认3个并发按顺序读取。其顺序就是采集列表。
谢谢sushy回答。我还没表达清楚。

我是想问,具体到一个采集规则时。
如 标签:标题, 和标签:内容时。
这两个都是同一源地址。火车头一次性读取采集地址的数据流,储存在缓存中,然后再顺序按规则匹配。
还是,按标签排列顺序,顺序读取数据流,同时再匹配规则呢?

soarb 发表于 2008-6-6 13:31:22

两者的区别就是,前者读取一次采集地址的数据,后者需读取两次。

sushy 发表于 2008-6-6 14:19:38

火车头的规则是,先下载,后处理。
源码下载到本地,然后进行匹配。要是每个标签,火车都下载一次,呵呵,那不是太糟蹋网络了?

soarb 发表于 2008-6-6 18:54:28

应该如此,只不过我开发了个插件,速度一直调不上去,现在只能一个一个排查。
谢谢sushy

孤魂 发表于 2008-6-6 18:59:13

可以设置采集线程,如果设为三线程,就是三个线程同时采集,然后一次性分析,根据所设定的规则,分别入库对到应的标签数据库里面

sushy 发表于 2008-6-6 22:07:51

原帖由 孤魂 于 2008-6-6 18:59 发表 http://bbs.locoy.com/images/common/back.gif
可以设置采集线程,如果设为三线程,就是三个线程同时采集,然后一次性分析,根据所设定的规则,分别入库对到应的标签数据库里面
只是不知道,在删除和替换方面,火车是如何运行的,先删除,还是先替换?

soarb 发表于 2008-6-7 11:11:26

原帖由 sushy 于 2008-6-6 22:07 发表 http://bbs.locoy.com/images/common/back.gif

只是不知道,在删除和替换方面,火车是如何运行的,先删除,还是先替换?

我的使用经验是先删除,再替换。
同一标签时,是由自上而下顺序执行。
页: [1]
查看完整版本: 火车的开发团队请进