火车的开发团队请进
请问下。火车头在采集这个流程时,是并发读取同一源地址的数据流的,还是顺序读取的呢? 默认3个并发按顺序读取。其顺序就是采集列表。 原帖由 sushy 于 2008-6-6 11:05 发表 http://bbs.locoy.com/images/common/back.gif默认3个并发按顺序读取。其顺序就是采集列表。
谢谢sushy回答。我还没表达清楚。
我是想问,具体到一个采集规则时。
如 标签:标题, 和标签:内容时。
这两个都是同一源地址。火车头一次性读取采集地址的数据流,储存在缓存中,然后再顺序按规则匹配。
还是,按标签排列顺序,顺序读取数据流,同时再匹配规则呢? 两者的区别就是,前者读取一次采集地址的数据,后者需读取两次。 火车头的规则是,先下载,后处理。
源码下载到本地,然后进行匹配。要是每个标签,火车都下载一次,呵呵,那不是太糟蹋网络了? 应该如此,只不过我开发了个插件,速度一直调不上去,现在只能一个一个排查。
谢谢sushy 可以设置采集线程,如果设为三线程,就是三个线程同时采集,然后一次性分析,根据所设定的规则,分别入库对到应的标签数据库里面 原帖由 孤魂 于 2008-6-6 18:59 发表 http://bbs.locoy.com/images/common/back.gif
可以设置采集线程,如果设为三线程,就是三个线程同时采集,然后一次性分析,根据所设定的规则,分别入库对到应的标签数据库里面
只是不知道,在删除和替换方面,火车是如何运行的,先删除,还是先替换? 原帖由 sushy 于 2008-6-6 22:07 发表 http://bbs.locoy.com/images/common/back.gif
只是不知道,在删除和替换方面,火车是如何运行的,先删除,还是先替换?
我的使用经验是先删除,再替换。
同一标签时,是由自上而下顺序执行。
页:
[1]