火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3074|回复: 8

火车的开发团队请进

[复制链接]
发表于 2008-6-5 23:11:12 | 显示全部楼层 |阅读模式
请问下。火车头在采集这个流程时,是并发读取同一源地址的数据流的,还是顺序读取的呢?
发表于 2008-6-6 11:05:23 | 显示全部楼层
默认3个并发按顺序读取。其顺序就是采集列表。
 楼主| 发表于 2008-6-6 13:29:24 | 显示全部楼层
原帖由 sushy 于 2008-6-6 11:05 发表
默认3个并发按顺序读取。其顺序就是采集列表。

谢谢sushy回答。我还没表达清楚。

我是想问,具体到一个采集规则时。
如 标签:标题, 和标签:内容时。
这两个都是同一源地址。火车头一次性读取采集地址的数据流,储存在缓存中,然后再顺序按规则匹配。
还是,按标签排列顺序,顺序读取数据流,同时再匹配规则呢?
 楼主| 发表于 2008-6-6 13:31:22 | 显示全部楼层
两者的区别就是,前者读取一次采集地址的数据,后者需读取两次。
发表于 2008-6-6 14:19:38 | 显示全部楼层
火车头的规则是,先下载,后处理。
源码下载到本地,然后进行匹配。要是每个标签,火车都下载一次,呵呵,那不是太糟蹋网络了?
 楼主| 发表于 2008-6-6 18:54:28 | 显示全部楼层
应该如此,只不过我开发了个插件,速度一直调不上去,现在只能一个一个排查。
谢谢sushy
发表于 2008-6-6 18:59:13 | 显示全部楼层
可以设置采集线程,如果设为三线程,就是三个线程同时采集,然后一次性分析,根据所设定的规则,分别入库对到应的标签数据库里面
发表于 2008-6-6 22:07:51 | 显示全部楼层
原帖由 孤魂 于 2008-6-6 18:59 发表
可以设置采集线程,如果设为三线程,就是三个线程同时采集,然后一次性分析,根据所设定的规则,分别入库对到应的标签数据库里面

只是不知道,在删除和替换方面,火车是如何运行的,先删除,还是先替换?
 楼主| 发表于 2008-6-7 11:11:26 | 显示全部楼层
原帖由 sushy 于 2008-6-6 22:07 发表

只是不知道,在删除和替换方面,火车是如何运行的,先删除,还是先替换?


我的使用经验是先删除,再替换。
同一标签时,是由自上而下顺序执行。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-5-23 17:59

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表