发新话题
打印

[3.2版] 火车的开发团队请进

火车的开发团队请进

请问下。火车头在采集这个流程时,是并发读取同一源地址的数据流的,还是顺序读取的呢?
专踩牛B站,js封装,flash调用,多重防踩;定制智能采集接口,自动化接口,数据翻译,伪原创策略组合,价格比对,验证码识别,口碑等图片样式电话识别。。。。QQ:肆零肆叁叁肆捌玖柒(最低消费200元)

TOP

默认3个并发按顺序读取。其顺序就是采集列表。

TOP

引用:
原帖由 sushy 于 2008-6-6 11:05 发表
默认3个并发按顺序读取。其顺序就是采集列表。
谢谢sushy回答。我还没表达清楚。

我是想问,具体到一个采集规则时。
如 标签:标题, 和标签:内容时。
这两个都是同一源地址。火车头一次性读取采集地址的数据流,储存在缓存中,然后再顺序按规则匹配。
还是,按标签排列顺序,顺序读取数据流,同时再匹配规则呢?
专踩牛B站,js封装,flash调用,多重防踩;定制智能采集接口,自动化接口,数据翻译,伪原创策略组合,价格比对,验证码识别,口碑等图片样式电话识别。。。。QQ:肆零肆叁叁肆捌玖柒(最低消费200元)

TOP

两者的区别就是,前者读取一次采集地址的数据,后者需读取两次。
专踩牛B站,js封装,flash调用,多重防踩;定制智能采集接口,自动化接口,数据翻译,伪原创策略组合,价格比对,验证码识别,口碑等图片样式电话识别。。。。QQ:肆零肆叁叁肆捌玖柒(最低消费200元)

TOP

火车头的规则是,先下载,后处理。
源码下载到本地,然后进行匹配。要是每个标签,火车都下载一次,呵呵,那不是太糟蹋网络了?

TOP

应该如此,只不过我开发了个插件,速度一直调不上去,现在只能一个一个排查。
谢谢sushy
专踩牛B站,js封装,flash调用,多重防踩;定制智能采集接口,自动化接口,数据翻译,伪原创策略组合,价格比对,验证码识别,口碑等图片样式电话识别。。。。QQ:肆零肆叁叁肆捌玖柒(最低消费200元)

TOP

可以设置采集线程,如果设为三线程,就是三个线程同时采集,然后一次性分析,根据所设定的规则,分别入库对到应的标签数据库里面
火车头商业版购买咨询及规则&模块定制服务:
QQ:509195509&78007024已满请加QQ511566576

孤魂的淘宝网店(已经加入"消费者保障计划")


使用火车头破解版者格杀勿论,传播火车头破解版者株连九族!
+下面是广告时间+--------------------------------------------------------------------------------------
高频变压器论坛TXT小说下载
我的博客:《孤魂居》les拉拉社区

出售国内外空间,联系QQ:511566576,价格适中,性价比绝对超高!

TOP

引用:
原帖由 孤魂 于 2008-6-6 18:59 发表
可以设置采集线程,如果设为三线程,就是三个线程同时采集,然后一次性分析,根据所设定的规则,分别入库对到应的标签数据库里面
只是不知道,在删除和替换方面,火车是如何运行的,先删除,还是先替换?

TOP

引用:
原帖由 sushy 于 2008-6-6 22:07 发表

只是不知道,在删除和替换方面,火车是如何运行的,先删除,还是先替换?
我的使用经验是先删除,再替换。
同一标签时,是由自上而下顺序执行。
专踩牛B站,js封装,flash调用,多重防踩;定制智能采集接口,自动化接口,数据翻译,伪原创策略组合,价格比对,验证码识别,口碑等图片样式电话识别。。。。QQ:肆零肆叁叁肆捌玖柒(最低消费200元)

TOP

发新话题
Powered by Discuz! 6.0.0  © 2001-2007 Comsenz Technology Ltd
Processed in 0.198733 second(s), 6 queries, Gzip enabled
当前时区 GMT+8, 现在时间是 2008-12-2 22:38 皖ICP备06000549 清除 Cookies - 联系我们 - 火车采集器官方站 - 静态归档