caijihome 发表于 2012-8-16 18:40:01

火车头V7无限级列表采集非常厉害,希望增加一个功能会更加厉害。N级深层,N-M级也支持

本帖最后由 caijihome 于 2012-10-15 22:25 编辑

比如我采集一个网站 深度为2层。
当第一层下面有 第二层匹配的时候,他会接着提取第二层 采集。但是当第一层匹配不到2级设置时候直接跳过了,但是这些没有2级栏目的下面也是有数据的,导致这个规则拉掉数据。还要修改一次规则,麻烦。

真希望火车头能彻底做到自动化。

希望增加一个设置功能。配置第几层的时候,在配置页面 加一个选项。

是 否对 改级页面进行 链接提取操作,当做有效链接,而非抛弃。


顶呀!~!!就是把这个功能应用到列表链接采集,如果为空,用上级补全

caijihome 发表于 2012-8-16 18:44:44

一级列表下面去提取二级列表,二级列表再去提取 内容页链接。
当一级列表下面没有二级列表的时候,而直接是内容页链接,这时候 。用一个规则很难采集全部。

希望增强。
同样三级的时候一样。
希望增加一个功能会更加厉害。N级深层,N-M级也支持
比如这里增加一个选项

是否对该级列表页进行内容页提取

caijihome 发表于 2012-10-15 22:23:36


顶呀!~!!就是把这个功能应用到列表链接采集,如果为空,用上级补全


强烈建议,天天一顶

caijihome 发表于 2012-10-20 11:25:39

顶顶更健康,如果都没听懂,我还可以继续解释!

caijihome 发表于 2012-10-24 11:47:11

建议增强。现在采集一个网站,要改好几次。

pbdq 发表于 2012-11-7 23:19:22

这些都是采集采到天外飞仙级别的。

xiaoyongwudi 发表于 2012-11-17 09:48:14

大哥,这种采集深度方法怎么使用?我也遇到过多层的,差不多3层,苦恼中。

liuxing8z 发表于 2012-12-6 14:19:23

建议不错    

zcard 发表于 2013-2-1 22:04:15

不错的建议,加上这个,会把数据很精确地采集到啊

chenluoo 发表于 2013-2-3 07:01:37

匹配不到的就是规则不全部通用,有些页面没有这个特征码,建议可以用正则来匹配两个或者多个特征,只要有这个特征就提取了,呵呵:lol
页: [1] 2
查看完整版本: 火车头V7无限级列表采集非常厉害,希望增加一个功能会更加厉害。N级深层,N-M级也支持