火车头V7无限级列表采集非常厉害,希望增加一个功能会更加厉害。N级深层,N-M级也支持
本帖最后由 caijihome 于 2012-10-15 22:25 编辑比如我采集一个网站 深度为2层。
当第一层下面有 第二层匹配的时候,他会接着提取第二层 采集。但是当第一层匹配不到2级设置时候直接跳过了,但是这些没有2级栏目的下面也是有数据的,导致这个规则拉掉数据。还要修改一次规则,麻烦。
真希望火车头能彻底做到自动化。
希望增加一个设置功能。配置第几层的时候,在配置页面 加一个选项。
是 否对 改级页面进行 链接提取操作,当做有效链接,而非抛弃。
顶呀!~!!就是把这个功能应用到列表链接采集,如果为空,用上级补全
一级列表下面去提取二级列表,二级列表再去提取 内容页链接。
当一级列表下面没有二级列表的时候,而直接是内容页链接,这时候 。用一个规则很难采集全部。
希望增强。
同样三级的时候一样。
希望增加一个功能会更加厉害。N级深层,N-M级也支持
比如这里增加一个选项
是否对该级列表页进行内容页提取
顶呀!~!!就是把这个功能应用到列表链接采集,如果为空,用上级补全
强烈建议,天天一顶 顶顶更健康,如果都没听懂,我还可以继续解释! 建议增强。现在采集一个网站,要改好几次。 这些都是采集采到天外飞仙级别的。 大哥,这种采集深度方法怎么使用?我也遇到过多层的,差不多3层,苦恼中。 建议不错 不错的建议,加上这个,会把数据很精确地采集到啊 匹配不到的就是规则不全部通用,有些页面没有这个特征码,建议可以用正则来匹配两个或者多个特征,只要有这个特征就提取了,呵呵:lol
页:
[1]
2