火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3519|回复: 7

“所属页面(多页)”不能随“该标签循环匹配”而循环匹配

[复制链接]
发表于 2010-8-8 13:24:53 | 显示全部楼层 |阅读模式
如果设置了“该标签循环匹配”,并且使用“所属页面(多页)”

问题是“所属页面(多页)”里面的地址只是第一个匹配的内容,不会循环匹配。。。

这个问题一直存在,以前好像也提过,能实现吗?
 楼主| 发表于 2010-8-9 14:54:15 | 显示全部楼层
hello, anybody here???
发表于 2010-8-11 14:14:35 | 显示全部楼层
您选中 该标签循环采集 试一下.
发表于 2010-8-12 09:27:36 | 显示全部楼层
2010我用了,没问题。建议你保存退出一下,然后再试
 楼主| 发表于 2010-8-12 16:52:01 | 显示全部楼层
回复 3# rq204

已经选择了,实际上还是不行的,用的是最新的2010免费版版,可能是大家理解错了,循环的不是多页里面的内容,而是多页的网址本身,我举个例子:

采集深度:0
a页面里面有这么一段:

  1. <li class="aid">123</li>
  2. <li class="aid">456</li>
  3. <li class="aid">789</li>
复制代码
里面数字是文章的id,我需要用到多页组成像:http://ww.xxx.com/123.html这样的页面,然后再采集http://ww.xxx.com/123.htm里面的内容

这就相当于:
首先要循环匹配a页面里面<li>中的数字

然后利用多页的功能组合成最终页面

问题就出在,不管怎样,多页出来的网址都是第一个匹配的,例子中就是http://ww.xxx.com/123.html

像http://ww.xxx.com/456.html   http://ww.xxx.com/789.html 就无匹配出来,循环里面无法嵌套循环。

还有要说明一点为什么不用采集深度为1,先采了网址再采内容,这是因为在a页面有部分字段是必不可少的,所以只能这样。
发表于 2010-8-12 17:00:14 | 显示全部楼层
回复 5# cctext


    您说的这种目前还无法实现,您可以考虑使用插件来处理数据.
 楼主| 发表于 2010-8-12 17:01:47 | 显示全部楼层
再放个例子,比如http://www.discuz.net/forum-2-1.html这个页面

假设,列表中的“作者”这个字段,在帖子内容页里面没有,只能在列表中采集

这样是不是就只能用深度0,然后再通过“多页”功能去采详细的帖子内容了,这样采集到的永远是第一个帖子的内容,因为多页出来的网址,永远只是第一个帖子的地址。
 楼主| 发表于 2010-8-12 17:07:01 | 显示全部楼层
回复 6# rq204


插件的话,好像内容也要在插件中采集了才能返回给火车

而不能得到相应的详情地址返回给火车再让火车采集相应的内容吧?

这样效率低了很多的。。

不知道我对火车的插件理解对不对,看例子,都是直接返回处理后的内容的了。

我现在是在发布模块里面PHP采的内容,效果不好。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-19 05:47

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表