“所属页面(多页)”不能随“该标签循环匹配”而循环匹配
如果设置了“该标签循环匹配”,并且使用“所属页面(多页)”问题是“所属页面(多页)”里面的地址只是第一个匹配的内容,不会循环匹配。。。
这个问题一直存在,以前好像也提过,能实现吗? hello, anybody here??? 您选中 该标签循环采集 试一下. 2010我用了,没问题。建议你保存退出一下,然后再试 回复 3# rq204
已经选择了,实际上还是不行的,用的是最新的2010免费版版,可能是大家理解错了,循环的不是多页里面的内容,而是多页的网址本身,我举个例子:
采集深度:0
a页面里面有这么一段:
<li class="aid">123</li>
<li class="aid">456</li>
<li class="aid">789</li>
里面数字是文章的id,我需要用到多页组成像:http://ww.xxx.com/123.html这样的页面,然后再采集http://ww.xxx.com/123.htm里面的内容
这就相当于:
首先要循环匹配a页面里面<li>中的数字
然后利用多页的功能组合成最终页面
问题就出在,不管怎样,多页出来的网址都是第一个匹配的,例子中就是http://ww.xxx.com/123.html
像http://ww.xxx.com/456.html http://ww.xxx.com/789.html 就无匹配出来,循环里面无法嵌套循环。
还有要说明一点为什么不用采集深度为1,先采了网址再采内容,这是因为在a页面有部分字段是必不可少的,所以只能这样。 回复 5# cctext
您说的这种目前还无法实现,您可以考虑使用插件来处理数据. 再放个例子,比如http://www.discuz.net/forum-2-1.html这个页面
假设,列表中的“作者”这个字段,在帖子内容页里面没有,只能在列表中采集,
这样是不是就只能用深度0,然后再通过“多页”功能去采详细的帖子内容了,这样采集到的永远是第一个帖子的内容,因为多页出来的网址,永远只是第一个帖子的地址。 回复 6# rq204
插件的话,好像内容也要在插件中采集了才能返回给火车
而不能得到相应的详情地址返回给火车再让火车采集相应的内容吧?
这样效率低了很多的。。
不知道我对火车的插件理解对不对,看例子,都是直接返回处理后的内容的了。
我现在是在发布模块里面PHP采的内容,效果不好。
页:
[1]