cctext 发表于 2010-8-8 13:24:53

“所属页面(多页)”不能随“该标签循环匹配”而循环匹配

如果设置了“该标签循环匹配”,并且使用“所属页面(多页)”

问题是“所属页面(多页)”里面的地址只是第一个匹配的内容,不会循环匹配。。。

这个问题一直存在,以前好像也提过,能实现吗?

cctext 发表于 2010-8-9 14:54:15

hello, anybody here???

rq204 发表于 2010-8-11 14:14:35

您选中 该标签循环采集 试一下.

ecbbs 发表于 2010-8-12 09:27:36

2010我用了,没问题。建议你保存退出一下,然后再试

cctext 发表于 2010-8-12 16:52:01

回复 3# rq204

已经选择了,实际上还是不行的,用的是最新的2010免费版版,可能是大家理解错了,循环的不是多页里面的内容,而是多页的网址本身,我举个例子:

采集深度:0
a页面里面有这么一段:
<li class="aid">123</li>
<li class="aid">456</li>
<li class="aid">789</li>
里面数字是文章的id,我需要用到多页组成像:http://ww.xxx.com/123.html这样的页面,然后再采集http://ww.xxx.com/123.htm里面的内容

这就相当于:
首先要循环匹配a页面里面<li>中的数字

然后利用多页的功能组合成最终页面

问题就出在,不管怎样,多页出来的网址都是第一个匹配的,例子中就是http://ww.xxx.com/123.html

像http://ww.xxx.com/456.html   http://ww.xxx.com/789.html 就无匹配出来,循环里面无法嵌套循环。

还有要说明一点为什么不用采集深度为1,先采了网址再采内容,这是因为在a页面有部分字段是必不可少的,所以只能这样。

rq204 发表于 2010-8-12 17:00:14

回复 5# cctext


    您说的这种目前还无法实现,您可以考虑使用插件来处理数据.

cctext 发表于 2010-8-12 17:01:47

再放个例子,比如http://www.discuz.net/forum-2-1.html这个页面

假设,列表中的“作者”这个字段,在帖子内容页里面没有,只能在列表中采集,

这样是不是就只能用深度0,然后再通过“多页”功能去采详细的帖子内容了,这样采集到的永远是第一个帖子的内容,因为多页出来的网址,永远只是第一个帖子的地址。

cctext 发表于 2010-8-12 17:07:01

回复 6# rq204


插件的话,好像内容也要在插件中采集了才能返回给火车

而不能得到相应的详情地址返回给火车再让火车采集相应的内容吧?

这样效率低了很多的。。

不知道我对火车的插件理解对不对,看例子,都是直接返回处理后的内容的了。

我现在是在发布模块里面PHP采的内容,效果不好。
页: [1]
查看完整版本: “所属页面(多页)”不能随“该标签循环匹配”而循环匹配