luterry 发表于 2012-3-16 21:25:39

V7 多级网址获取里的手动获取无效

已经升级到最新版

以火车的官网为例,网址:http://bbs.locoy.com/netget-53-1.html

采集列表里面带new的主题
带new的源代码大概是这样<a href="http://bbs.locoy.com/spider-70545-1-1.html" onclick="atarget(this)" class="xst" >:s激活用户出错:-6,使用了一个随机用户:</a>
<img src="static/image/filetype/image_s.gif" alt="attach_img" title="图片附件" align="absmiddle" />
<a href="http://bbs.locoy.com/forum.php?mod=redirect&amp;tid=70545&amp;goto=lastpost#lastpost" class="xi1">New</a>这是一段带new字样的链接代码,需要的链接是http://bbs.locoy.com/spider-70545-1-1.html

采集网址里面采用多级网址获取-》手动获取。
我的脚步规则<a href="[参数]" onclick="atarget(this)" class="xst" >(*)</a>
<img src="static/image/filetype/image_s.gif" alt="attach_img" title="图片附件" align="absmiddle" />
<a href="(*)>New</a>或者
<a href="[参数]" onclick="atarget(this)" class="xst" >(*)</a>
<img src="static/image/filetype/image_s.gif" alt="attach_img" title="图片附件" align="absmiddle" />
<a href="http://bbs.locoy.com/forum.php?mod=redirect&amp;tid=70545&amp;goto=lastpost#lastpost" class="xi1">New</a>实际链接就是[参数]

采集出来的网址是包含整个页面的HTML代码。

不知道是我写错了还是什么,我不只在一个网站采集测试论坛带new字样的链接,都是采集出来的网址带HTML代码。

如果是BUG,请尽快修复。


rq204 发表于 2012-3-17 13:55:22

这个不是bug,程序只是提取符合条件的数据,请检查您的采集规则。
页: [1]
查看完整版本: V7 多级网址获取里的手动获取无效