V7 多级网址获取里的手动获取无效
已经升级到最新版以火车的官网为例,网址:http://bbs.locoy.com/netget-53-1.html
采集列表里面带new的主题
带new的源代码大概是这样<a href="http://bbs.locoy.com/spider-70545-1-1.html" onclick="atarget(this)" class="xst" >:s激活用户出错:-6,使用了一个随机用户:</a>
<img src="static/image/filetype/image_s.gif" alt="attach_img" title="图片附件" align="absmiddle" />
<a href="http://bbs.locoy.com/forum.php?mod=redirect&tid=70545&goto=lastpost#lastpost" class="xi1">New</a>这是一段带new字样的链接代码,需要的链接是http://bbs.locoy.com/spider-70545-1-1.html
采集网址里面采用多级网址获取-》手动获取。
我的脚步规则<a href="[参数]" onclick="atarget(this)" class="xst" >(*)</a>
<img src="static/image/filetype/image_s.gif" alt="attach_img" title="图片附件" align="absmiddle" />
<a href="(*)>New</a>或者
<a href="[参数]" onclick="atarget(this)" class="xst" >(*)</a>
<img src="static/image/filetype/image_s.gif" alt="attach_img" title="图片附件" align="absmiddle" />
<a href="http://bbs.locoy.com/forum.php?mod=redirect&tid=70545&goto=lastpost#lastpost" class="xi1">New</a>实际链接就是[参数]
采集出来的网址是包含整个页面的HTML代码。
不知道是我写错了还是什么,我不只在一个网站采集测试论坛带new字样的链接,都是采集出来的网址带HTML代码。
如果是BUG,请尽快修复。
这个不是bug,程序只是提取符合条件的数据,请检查您的采集规则。
页:
[1]