探讨系统标签和自定义标签的问题
不知道各位有没有遇到这样的问题,在采集规则中某些标签在规则相同的时候,包括还是和结束字符串、分页等采集的结果却大部相同
比如我采集http://newspic.cn.yahoo.com/pets/article/index.html?type=gallery_show&p=62112 这样地址内的图片
我本来已经成功的将图片链接和分页都设置好了,除了图片有图片重复未解决以外,可以说内容都采集到了
其实我的真实目的仅仅是采集到http://cn.yimg.com/gallery/pets/200710191357516211211.jpg这样的图片地址,
并希望将标签命名为【图片地址】而不是【内容】,前提是除了改换标签名字之外没有改变任何其他设置
结果是只采集到第一个页面的图片地址,反而分页规则不起作用了(当然,我也可以不改变【内容】标签名称解决,只是借此更深一步了解火车头)
我的问题是,难道规则相同换个标签名称就需要改变整个结果吗?这是因为系统标签和自定义标签的问题吗?
不知到各位高手怎么看?
另外,如果高手们能帮我看看采集内容中图片地址重复的问题该如何解决,小弟将感激涕零!!
</div><div class="cnt_r_cnt">
<div class="cnt_r_img"><a href="javascript:nextpage();"><img src="http://cn.yimg.com/gallery/pets/200710171007426147922.jpg" border="0" alt="点击图片查看下一幅" width="500" height="375" /></a></div><div style="font-size:14px;text-align:center; margin-top:5px; margin-bottom:5px;"><img src="http://cn.yimg.com/i/news/pics/ico/03.gif" border="0" align="absbottom"><a href="javascript:nextpage()">点击图片查看下一幅</a> | <img src="http://cn.yimg.com/i/news/pics/ico/01.gif" border="0"><a href="http://cn.yimg.com/gallery/pets/200710171007426147922.jpg" target="_blank">查看原图</a> | <img src="http://cn.yimg.com/i/news/pics/ico/04.gif" border="0" align="bottom"><a href="javascript:play()">自动播放</a></div></div>
<div class="cnt_r_cnt">
<table width="100%" border="0" cellspacing="0" cellpadding="0" align="center" style="margin-top:10px; margin-bottom:10px;">
<tr>
<td><font style="font-size:14px;"><b>图解:</b>装可爱的眼神...</font></td>
</tr>
</table>
</div><div class="page">
<div class="page_cnt">
<a href="http://newspic.cn.yahoo.com/pets/article/gallery_show/p_61479/"><img src="http://cn.yimg.com/i/news/pics/btn/05.gif" border="0" /></a>
<a href="javascript:lastpage();"><img src="http://cn.yimg.com/i/news/pics/btn/02.gif" border="0" /></a>
<a href="http://newspic.cn.yahoo.com/pets/article/gallery_show/p_61479/page_0/" class="linkc">1</a> <span style="font-weight:bolder;color:#69A33F;line-height:24px;" >2</span> <a href="http://newspic.cn.yahoo.com/pets/article/gallery_show/p_61479/page_2/" class="linkc">3</a> <a href="http://newspic.cn.yahoo.com/pets/article/gallery_show/p_61479/page_3/" class="linkc">4</a> <a href="http://newspic.cn.yahoo.com/pets/article/gallery_show/p_61479/page_4/" class="linkc">..</a><a href="javascript:nextpage();"><img src="http://cn.yimg.com/i/news/pics/btn/03.gif" border="0" /></a>
<a href="http://newspic.cn.yahoo.com/pets/article/gallery_show/p_61479/page_8/"><img src="http://cn.yimg.com/i/news/pics/btn/07.gif" border="0" /></a>
</div>
[ 本帖最后由 dumu 于 2008-9-4 13:14 编辑 ] 采集多个分页的 需要在标签那要勾选此标签在分页中匹配 谢谢火车头老大,我去试试 不过我使用的是3.2SP5,没有这个选项,而用2008却始终显示无法登陆,我发布目标站是SS6程序
页:
[1]