大家是通过什么办法过滤掉 分页代码中的数字的呢?
比如 新浪的分页代码<div class="pb"><table cellspacing=0 style="margin:0 auto;margin-top:30px;" align="center"><tr><td><div class='pagebox' id='_function_code_page'>
<span class='pagebox_pre_nolink'>上一页</span>
<span class='pagebox_num_nonce'>1</span>
<span class='pagebox_num'><a href='http://kid.sina.com.cn/2008-08-28/221127156.html'>2</a></span>
<span class='pagebox_next'><a href='http://kid.sina.com.cn/2008-08-28/221127156.html'>下一页</a></span>
</div></td></tr></table></div>
通常过滤掉 上一页 下一页
但是分页 代码中的数字 真是头痛
过滤 1
2
3
内容中含有1 2 3的也会受到影响。。。
通常碰到这样的情况还是比较多的,大家是怎么对付这个数字的呢? 做内容的时候就直接结束上分页链接的上面了 原帖由 chenfy 于 2008-10-23 13:39 发表 http://bbs.locoy.com/images/common/back.gif
做内容的时候就直接结束上分页链接的上面了
没用的,我都是结束在分页代码以前的,但是只要采集分页,这些东西都会自己跑出来的
不行你试试,给你个地址:http://kid.baby.sina.com.cn/2008-08-28/221127155.html 过来学习一下:lol :lol 这个通过过滤span 标签可以 过滤掉1 和 2
因为平常碰到过好多这次这样了,忘了其它地方的地址了
如果没有标签来过滤 123之类的情况下,难道非要逼着我们过滤 123 ,不管内容吗? 很简单啊
有什么难的,直接过滤分页区 过滤分页区 还能够采集到分页吗?
试试。。。看来自己太小心了。。。晕S。。。 当然能,
分页URL在采第一页时就已经全获得了
页:
[1]