xiongyujie37 发表于 2008-10-23 13:34:28

大家是通过什么办法过滤掉 分页代码中的数字的呢?

比如 新浪的分页代码



<div class="pb"><table cellspacing=0 style="margin:0 auto;margin-top:30px;" align="center"><tr><td><div class='pagebox' id='_function_code_page'>
    <span class='pagebox_pre_nolink'>上一页</span>
<span class='pagebox_num_nonce'>1</span>
<span class='pagebox_num'><a href='http://kid.sina.com.cn/2008-08-28/221127156.html'>2</a></span>
<span class='pagebox_next'><a href='http://kid.sina.com.cn/2008-08-28/221127156.html'>下一页</a></span>
</div></td></tr></table></div>



通常过滤掉 上一页 下一页   

但是分页 代码中的数字 真是头痛

过滤 1
       2
       3


内容中含有1 2 3的也会受到影响。。。

通常碰到这样的情况还是比较多的,大家是怎么对付这个数字的呢?

chenfy 发表于 2008-10-23 13:39:45

做内容的时候就直接结束上分页链接的上面了

xiongyujie37 发表于 2008-10-23 13:42:21

原帖由 chenfy 于 2008-10-23 13:39 发表 http://bbs.locoy.com/images/common/back.gif
做内容的时候就直接结束上分页链接的上面了



没用的,我都是结束在分页代码以前的,但是只要采集分页,这些东西都会自己跑出来的

不行你试试,给你个地址:http://kid.baby.sina.com.cn/2008-08-28/221127155.html

yixiu188 发表于 2008-10-23 13:44:32

过来学习一下:lol :lol

xiongyujie37 发表于 2008-10-23 13:46:01

这个通过过滤span 标签可以 过滤掉1 和 2

因为平常碰到过好多这次这样了,忘了其它地方的地址了

如果没有标签来过滤 123之类的情况下,难道非要逼着我们过滤 123 ,不管内容吗?

aven 发表于 2008-10-23 14:10:33

很简单啊

有什么难的,直接过滤分页区

xiongyujie37 发表于 2008-10-23 15:55:32

过滤分页区 还能够采集到分页吗?


试试。。。看来自己太小心了。。。晕S。。。

aven 发表于 2008-10-23 16:01:12

当然能,

分页URL在采第一页时就已经全获得了
页: [1]
查看完整版本: 大家是通过什么办法过滤掉 分页代码中的数字的呢?