大家是通过什么办法过滤掉分页代码中的数字的呢？

xiongyujie37 发表于 2008-10-23 13:34:28

比如新浪的分页代码

<div class="pb"><table cellspacing=0 style="margin:0 auto;margin-top:30px;" align="center"><tr><td><div class='pagebox' id='_function_code_page'>
<span class='pagebox_pre_nolink'>上一页</span>
<span class='pagebox_num_nonce'>1</span>
<span class='pagebox_num'><a href='http://kid.sina.com.cn/2008-08-28/221127156.html'>2</a></span>
<span class='pagebox_next'><a href='http://kid.sina.com.cn/2008-08-28/221127156.html'>下一页</a></span>
</div></td></tr></table></div>

通常过滤掉上一页下一页

但是分页代码中的数字真是头痛

过滤 1
2
3

内容中含有1 2 3的也会受到影响。。。

通常碰到这样的情况还是比较多的，大家是怎么对付这个数字的呢？

chenfy 发表于 2008-10-23 13:39:45

做内容的时候就直接结束上分页链接的上面了

xiongyujie37 发表于 2008-10-23 13:42:21

原帖由 chenfy 于 2008-10-23 13:39 发表 http://bbs.locoy.com/images/common/back.gif
做内容的时候就直接结束上分页链接的上面了

没用的，我都是结束在分页代码以前的，但是只要采集分页，这些东西都会自己跑出来的

不行你试试，给你个地址：http://kid.baby.sina.com.cn/2008-08-28/221127155.html

yixiu188 发表于 2008-10-23 13:44:32

过来学习一下:lol :lol

xiongyujie37 发表于 2008-10-23 13:46:01

这个通过过滤span 标签可以过滤掉1 和 2

因为平常碰到过好多这次这样了，忘了其它地方的地址了

如果没有标签来过滤 123之类的情况下，难道非要逼着我们过滤 123 ，不管内容吗？

aven 发表于 2008-10-23 14:10:33

很简单啊

有什么难的，直接过滤分页区

xiongyujie37 发表于 2008-10-23 15:55:32

过滤分页区还能够采集到分页吗？

试试。。。看来自己太小心了。。。晕S。。。

aven 发表于 2008-10-23 16:01:12

当然能，

分页URL在采第一页时就已经全获得了

页: [1]

火车采集器软件交流官方论坛's Archiver

大家是通过什么办法过滤掉 分页代码中的数字的呢？

大家是通过什么办法过滤掉分页代码中的数字的呢？