火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 2873|回复: 7

大家是通过什么办法过滤掉 分页代码中的数字的呢?

[复制链接]
发表于 2008-10-23 13:34:28 | 显示全部楼层 |阅读模式
比如 新浪的分页代码



  1. <div class="pb"><table cellspacing=0 style="margin:0 auto;margin-top:30px;" align="center"><tr><td><div class='pagebox' id='_function_code_page'>
  2.     <span class='pagebox_pre_nolink'>上一页</span>
  3. <span class='pagebox_num_nonce'>1</span>
  4. <span class='pagebox_num'><a href='http://kid.sina.com.cn/2008-08-28/221127156.html'>2</a></span>
  5. <span class='pagebox_next'><a href='http://kid.sina.com.cn/2008-08-28/221127156.html'>下一页</a></span>
  6. </div></td></tr></table></div>
复制代码



通常过滤掉 上一页 下一页   

但是分页 代码中的  数字 真是头痛

过滤 1
       2
       3


内容中含有1 2 3的也会受到影响。。。

通常碰到这样的情况还是比较多的,大家是怎么对付这个数字的呢?
发表于 2008-10-23 13:39:45 | 显示全部楼层
做内容的时候就直接结束上分页链接的上面了
 楼主| 发表于 2008-10-23 13:42:21 | 显示全部楼层
原帖由 chenfy 于 2008-10-23 13:39 发表
做内容的时候就直接结束上分页链接的上面了




没用的,我都是结束在分页代码以前的,但是只要采集分页,这些东西都会自己跑出来的

不行你试试,给你个地址:http://kid.baby.sina.com.cn/2008-08-28/221127155.html
发表于 2008-10-23 13:44:32 | 显示全部楼层
过来学习一下
 楼主| 发表于 2008-10-23 13:46:01 | 显示全部楼层
这个通过  过滤  span 标签可以 过滤掉1 和 2

因为平常碰到过好多这次这样了,忘了其它地方的地址了

如果没有标签来过滤 1  2  3  之类的情况下,难道非要逼着我们  过滤 1  2  3 ,不管内容吗?
发表于 2008-10-23 14:10:33 | 显示全部楼层
很简单啊

有什么难的,直接过滤分页区

评分

1

查看全部评分

 楼主| 发表于 2008-10-23 15:55:32 | 显示全部楼层
过滤分页区 还能够采集到分页吗?


试试。。。看来自己太小心了。。。晕S。。。
发表于 2008-10-23 16:01:12 | 显示全部楼层
当然能,

分页URL在采第一页时就已经全获得了
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2026-4-23 11:42

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表