火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3585|回复: 5

一个很多高手(包括barfj)都回避的采集分页问题

[复制链接]
发表于 2007-8-16 16:21:12 | 显示全部楼层 |阅读模式
看过了一些大哥的教程,有个问题都在回避


就是采集一系列地址的时候,有个地址没有分页,但是同一个列表中下个内容地址页有分页,这个时候就出错误

  这是这个站http://www.barfj.com  站长,版上朋友 史巴托的腹肌的教程这样写:
采到2级网址  18个  搞定了  
  然后就是测试  规则对这个内容能不能用  很明显 这个可以用di   
ok  保存任务
采集测试下
唉 不给面子  
看的我心痒痒  


现在基本差不多 剩下的就是改规则 使他可以用在每个页面上  这个我就不说了  


用了个不多说了,回避了问题。

还有就是火车教程的news.qq.com/shengyin.htm这页的采集,也有这个问题,广告过滤不了,内容页第一页有广告,第2页没有这样的都过滤不了。


望真正的高手出来解释!

[ 本帖最后由 longqu 于 2007-8-16 16:22 编辑 ]
头像被屏蔽
发表于 2007-8-16 16:28:03 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
 楼主| 发表于 2007-8-17 08:29:30 | 显示全部楼层
难道没人遇到这个问题?
发表于 2007-8-17 10:58:40 | 显示全部楼层
还有就是火车教程的news.qq.com/shengyin.htm这页的采集,也有这个问题,广告过滤不了,内容页第一页有广告第2页没有这样的都过滤不了。


回答:
特别是一些大网站,CSS些的都很详细。认真研究,就能找出规律了。news.qq.com/shengyin.htm

  1. <div id="Reading">腾讯的广告</div>
复制代码


只要过滤上面的就行了。我给你测试过了,可以的。任务导给你。

我只采集了标题和内容(包括分页内容),作者、出处、时间 你根据自己的要求修改。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
 楼主| 发表于 2007-8-17 12:15:49 | 显示全部楼层
:victory: ,巨强!!!由衷的说声佩服!

但是,我不懂的是,广告过滤,我从<table width="270" 开始到  </table>
</div><!--/link-->

为什么就不能成功呢?而从<!--link-->(*)<!--/link-->就能成功呢?这个原理是什么
发表于 2007-8-17 13:01:07 | 显示全部楼层
多试下
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-7-21 12:41

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表