一个很多高手（包括barfj）都回避的采集分页问题

longqu 发表于 2007-8-16 16:21:12

看过了一些大哥的教程,有个问题都在回避

就是采集一系列地址的时候，有个地址没有分页，但是同一个列表中下个内容地址页有分页，这个时候就出错误

这是这个站http://www.barfj.com站长，版上朋友史巴托的腹肌的教程这样写：采到2级网址18个搞定了
然后就是测试规则对这个内容能不能用很明显这个可以用di
ok保存任务
采集测试下
唉不给面子
看的我心痒痒

现在基本差不多剩下的就是改规则使他可以用在每个页面上这个我就不说了

用了个不多说了，回避了问题。

还有就是火车教程的news.qq.com/shengyin.htm这页的采集，也有这个问题，广告过滤不了，内容页第一页有广告，第2页没有这样的都过滤不了。

望真正的高手出来解释！

[ 本帖最后由 longqu 于 2007-8-16 16:22 编辑 ]

qq177489 发表于 2007-8-16 16:28:03

longqu 发表于 2007-8-17 08:29:30

难道没人遇到这个问题？

kaohoo 发表于 2007-8-17 10:58:40

还有就是火车教程的news.qq.com/shengyin.htm这页的采集，也有这个问题，广告过滤不了，内容页第一页有广告，第2页没有这样的都过滤不了。

回答：
特别是一些大网站，CSS些的都很详细。认真研究，就能找出规律了。news.qq.com/shengyin.htm

<div id="Reading">腾讯的广告</div>

只要过滤上面的就行了。我给你测试过了，可以的。任务导给你。

我只采集了标题和内容（包括分页内容），作者、出处、时间你根据自己的要求修改。

longqu 发表于 2007-8-17 12:15:49

:victory: ,巨强！！！由衷的说声佩服！

但是，我不懂的是，广告过滤，我从<table width="270" 开始到</table>
</div>

为什么就不能成功呢？而从(*)就能成功呢？这个原理是什么

winslow 发表于 2007-8-17 13:01:07

多试下

页: [1]

火车采集器软件交流官方论坛's Archiver

一个很多高手（包括barfj）都回避的采集分页问题