longqu 发表于 2007-8-16 16:21:12

一个很多高手(包括barfj)都回避的采集分页问题

看过了一些大哥的教程,有个问题都在回避


就是采集一系列地址的时候,有个地址没有分页,但是同一个列表中下个内容地址页有分页,这个时候就出错误

这是这个站http://www.barfj.com站长,版上朋友 史巴托的腹肌的教程这样写:采到2级网址18个搞定了
然后就是测试规则对这个内容能不能用很明显 这个可以用di   
ok保存任务
采集测试下
唉 不给面子
看的我心痒痒


现在基本差不多 剩下的就是改规则 使他可以用在每个页面上这个我就不说了


用了个不多说了,回避了问题。

还有就是火车教程的news.qq.com/shengyin.htm这页的采集,也有这个问题,广告过滤不了,内容页第一页有广告,第2页没有这样的都过滤不了。


望真正的高手出来解释!

[ 本帖最后由 longqu 于 2007-8-16 16:22 编辑 ]

qq177489 发表于 2007-8-16 16:28:03

longqu 发表于 2007-8-17 08:29:30

难道没人遇到这个问题?

kaohoo 发表于 2007-8-17 10:58:40


还有就是火车教程的news.qq.com/shengyin.htm这页的采集,也有这个问题,广告过滤不了,内容页第一页有广告,第2页没有这样的都过滤不了。

回答:
特别是一些大网站,CSS些的都很详细。认真研究,就能找出规律了。news.qq.com/shengyin.htm

<div id="Reading">腾讯的广告</div>


只要过滤上面的就行了。我给你测试过了,可以的。任务导给你。

我只采集了标题和内容(包括分页内容),作者、出处、时间 你根据自己的要求修改。

longqu 发表于 2007-8-17 12:15:49

:victory: ,巨强!!!由衷的说声佩服!

但是,我不懂的是,广告过滤,我从<table width="270" 开始到</table>
</div><!--/link-->

为什么就不能成功呢?而从<!--link-->(*)<!--/link-->就能成功呢?这个原理是什么

winslow 发表于 2007-8-17 13:01:07

多试下
页: [1]
查看完整版本: 一个很多高手(包括barfj)都回避的采集分页问题