popo0027 发表于 2013-1-11 18:43:51

请教2个内容采集问题

1 获取content中,有个“正文提取”,“提取内容”,这个的规则是什么,针对新闻类网站各种格式都能抓到,很牛
2 抓取http://tech.sina.com.cn/mobile/n/2013-01-11/15107970870.shtml的时候,因为有分页,所以把上一页和第一页的文字抓取了,而过滤掉后面的内容

分页的时候指定了抓取规则,也抓取了
正在分析 默认页 的分页中
下载分析 默认页 的分页 1   http://tech.sina.com.cn/mobile/n/2013-01-11/15107970870_2.shtml
下载分析 默认页 的分页 2   http://tech.sina.com.cn/mobile/n/2013-01-11/15107970870_3.shtml
下载分析 默认页 的分页 3   http://tech.sina.com.cn/mobile/n/2013-01-11/15107970870_4.shtml
下载分析 默认页 的分页 4   http://tech.sina.com.cn/mobile/n/2013-01-11/15107970870_5.shtml

只是实际获取的content还是第一页的内容,怎么把所有分页都抓到一个content内,有办法么

lmj243 发表于 2013-1-11 19:28:34

在内容里设分页规则,然后添加分页连接符号到时候方便你处理,
页: [1]
查看完整版本: 请教2个内容采集问题