请教2个内容采集问题

popo0027 · 发表于 2013-1-11 18:43:51

1 获取content中，有个“正文提取”，“提取内容”，这个的规则是什么，针对新闻类网站各种格式都能抓到，很牛
2 抓取http://tech.sina.com.cn/mobile/n/2013-01-11/15107970870.shtml的时候，因为有分页，所以把上一页和第一页的文字抓取了，而过滤掉后面的内容

分页的时候指定了抓取规则，也抓取了
正在分析默认页的分页中
下载分析默认页的分页 1 http://tech.sina.com.cn/mobile/n/2013-01-11/15107970870_2.shtml
下载分析默认页的分页 2 http://tech.sina.com.cn/mobile/n/2013-01-11/15107970870_3.shtml
下载分析默认页的分页 3 http://tech.sina.com.cn/mobile/n/2013-01-11/15107970870_4.shtml
下载分析默认页的分页 4 http://tech.sina.com.cn/mobile/n/2013-01-11/15107970870_5.shtml

只是实际获取的content还是第一页的内容，怎么把所有分页都抓到一个content内，有办法么

lmj243 · 发表于 2013-1-11 19:28:34

在内容里设分页规则，然后添加分页连接符号到时候方便你处理，

帐号		自动登录	找回密码
密码			加入会员