请教2个内容采集问题
1 获取content中,有个“正文提取”,“提取内容”,这个的规则是什么,针对新闻类网站各种格式都能抓到,很牛2 抓取http://tech.sina.com.cn/mobile/n/2013-01-11/15107970870.shtml的时候,因为有分页,所以把上一页和第一页的文字抓取了,而过滤掉后面的内容
分页的时候指定了抓取规则,也抓取了
正在分析 默认页 的分页中
下载分析 默认页 的分页 1 http://tech.sina.com.cn/mobile/n/2013-01-11/15107970870_2.shtml
下载分析 默认页 的分页 2 http://tech.sina.com.cn/mobile/n/2013-01-11/15107970870_3.shtml
下载分析 默认页 的分页 3 http://tech.sina.com.cn/mobile/n/2013-01-11/15107970870_4.shtml
下载分析 默认页 的分页 4 http://tech.sina.com.cn/mobile/n/2013-01-11/15107970870_5.shtml
只是实际获取的content还是第一页的内容,怎么把所有分页都抓到一个content内,有办法么 在内容里设分页规则,然后添加分页连接符号到时候方便你处理,
页:
[1]