v7正文提取+智能分页生成php接口,实现不同域名文章采集
本帖最后由 qqtoqq 于 2012-5-12 13:15 编辑v7新版增加了很多的功能,都很强大,无限列表 无限多页更是牛气冲天。其中有个正文标题内容自动提取的功能,这个可以无需设置标签截取规则就智能的获取准确的数据,适用于网站模板有多种的采集,但也是有些局限性,假路是不同域名的站点下的采集,文章类网站通常都是有分页的,这时就无法通过设置分页获取规则,实现对不同域名站点的分页采集了,因为n个站点分页对应n种分页规则,而这些需要在一个规则中实现,单纯用火车头不能处理,这时貌似正文提取功能也失去了实用性了,不同站点不会采集到文章分页,所以只会采集到文章的一部分(第1页)。
一个规则包含不同站点文章的采集方法:不同域名文章分页自动生成接口+火车头正文提取。
不同域名文章分页自动生成接口:实现原理也很简单,一般文章的分页都是以数字递增的规范的写法,路:test_1.htmltest_2.html,gg,1.htmlgg,2.html (17173类分页),这些都是有规律的,文章类站点都是静态的url,那摩只要首先通过第一页获取当前文件的名字,去掉分页页码部分,取名字前缀,扩展名,然后在第一页利用 正则='/'.$public_name.'([^0-9a-zA-Z])(\d+)?\.'.$type.'/is',就可以算出分页的最大数量,分页的连接符(_ ,等),这样就实现了不同域名站点的分页自动生成效果,生成了火车头可以识别的url,这样就采集了不同的域名的文章了,提取信息当然用到的是正文提取功能,这个功能也变得很有用了。
不同域名分页接口:
1.实现不同域名文章分页自动生成为火车头可以识别形式,设置固定的分页区间:[分页] [/分页];
2.原理:分页url都是格式相似的,利用这个相似找出页码设置规则,文件名与页码的连接符,通过在第一页匹配相似url,得出页码 文件名连接符(,_等)和最大页码(一般文章的最大页码在第一页总是提供的);
3.适用:百度搜索某个关键字得到的不同站点文章 百度风云榜等收录不同站点文章的网站,总体来说实用性还是很低,很少有这样的采集要求。
下面的采集示例是以前某个朋友的采集要求:用到了这样的采集策略
采集列表页:http://top.baidu.com/buzz.php?p=top10
要求:采集百度风云榜,每个关键字打开后的2级列表页里第一篇文章。
路:关键字-揭发父母违反人性2级列表-http://top.baidu.com/detail.php?b=1&w=%B9%C3%B8%B8%CA%C7%B4%A6%B3%A4
第一篇文章--http://finance.gucheng.com/201205/1904017.shtml;
这里用到了v7的多页的分页功能,1级列表-----2级列表-------分页接口调用文章页(接口可以用于其它的采集,只要提交内容页url给他即可)。
分页设置:
效果截图:
最后打个广告,高难度采集 联系QQ:http://wpa.qq.com/pa?p=2:972130397:47
{:soso_e132:}{:soso_e140:}{:soso_e145:}
页:
[1]