v7正文提取+智能分页生成php接口，实现不同域名文章采集

qqtoqq 发表于 2012-5-12 13:06:40

本帖最后由 qqtoqq 于 2012-5-12 13:15 编辑

v7新版增加了很多的功能，都很强大，无限列表无限多页更是牛气冲天。其中有个正文标题内容自动提取的功能，这个可以无需设置标签截取规则就智能的获取准确的数据，适用于网站模板有多种的采集，但也是有些局限性，假路是不同域名的站点下的采集，文章类网站通常都是有分页的，这时就无法通过设置分页获取规则，实现对不同域名站点的分页采集了，因为n个站点分页对应n种分页规则，而这些需要在一个规则中实现，单纯用火车头不能处理，这时貌似正文提取功能也失去了实用性了，不同站点不会采集到文章分页，所以只会采集到文章的一部分（第1页）。

一个规则包含不同站点文章的采集方法：不同域名文章分页自动生成接口+火车头正文提取。
不同域名文章分页自动生成接口：实现原理也很简单，一般文章的分页都是以数字递增的规范的写法，路：test_1.htmltest_2.html,gg,1.htmlgg,2.html (17173类分页)，这些都是有规律的，文章类站点都是静态的url,那摩只要首先通过第一页获取当前文件的名字，去掉分页页码部分，取名字前缀，扩展名，然后在第一页利用正则='/'.$public_name.'([^0-9a-zA-Z])(\d+)?\.'.$type.'/is',就可以算出分页的最大数量，分页的连接符(_ ,等),这样就实现了不同域名站点的分页自动生成效果，生成了火车头可以识别的url，这样就采集了不同的域名的文章了，提取信息当然用到的是正文提取功能，这个功能也变得很有用了。

不同域名分页接口：
1.实现不同域名文章分页自动生成为火车头可以识别形式，设置固定的分页区间:[分页] [/分页]；
2.原理：分页url都是格式相似的，利用这个相似找出页码设置规则，文件名与页码的连接符，通过在第一页匹配相似url，得出页码文件名连接符（,_等)和最大页码（一般文章的最大页码在第一页总是提供的）；
3.适用：百度搜索某个关键字得到的不同站点文章百度风云榜等收录不同站点文章的网站，总体来说实用性还是很低，很少有这样的采集要求。

下面的采集示例是以前某个朋友的采集要求：用到了这样的采集策略
采集列表页：http://top.baidu.com/buzz.php?p=top10
要求：采集百度风云榜，每个关键字打开后的2级列表页里第一篇文章。
路：关键字-揭发父母违反人性2级列表-http://top.baidu.com/detail.php?b=1&w=%B9%C3%B8%B8%CA%C7%B4%A6%B3%A4
第一篇文章--http://finance.gucheng.com/201205/1904017.shtml；

这里用到了v7的多页的分页功能，1级列表-----2级列表-------分页接口调用文章页（接口可以用于其它的采集，只要提交内容页url给他即可）。

分页设置：

效果截图：

最后打个广告，高难度采集联系ＱＱ：http://wpa.qq.com/pa?p=2:972130397:47

qqtoqq 发表于 2012-5-17 20:33:24

{:soso_e132:}{:soso_e140:}{:soso_e145:}

页: [1]

火车采集器软件交流官方论坛's Archiver

v7正文提取+智能分页生成php接口，实现不同域名文章采集