火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3122|回复: 1

v7正文提取+智能分页生成php接口,实现不同域名文章采集

[复制链接]
发表于 2012-5-12 13:06:40 | 显示全部楼层 |阅读模式
本帖最后由 qqtoqq 于 2012-5-12 13:15 编辑

v7新版增加了很多的功能,都很强大,无限列表 无限多页更是牛气冲天。其中有个正文标题内容自动提取的功能,这个可以无需设置标签截取规则就智能的获取准确的数据,适用于网站模板有多种的采集,但也是有些局限性,假路是不同域名的站点下的采集,文章类网站通常都是有分页的,这时就无法通过设置分页获取规则,实现对不同域名站点的分页采集了,因为n个站点分页对应n种分页规则,而这些需要在一个规则中实现,单纯用火车头不能处理,这时貌似正文提取功能也失去了实用性了,不同站点不会采集到文章分页,所以只会采集到文章的一部分(第1页)。

一个规则包含不同站点文章的采集方法:不同域名文章分页自动生成接口+火车头正文提取。
不同域名文章分页自动生成接口:实现原理也很简单,一般文章的分页都是以数字递增的规范的写法,路:test_1.html  test_2.html  ,gg,1.html  gg,2.html (17173类分页),这些都是有规律的,文章类站点都是静态的url,那摩只要首先通过第一页获取当前文件的名字,去掉分页页码部分,取名字前缀,扩展名,然后在第一页利用 正则='/'.$public_name.'([^0-9a-zA-Z])(\d+)?\.'.$type.'/is',就可以算出分页的最大数量,分页的连接符(_ ,等),这样就实现了不同域名站点的分页自动生成效果,生成了火车头可以识别的url,这样就采集了不同的域名的文章了,提取信息当然用到的是正文提取功能,这个功能也变得很有用了。


不同域名分页接口:
1.实现不同域名文章分页自动生成为火车头可以识别形式,设置固定的分页区间:[分页]   [/分页];
2.原理:分页url都是格式相似的,利用这个相似找出页码设置规则,文件名与页码的连接符,通过在第一页匹配相似url,得出页码 文件名连接符(,_等)和最大页码(一般文章的最大页码在第一页总是提供的);
3.适用:百度搜索某个关键字得到的不同站点文章 百度风云榜等收录不同站点文章的网站,总体来说实用性还是很低,很少有这样的采集要求。




下面的采集示例是以前某个朋友的采集要求:用到了这样的采集策略
采集列表页:http://top.baidu.com/buzz.php?p=top10
要求:采集百度风云榜,每个关键字打开后的2级列表页里第一篇文章。
路:关键字-揭发父母违反人性  2级列表-http://top.baidu.com/detail.php?b=1&w=%B9%C3%B8%B8%CA%C7%B4%A6%B3%A4
第一篇文章--http://finance.gucheng.com/201205/1904017.shtml;

这里用到了v7的多页的分页功能,1级列表-----2级列表-------分页接口调用文章页(接口可以用于其它的采集,只要提交内容页url给他即可)。

分页设置:


效果截图:





最后打个广告,高难度采集 联系QQ:


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
 楼主| 发表于 2012-5-17 20:33:24 | 显示全部楼层
{:soso_e132:}{:soso_e140:}{:soso_e145:}
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-18 14:23

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表