zhouchanglin 发表于 2012-3-24 15:47:41

网易博客文章列表采集方法,php接口实现通用采集

本帖最后由 zhouchanglin 于 2014-3-22 11:26 编辑

所谓接口,就是实现某个功能的程序文件,
辅助火车头采集接口有2类:
1.用于发布的,也就是入库的接口,这类接口可以处理普通web发布模块不能完成的一些特殊任务,路发布有验证码,这时需要做个发布接口实现数据的写入数据库,这样可以完成很多任务,是用于辅助发布的,解决发布难题的;
2.辅助采集的接口,主要用于一些特殊pos分页,js脚本分页的采集等在采集中遇到的复杂情况;

下面以网易博客的文章列表的采集为例,说明利用php接口文件实现处理复杂采集的一个示例;
博客日记列表页:http://blog.163.com/s_cheung/blog/

网易博客的文章列表,通过查看源码,是无法看到任何有关于博文url的信息,观察细致的朋友会发现,当打开博客的日记列表页,文章区域会出现:“正在加载文章列表”这样的提示,而后文章会显示出来,这是个ajax请求的过程,是对某个文件进行了数据请求的,因此如果可以知道这个过程的请求url,那摩就也许就可以有采集方法了。


**** Hidden Message *****

下面是网易博文接口在火车采集器中测试的截图:



网易博客采集,联系972130397
火车头网络推广:http://blog.sina.com.cn/iambike007

tmhlbj2012 发表于 2012-4-19 15:23:44

这个东西好啊!我来看看

pidansafe 发表于 2012-3-29 13:03:25

下载学习下咯。。。

303718 发表于 2012-3-29 13:09:10

不错。好东西就是要支持的

mybuhui 发表于 2012-3-30 10:38:45

php接口实现通用采集

tan1967 发表于 2012-3-30 15:58:30

:lol:lol:lol:lol:lol

2429440202 发表于 2012-4-1 10:48:13

www.xumubaba.com 路过!!!!!

timy 发表于 2012-4-4 18:45:09

不错 啊 路过,看看。

羊羽 发表于 2012-4-4 21:22:12

不知道能不能下载,先顶一下吧

liufhai 发表于 2012-4-6 12:53:59

{:2_130:}                        

44600106 发表于 2012-4-19 13:59:29

111111111111111111111111
页: [1] 2 3 4 5 6 7 8 9 10
查看完整版本: 网易博客文章列表采集方法,php接口实现通用采集