火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 159536|回复: 601

qq空间日志最新采集方法_可采任意qq空间_【php接口优化处理】

[复制链接]
发表于 2012-4-12 23:27:57 | 显示全部楼层 |阅读模式
本帖最后由 zhouchanglin 于 2014-3-22 11:26 编辑

qq空间日志的采集是有些难度的,尤其是大型的门户网站难度是可想而知的,应对这类复杂网站的有效快速的分析方法是利用抓包工具去捕获下数据的真实地址,真实地址的判断主要在于细心与对抓包工具的熟练使用,搞清楚请求header,返回header就没有多大问题了。

下面是用一个qq空间来做示例分析qq空间日记如何去采集,怎么做回更好些?

目标qq空间:http://user.qzone.qq.com/307157985
我的空间:http://user.qzone.qq.com/972130397  (我的空间日记很少,所以用上面的做示例)

游客,如果您要查看本帖隐藏内容请回复



===============================我的php优化处理

qq日志做个采集规则是可以采集的,但是规则是不通用的,每个规则只能加一个用户的列表,因为日志页url包含空间主人的qq,这个qq通过列表采集是无法为不同的qq分配到其日志url中的。但是做个php接口处理,很容易实现一个规则采集任意qq,可以随意添加指定数字范围的qq号(路100000-999999999)

这个采集是有个朋友的要求:1.随意设置qq范围 2.没有权限访问的空间自动判断(不采) 3、采集指定日期之后的日志  4.日志内容字数限制(不够字数的日志舍弃) 5.标题优化(优化标题=原标题+日志关键字)

应她的要求,我做了个php文件去实现,经过几次修改最后实现了上述5点要求,当然目标qq号,您可以通过采集网站获得,组合为我的接口格式,这样是一个规则适用了任意qq空间的日志。

我的php接口主要处理过程:1.生成列表分页url (供采集器采集)2.生成对应qq的日志url   3.请求日志页,优化标题,判断日志字数是否符合要求。 ps:可以设置cookie,以便访问更多的qq空间,该接口适用于大批量的采集qq空间日志,qq文章原创性比较好。

v7采集规则,用了2层列表采集。

列表页测试:(这个限定了日期的,所以有些超过日期限制的列表不会去获取,为了是减少不必要的网页访问)



内容页测试“:





采集qq空间,联系:[qq]972130397


火车头网络推广:http://blog.sina.com.cn/iambike007







本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
发表于 2012-4-14 03:00:06 | 显示全部楼层
===============================我的php优化处理

发表于 2012-4-14 06:16:35 | 显示全部楼层
看看内容
发表于 2012-4-15 00:44:45 | 显示全部楼层
要学习下下
发表于 2012-4-16 10:21:12 | 显示全部楼层
下面是用一个qq空间来做示例分析qq空间日记如何去采集,怎么做回更好些?

发表于 2012-4-16 10:24:47 | 显示全部楼层
我瞅瞅,不知行不行
发表于 2012-4-18 14:46:29 | 显示全部楼层
{:soso_e191:}{:soso_e191:}
发表于 2012-4-19 21:34:54 | 显示全部楼层
发表于 2012-4-21 14:12:22 | 显示全部楼层
空间日志最新采集方法
发表于 2012-4-21 19:40:49 | 显示全部楼层
QQ空间上 很不错,也很好
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-18 13:38

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表