zhouchanglin 发表于 2012-4-12 23:27:57

qq空间日志最新采集方法_可采任意qq空间_【php接口优化处理】

本帖最后由 zhouchanglin 于 2014-3-22 11:26 编辑

qq空间日志的采集是有些难度的,尤其是大型的门户网站难度是可想而知的,应对这类复杂网站的有效快速的分析方法是利用抓包工具去捕获下数据的真实地址,真实地址的判断主要在于细心与对抓包工具的熟练使用,搞清楚请求header,返回header就没有多大问题了。

下面是用一个qq空间来做示例分析qq空间日记如何去采集,怎么做回更好些?

目标qq空间:http://user.qzone.qq.com/307157985
我的空间:http://user.qzone.qq.com/972130397(我的空间日记很少,所以用上面的做示例)

**** Hidden Message *****


===============================我的php优化处理

qq日志做个采集规则是可以采集的,但是规则是不通用的,每个规则只能加一个用户的列表,因为日志页url包含空间主人的qq,这个qq通过列表采集是无法为不同的qq分配到其日志url中的。但是做个php接口处理,很容易实现一个规则采集任意qq,可以随意添加指定数字范围的qq号(路100000-999999999)

这个采集是有个朋友的要求:1.随意设置qq范围 2.没有权限访问的空间自动判断(不采) 3、采集指定日期之后的日志4.日志内容字数限制(不够字数的日志舍弃) 5.标题优化(优化标题=原标题+日志关键字)

应她的要求,我做了个php文件去实现,经过几次修改最后实现了上述5点要求,当然目标qq号,您可以通过采集网站获得,组合为我的接口格式,这样是一个规则适用了任意qq空间的日志。

我的php接口主要处理过程:1.生成列表分页url (供采集器采集)2.生成对应qq的日志url   3.请求日志页,优化标题,判断日志字数是否符合要求。 ps:可以设置cookie,以便访问更多的qq空间,该接口适用于大批量的采集qq空间日志,qq文章原创性比较好。

v7采集规则,用了2层列表采集。

列表页测试:(这个限定了日期的,所以有些超过日期限制的列表不会去获取,为了是减少不必要的网页访问)



内容页测试“:





采集qq空间,联系:972130397


火车头网络推广:http://blog.sina.com.cn/iambike007







a54425415 发表于 2012-4-14 03:00:06

===============================我的php优化处理

cw723 发表于 2012-4-14 06:16:35

看看内容:lol:lol:lol:lol:lol

hibeen 发表于 2012-4-15 00:44:45

:lol:lol:lol要学习下下

zgdxwhj 发表于 2012-4-16 10:21:12

下面是用一个qq空间来做示例分析qq空间日记如何去采集,怎么做回更好些?

flashgg 发表于 2012-4-16 10:24:47

我瞅瞅,不知行不行

mousehouse 发表于 2012-4-18 14:46:29

{:soso_e191:}{:soso_e191:}

taorentang 发表于 2012-4-19 21:34:54

:lol:Q:lol:lol:(:lol

一滴红尘泪 发表于 2012-4-21 14:12:22

空间日志最新采集方法

jorge2012 发表于 2012-4-21 19:40:49

QQ空间上 很不错,也很好
页: [1] 2 3 4 5 6 7 8 9 10
查看完整版本: qq空间日志最新采集方法_可采任意qq空间_【php接口优化处理】