2007年--现在....还没人会采集这个网站!!!
本帖最后由 非鱼仔 于 2009-7-24 14:15 编辑一直喜欢研究高难度采集跟规则...但是这个就是在没办法.
网站地址: http://space.tv.cctv.com/page/PAGE1198339232483917
当然第一页看到源代码简单, 重点就是分页你能采集到吗?
要求:采集其他分页, 视频源地址比较复杂, 可以不尝试.
应该是火车头不支持这样的跳转方式, 分页应该用了2级读取吧. 直接用火车头采不到吧?只能用接口? 我也采不到!!!!!! 用接口可以,http://222.182.152.190/info.php?p=4 真快速... 这么容易搞定.
.. 接口真是万能呢... 可是PHP只会一点.
是不是通过php来post数据,再获取返回内容? 巧啊... 正想搜索一下相关资料. 竟然搜索到一个blog, 孤魂居
应该是孤魂老大的吧. 里面很多技巧文章...不错.
http://www.kalvin.cn/ 是的 孤魂兄,接口帖出来一下好吗?
我最近学PHP学得起劲呢! 如果能弄个通用的, 还带N级页面跳转, 那以后就不怕采集不到了. 通用应该是没法实现,这个地址主要是使用了POST提交,用PHP进行POST则可以模仿一些POST的参数,如随机时间、随机值、来源和浏览器类型等。
而不同的页面,POST的环境和参数不尽相同,通用的接口就难以考虑多种不同的因素了。
页:
[1]
2