非鱼仔 发表于 2009-7-24 14:13:44

2007年--现在....还没人会采集这个网站!!!

本帖最后由 非鱼仔 于 2009-7-24 14:15 编辑

一直喜欢研究高难度采集跟规则...但是这个就是在没办法.

网站地址: http://space.tv.cctv.com/page/PAGE1198339232483917

当然第一页看到源代码简单, 重点就是分页你能采集到吗?

要求:采集其他分页, 视频源地址比较复杂, 可以不尝试.

应该是火车头不支持这样的跳转方式, 分页应该用了2级读取吧.

非鱼仔 发表于 2009-7-24 14:17:32

直接用火车头采不到吧?只能用接口?

cshack 发表于 2009-7-24 14:28:56

我也采不到!!!!!!

孤魂 发表于 2009-7-24 14:46:03

用接口可以,http://222.182.152.190/info.php?p=4

非鱼仔 发表于 2009-7-24 14:56:04

真快速... 这么容易搞定.
.. 接口真是万能呢... 可是PHP只会一点.   
是不是通过php来post数据,再获取返回内容?

非鱼仔 发表于 2009-7-24 14:58:09

巧啊... 正想搜索一下相关资料. 竟然搜索到一个blog, 孤魂居
应该是孤魂老大的吧. 里面很多技巧文章...不错.
http://www.kalvin.cn/

孤魂 发表于 2009-7-24 15:19:19

是的

cshack 发表于 2009-7-24 15:34:15

孤魂兄,接口帖出来一下好吗?
我最近学PHP学得起劲呢!

非鱼仔 发表于 2009-7-24 15:39:15

如果能弄个通用的, 还带N级页面跳转, 那以后就不怕采集不到了.

vus520 发表于 2009-7-24 20:15:46

通用应该是没法实现,这个地址主要是使用了POST提交,用PHP进行POST则可以模仿一些POST的参数,如随机时间、随机值、来源和浏览器类型等。

而不同的页面,POST的环境和参数不尽相同,通用的接口就难以考虑多种不同的因素了。
页: [1] 2
查看完整版本: 2007年--现在....还没人会采集这个网站!!!