onceeven 发表于 2008-4-7 10:35:42

谁有能力采这个站的内容?我向他鞠躬

谁能采集这个站?他是用:<script language="javascript">ShowMoney(0);</script><div class="height_4px"></div>

<table><td><script language="javascript">ShowMoney(2);</script>

调用的。

怎么也采集不了,我搞了半天,不知道他怎么调用出来的视频,谁能教教,这种情况火车头能采集到吗???

不好意思,连网址都忘了打上去了。


www.manhaokan.com

或者:www.uksee.cn

等都是用script调用的。

麻烦好心人帮看看怎么采集的,告诉一下小弟,非常感激。

[ 本帖最后由 onceeven 于 2008-4-7 11:02 编辑 ]

fal 发表于 2008-4-7 10:35:43

打开播放页面.看源代码
搜索var url
注意看这两行就行了.

这个站的视频本身也是采集其他网站的.

比如一个页面里的源码里写.
var url =".swfv152_/c17_/29_/14_/valentine-s_/zhajm_1180559498_119_/1668000_/0_/14213088.swf";
document.writeln('<IFRAME height=452 marginWidth=0 marginHeight=0 src="/flv/56.html?'+url+'" frameBorder=0 width=552 scrolling=no></IFRAME>');

这是转56的视频.
http://www.manhaokan.com/flv/56.html?=.swfv152_/c17_/29_/14_/valentine-s_/zhajm_1180559498_119_/1668000_/0_/14213088.swf
这个地址是通过manhaokan网站.多了一道跳转.

http://www.56.com/n_v152_/c17_/29_/14_/valentine-s_/zhajm_1180559498_119_/1668000_/0_/14213088.swf
这个地址是56提供的转载地址.


如果页面里的源码里写
var url ="4741645";
document.writeln('<IFRAME height=452 marginWidth=0 marginHeight=0 src="/flv/youku.html?'+url+'" frameBorder=0 width=552 scrolling=no></IFRAME>');

这是一个转youku的视频.转载地址就是下面这两个.

http://www.manhaokan.com/flv/youku.html?4741645

http://player.youku.com/player.php/sid/4741645/v.swf

这些地址都能打开视频

c868 发表于 2008-4-7 10:48:16

rq204 发表于 2008-4-7 11:30:23

还真有引些复杂,JS不过关

沦陷今生 发表于 2008-4-7 12:56:54

这个JS采集可以联系我,给你找出flv的具体地址
QQ:11351936 or 948423048

onceeven 发表于 2008-4-18 17:51:15

非常感谢FAL兄弟

walterhj 发表于 2008-4-20 12:02:38

我要采集论坛里主帖的内容,但这个内容是由脚本来显示的.
详细说明:
1.地址列表页面:
http://club.news.sohu.com/l-minjian-0-1-0-0.html
1.内容页面:
http://bbs1.people.com.cn/postDetail.do?boardId=2&view=1&id=85452847
http://bbs1.people.com.cn/postDetail.do?boardId=2&view=1&id=85413156
.
.
.
.
http://bbs1.people.com.cn/postDetail.do?boardId=2&view=1&id=85455093
(这些地址已经采集到了).
2.问题:
查看内容页面的源码发现主帖内容是调用new TextParser('/posts/05/17/E8/2F/content_html.txt', 'content_85452847') 来显示的,经过分析原来最终的内容页面地址是:http://bbs1.people.com.cn/posts/05/17/E8/2F/content_html.txt,即首页地址+js脚本中的地址.
请问怎样采集这个正文.有人说在多页采集中设置规则,具体怎么做?期待您的解答,谢谢!
页: [1]
查看完整版本: 谁有能力采这个站的内容?我向他鞠躬