fal 发表于 2007-11-14 22:22:49

不象防采集.用别的方法看源码很简单.就是火车读不出来,的确很奇怪.顶这贴.看看如何解决.

scmsl 发表于 2007-11-14 22:35:38

火车怎么了??跑不动了

sanqinyouzi 发表于 2007-11-14 23:02:26

还真是,我也弄不了,等老大来解决吧,他的后缀怎么是rs呢?榕树下,rs表示榕树吧

laoyuan 发表于 2007-11-15 00:42:15

这个帖子我也要顶,实在是太奇怪了,就是读不出源码,我还以为是我的火车头配置有问题。。

scmsl 发表于 2007-11-15 14:18:36

再顶顶,等等高手

laoyuan 发表于 2007-11-15 18:01:44

不会吧,还没解决,到底是什么原因呢???

laoyuan 发表于 2007-11-15 18:07:33

感觉是gzip解压缩没处理好
Accept-Encoding: gzip,deflate

laoyuan 发表于 2007-11-15 18:34:39

不是gzip的原因,这个网站其它页面都能采的。。
是不是火车头不支持HTTPD.RSD或者ALEPH的服务器啊?

laoyuan 发表于 2007-11-15 18:35:57

我用php的fsockopen,10行代码就能把这个页面的源码取下来,不知道火车为什么不行。。

laoyuan 发表于 2007-11-15 18:58:31

果然是这个原因!!!
“运行于榕树下的WEB聊天室 http://img.rongshuxia.com:8033/vchat.rs?channel=rongshu&user=guest 也是另一个附属于HTTPD.RSD的DLL应用。”
这个网址也抓不过来!!!!

HTTPD.RSD 是后来为了榕树下文章阅读而专门编写的HTTPD服务器,它不使用fork, 以轮询方式处理客户请求,并且在UNIX环境下采用了DLL技术,附属于HTTPD.RSD的各项应用可以变写成 .so 的动态连接库并存放于HTTPD.RSD的指定目录。 比如 http://www.rongshuxia.com:8033/viewart.rs?aid=10000, 这个 viewart.rs 其实是一个动态连接库 viewart.rs.so. 由于不使用fork()以及apache的运行完毕即退出的CGI机制, viewart.rs.so 可以常驻内存,这样就有了机会将文章预格式化以后存放在内存中,当下次有人再阅读这篇文章的时候,即直接从内存中拿出来,减少了大量磁盘读取,格式化文章的时间消耗,同时又加入了内存淘汰机制,在定期的淘汰过程中,那些长久不被访问的文章会被自动淘汰出内存,以保持一个合理的,良好的内存占用率。从而获得最佳的时间--空间兑换.
HTTPD.RSD 运行在 Linux/FreeBSD 环境下, 因其源代码所有权属于商业公司,所以不能公布
页: 1 [2] 3
查看完整版本: 请教采集高手,这个地址怎么采集啊