火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 4859|回复: 6

建议采集时增加一个可选的压缩选项,提高大网页的采集速度。

[复制链接]
发表于 2008-10-24 08:36:14 | 显示全部楼层 |阅读模式
利用Accept-Charset:gzip,deflate标头来实现。好在DotNet2.0中提供了GZip和Deflate压缩算法,自定义一个 CompressionHttpHandle就可以了。

[ 本帖最后由 faunus 于 2008-10-24 09:27 编辑 ]
发表于 2008-10-24 09:07:46 | 显示全部楼层
压缩后难道就不解压了?!
 楼主| 发表于 2008-10-24 09:31:53 | 显示全部楼层
具体看这里
http://bbs.locoy.com/spider-31216-2-1.html
压缩后的数据在流中,流览器自动会识别和处理是否解压,需要的话进行解压。处理完的结果也需要进行代码转换,然后得到本地可显示,火车是可分析的文本内容。
是否压缩取决于客户端标头,

因为火车是模拟采集的,
可以对标头进行控制。
当然,压缩了就需要加入解压的代码,这个也是可控的。
如果页面比较小,就没有意义。
如果页面比较大,压缩率是非常高的,
可以节省带宽,提高下载网页的速度,
但是也会增加CPU的负担。

[ 本帖最后由 faunus 于 2008-10-24 09:34 编辑 ]
发表于 2008-10-24 10:54:37 | 显示全部楼层
这个是个好建议!!
发表于 2010-4-9 09:59:55 | 显示全部楼层
正在寻在加速采集速度的方法,看到你的标题非常开心,进来发现我的2009版已经默认使用了gzip,真悲剧.压缩了还是这么慢
 楼主| 发表于 2010-4-26 23:05:20 | 显示全部楼层
一晃己经两年了,

想不到火车公司发展还挺快的,

只可惜软件没有大的改进,小打小闹不少。

小火车加油油。。。
发表于 2016-2-9 00:29:08 | 显示全部楼层
爪,以后学习下。。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-24 20:44

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表