faunus 发表于 2008-10-24 08:36:14

建议采集时增加一个可选的压缩选项,提高大网页的采集速度。

利用Accept-Charset:gzip,deflate标头来实现。好在DotNet2.0中提供了GZip和Deflate压缩算法,自定义一个 CompressionHttpHandle就可以了。

[ 本帖最后由 faunus 于 2008-10-24 09:27 编辑 ]

aven 发表于 2008-10-24 09:07:46

压缩后难道就不解压了?!

faunus 发表于 2008-10-24 09:31:53

具体看这里
http://bbs.locoy.com/spider-31216-2-1.html
压缩后的数据在流中,流览器自动会识别和处理是否解压,需要的话进行解压。处理完的结果也需要进行代码转换,然后得到本地可显示,火车是可分析的文本内容。
是否压缩取决于客户端标头,

因为火车是模拟采集的,
可以对标头进行控制。
当然,压缩了就需要加入解压的代码,这个也是可控的。
如果页面比较小,就没有意义。
如果页面比较大,压缩率是非常高的,
可以节省带宽,提高下载网页的速度,
但是也会增加CPU的负担。

[ 本帖最后由 faunus 于 2008-10-24 09:34 编辑 ]

火车头 发表于 2008-10-24 10:54:37

这个是个好建议!!

royliaoz 发表于 2010-4-9 09:59:55

正在寻在加速采集速度的方法,看到你的标题非常开心,进来发现我的2009版已经默认使用了gzip,真悲剧.压缩了还是这么慢

faunus 发表于 2010-4-26 23:05:20

一晃己经两年了,

想不到火车公司发展还挺快的,

只可惜软件没有大的改进,小打小闹不少。

小火车加油油。。。

lbjyuer 发表于 2016-2-9 00:29:08

爪,以后学习下。。
页: [1]
查看完整版本: 建议采集时增加一个可选的压缩选项,提高大网页的采集速度。