建议采集时增加一个可选的压缩选项,提高大网页的采集速度。
利用Accept-Charset:gzip,deflate标头来实现。好在DotNet2.0中提供了GZip和Deflate压缩算法,自定义一个 CompressionHttpHandle就可以了。[ 本帖最后由 faunus 于 2008-10-24 09:27 编辑 ] 压缩后难道就不解压了?! 具体看这里
http://bbs.locoy.com/spider-31216-2-1.html
压缩后的数据在流中,流览器自动会识别和处理是否解压,需要的话进行解压。处理完的结果也需要进行代码转换,然后得到本地可显示,火车是可分析的文本内容。
是否压缩取决于客户端标头,
因为火车是模拟采集的,
可以对标头进行控制。
当然,压缩了就需要加入解压的代码,这个也是可控的。
如果页面比较小,就没有意义。
如果页面比较大,压缩率是非常高的,
可以节省带宽,提高下载网页的速度,
但是也会增加CPU的负担。
[ 本帖最后由 faunus 于 2008-10-24 09:34 编辑 ] 这个是个好建议!! 正在寻在加速采集速度的方法,看到你的标题非常开心,进来发现我的2009版已经默认使用了gzip,真悲剧.压缩了还是这么慢 一晃己经两年了,
想不到火车公司发展还挺快的,
只可惜软件没有大的改进,小打小闹不少。
小火车加油油。。。 爪,以后学习下。。
页:
[1]