2019-12-13 Hadoop中压缩方式对比

原文:https://www.jianshu.com/p/c8c97a9462ff

1、压缩Compression   

        压缩有两大好处:可以减少文件存储所需要的磁盘空间,其次是可以加快数据在网络和磁盘上的传输

        压缩的缺点:CUP消耗大

        Hadoop中常见的压缩方式有:GZIP、BZIP2、LZO(LZF/LZ4)、Snappy

        工作中如何选择压缩方式需要考虑的因素有2个:压缩比(压缩前后百分比)、压缩/解压的速度

压缩比

                    bzip2:30%    snappy、lz4、lzo 50%   Gzip处于两者中间

压缩/解压时间

压缩比与解压时间成反比,工作中如果需要更加节省空间,则选择压缩比高的;如果要求执行速度快的,则选择压缩速度快的

ex:历史数据(老数据),则选择压缩比大的

2、压缩在Hadoop中的应用

    1.Hadoop jobs 通常是IO密集的,压缩数据可以提升IO操作

    2.压缩可以降低数据的大小,加速网络传输

    3.一个job的性能会有很大的提升有可能仅仅通过一个简单的压缩

    4.必须考虑是否可分割(splittability)

可压缩

    bzip2 :可分割    LZO:通常不能分割,但可以创建一个索引之后,就可以分割

     ex:1G数据,如果没有压缩, 会有8个Map Task

            1G gzip的压缩数据:只有1个Map Task

            1G bzip2 压缩数据:会有8个Map Task 并行传输

Hadoop中常用Codec压缩,我们只需要配置在hadoop的配置文件中即可

core-site.xml                 -------------------->Map Input

<property>

        <name>compression.codes</name>

        <value>

            org.apache.hadoop.io.compress.GzipCodec,        //Gzip                         org.apache.hadoop.io.compress.DefaultCodec,    // Zlib                                               org.apache.hadoop.io.compress.BZip2Codec, //常用                              com.hadoop.compression.lzo.LzopCodec,       //常用                            org.apache.hadoop.io.compress.Lz4Codec,                                                     org.apache.hadoop.io.compress.Snappycodec,

        </value>

</property>

mapred-site.xml                 

<property>

        <name>mapreduce.output.fileoutputformat.compress</name>

        <value>true</value>

        <name>mapreduce.map.output.compress </name>

        <value>true</value>

</property>

<property>

        <name>mapreduce.map.output.compress .codec</name>

        <value>org.apache.hadoop.io.compress.LZOCodec</value>

        <name>mapreduce.output.fileoutputformat.compress.codec</name>

        <value>org.apache.hadoop.io.compress.BZip2Codec</value>  //bzip2压缩

</peoperty>

3、压缩在MapReduce中的应用

压缩在MapReduce中应用

一、Map Input

        1.MapReduce左右会从HDFS读数据

        2.如果压缩了比较大的输入数据,则减少了磁盘读的成本

        3.使用可分割的压缩方式 (比如Bzip2)

        4.使用分割方式压缩,还需要配合Sequence Files、RC Files,不仅要压缩还有结合存储格式

        总结:尽可能的使用分割

二、Compress Intermediate Data

        1.map的输出需要通过网络传输写到磁盘

        2.通常情况下使用压缩来减少磁盘读写和网络的传输

        3.压缩中间数据会带来优化即使输入输出都不使用压缩

        4.建议使用最快的压缩方式

三、Compress Reduce output

        1.MapReduce的输出经常被用作为归档或者下一个作业的输入

        2.使用压缩来降低归档所耗的磁盘空间

        3.使用高压缩比的压缩方式来节约更多的磁盘空间

        4.如果这个输出作为下一个作业的输入,则应该优先选择可分割的压缩方式

作者:糊涂蟲

链接:https://www.jianshu.com/p/c8c97a9462ff

来源:简书

著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,386评论 6 479
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,939评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,851评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,953评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,971评论 5 369
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,784评论 1 283
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,126评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,765评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,148评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,744评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,858评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,479评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,080评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,053评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,278评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,245评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,590评论 2 343

推荐阅读更多精彩内容