Avatar notebook default
20篇文章 · 12088字 · 3人关注
  • Resize,w 360,h 240
    Hive调优参数篇

    工作中常用的 hive 参数调优,整理如下。原则:• 最少数据• 最少字段• 最少Job数• 最少读取次数• 避免数据倾斜• 整体最优而不是局部...

    6.0 3168 3 10
  • Hive 公司调优总结(一)

    1.开启Fetch抓取 Hive优化(十四)- Fetch抓取(Hive可以避免进行MapReduce) 2.使用本地模式 Hive优化(十五)...

  • Resize,w 360,h 240
    Hive优化(五)-避免数据倾斜

    1.数据倾斜 什么是数据倾斜 在单个节点任务所处理的数据量远大于同类型任务所处理的数据量,导致该节点成为整个作业的瓶颈,这是分布式系统不可能避免...

    7.7 2374 0 11
  • Hive优化(十八)-推测执行

    推测执行 在分布式集群环境下,因为程序Bug(包括Hadoop本身的bug),负载不均衡或者资源分布不均等原因,会造成同一个作业的多个任务之间运...

  • Hive优化(十七)-严格模式

    严格模式 Hive提供了一个严格模式,可以防止用户执行那些可能意向不到的不好的影响的查询。通过设置属性hive.mapred.mode值为默认是...

  • Hive优化(十七)-并行执行

    并行执行 Hive会将一个查询转化成一个或者多个阶段。这样的阶段可以是MapReduce阶段、抽样阶段、合并阶段、limit阶段。或者Hive执...

  • Hive优化(十六)-使用EXPLAIN(执行计划)

    使用EXPLAIN(执行计划) 1)基本语法EXPLAIN [EXTENDED | DEPENDENCY | AUTHORIZATION] qu...

  • Hive优化(十五)-本地模式(小数据集缩短执行时间)

    本地模式 大多数的Hadoop Job是需要Hadoop提供的完整的可扩展性来处理大数据集的。不过,有时Hive的输入数据量是非常小的。在这种情...

文集作者