Hive分区的作用

如果没有分区的存在,那么每次查询Hive将会进行全表扫描。对于小数据量的表来说,全表扫描并不会慢到无法忍受,但是对于大数据量来讲,比如几年的数据,每次查询都要扫描几年的所有数据,除了浪费时间之外,还浪费集群资源。为了改进这一问题,分区的价值就体现出来了。对于几年的数据,在设计Hive表的时候,可以将时间设计为分区字段,至于时间维度细到怎样的颗粒度,以业务需求为准。就这样,分区的存在,极大的缩小了数据的查询范围,比如以天为单位的分区字段,在查询2020年3月份的相关数据时,只需限制分区字段的时间在2020-03-01~2020-03-31之间,Hive就会根据分区字段条件直接找到几年数据中归属2020年3月份的数据,然后在对2020年3月份的数据根据具体的逻辑进行处理即可,而不需要几年的数据全部都扫描一次。

区别:
1.静态分区是需要指定分区的(源数据中没有)
2.动态分区是利用数据中的字段坐分区的,(源数据中有的),🈲 主分区动态分区,次分区静态分区,使得每个主分区下面都要创建静态分区
不难看出,Hive分区,主要是以缩小数据查询范围,提高查询速度和性能的。

Hive静态分区

Hive的静态分区,实际上就是手动指定分区的值为静态值,这种对于小批量的分区插入比较友好

insert overwrite table demo_static_partition 
partition(year="2020", month="04", 
day="2020-04-10", hour="22") 
select user_id, user_name, 
trade_year as year ,
trade_month as month,
trade_day as day,
trade_hour as hour  
from user_demo 
where trade_year="2020" 
and trade_month="04" 
and trade_day="2020-04-10" 
and trade_hour="22" 

语句中partition(year=“2020”, month=“04”, day=“2020-04-10”, hour=“22”) 的年月日小时手动指定了具体的值,这样的分区就叫静态分区了,是不是很简单?

Hive动态分区

Hive的动态分区,其实就是把静态分区中的分区值设置为动态的值,就可以了,来看看动态分区相关的HQL

insert overwrite table demo_dynamic_partition 
partition(year=year, month=month, 
day=day, hour=hour) 
select user_id, user_name, 
trade_year as year ,
trade_month as month,
trade_day as day,
trade_hour as hour  
from user_demo 

语句中partition(year=year, month=month, day=day, hour=hour)会根据具体值的变化而变化,无需手动指定,这对于大批量的分区插入是一个很方便的用法,但需要根据业务需求衡量分区数量是否合理的问题。毕竟分区会占用IO资源,数量越多,IO资源消耗越大,查询时间和性能都是有所损耗的。

在创建动态分区时,经常遇到自动插入分区失败的问题,通过日志分析,可以知道,一种是没有开启动态分区模式,一种是严格模式导致的动态分区插入失败,一种是默认分区数量不足导致的分区插入失败。我们来了解一下,与动态分区相关的一些参数,以便更好的使用。

-- Hive默认配置值
-- 开启或关闭动态分区
hive.exec.dynamic.partition=false;
-- 设置为nonstrict模式,让所有分区都动态配置,否则至少需要指定一个分区值
hive.exec.dynamic.partition.mode=strict;
-- 能被mapper或reducer创建的最大动态分区数,超出而报错
hive.exec.max.dynamic.partitions.pernode=100;
-- 一条带有动态分区SQL语句所能创建的最大动态分区总数,超过则报错
hive.exec.max.dynamic.partitions=1000;
-- 全局能被创建文件数目的最大值,通过Hadoop计数器跟踪,若超过则报错
hive.exec.max.created.files=100000;

-- 根据个人需要配置

set hive.exec.dynamic.partition=true;  
set hive.exec.dynamic.partition.mode=nonstrict;
set hive.exec.max.dynamic.partitions.pernode=1000;
set hive.exec.max.dynamic.partitions=10000;
set hive.exec.max.created.files=1000000;

Hive静态分区和动态分区结合使用

当你想每天执行某个时间段的分区数据插入,可以考虑一下动静分区结合方式,来看看HQL如何写?

partition(year="2020", month="04", 
day=day, hour=hour) 
select user_id, user_name, 
trade_year as year ,
trade_month as month,
trade_day as day,
trade_hour as hour  
from user_demo 
where trade_year="2020" 
and trade_month="04" ```

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,772评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,458评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,610评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,640评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,657评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,590评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,962评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,631评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,870评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,611评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,704评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,386评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,969评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,944评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,179评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,742评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,440评论 2 342

推荐阅读更多精彩内容

  • hive.ddl.output.format:hive的ddl语句的输出格式,默认是text,纯文本,还有json...
    博弈史密斯阅读 1,931评论 0 6
  • 1.INSERT 官网说明:INSERT OVERWRITE TABLE tablename1 [PARTITIO...
    白面葫芦娃92阅读 583评论 0 0
  • Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。本...
    felix521阅读 1,294评论 0 0
  • 概述 目前,在利用hive建设数据仓库的过程中,总会遇见分区分桶的,跟传统的DBMS系统一样,通过表分区能够在特定...
    原上野阅读 2,967评论 0 0
  • 每天使用1%的时间,进步1%,成为1%的人! 今天是什么日子:2019/1/15 起床:9:00 就寝:00:00...
    Miss_Cici阅读 229评论 0 0