hive学习笔记之四:分区表

欢迎访问我的GitHub

https://github.com/zq2599/blog_demos

内容:所有原创文章分类汇总及配套源码,涉及Java、Docker、Kubernetes、DevOPS等;

《hive学习笔记》系列导航

  1. 基本数据类型
  2. 复杂数据类型
  3. 内部表和外部表
  4. 分区表
  5. 分桶
  6. HiveQL基础
  7. 内置函数
  8. Sqoop
  9. 基础UDF
  10. 用户自定义聚合函数(UDAF)
  11. UDTF

本篇概览

本文是《hive学习笔记》系列的第四篇,要学习的是hive的分区表,简单来说hive的分区就是创建层级目录的一种方式,处于同一分区的记录其实就是数据在同一个子目录下,分区一共有两种:静态和动态,接下来逐一尝试;

静态分区(单字段分区)

先尝试用单个字段分区,t9表有三个字段:名称city、年龄age、城市city,以城市作为分区字段:

  1. 建表:
create table t9 (name string, age int) 
partitioned by (city string)
row format delimited 
fields terminated by ',';
  1. 查看:
hive> desc t9;
OK
name                    string                                      
age                     int                                         
city                    string                                      
         
# Partition Information      
# col_name              data_type               comment             
         
city                    string                                      
Time taken: 0.159 seconds, Fetched: 8 row(s)
  1. 创建名为<font color="blue">009.txt</font>的文本文件,内容如下,可见每行只有name和age两个字段,用来分区的city字段不在这里设置,而是在执行导入命令的时候设置,稍后就会见到:
tom,11
jerry,12
  1. 导入数据的命令如下,可见导入命令中制定了city字段,也就是说一次导入的所有数据,city字段值都是同一个:
load data 
local inpath '/home/hadoop/temp/202010/25/009.txt' 
into table t9 
partition(city='shenzhen');
  1. 再执行一次导入操作,命令如下,city的值从前面的<font color="blue">shenzhen</font>改为<font color="blue">guangzhou</font>:
load data 
local inpath '/home/hadoop/temp/202010/25/009.txt' 
into table t9 
partition(city='guangzhou');
  1. 查询数据,可见一共四条数据,city共有两个值:
hive> select * from t9;
OK
t9.name t9.age  t9.city
tom 11  guangzhou
jerry   12  guangzhou
tom 11  shenzhen
jerry   12  shenzhen
Time taken: 0.104 seconds, Fetched: 4 row(s)
  1. 前面曾提到分区实际上是不同的子目录,来看一下是不是如此,如下图,红框是t9的文件目录,下面有两个子目录<font color="blue">city=guangzhou</font>和<font color="blue">city=shenzhen</font>:
在这里插入图片描述
  1. 查看子目录里面文件的内容,可见每条记录只有name和age两个字段:
[hadoop@node0 bin]$ ./hadoop fs -ls /user/hive/warehouse/t9/city=guangzhou
Found 1 items
-rwxr-xr-x   3 hadoop supergroup         16 2020-10-31 16:47 /user/hive/warehouse/t9/city=guangzhou/009.txt
[hadoop@node0 bin]$ ./hadoop fs -cat /user/hive/warehouse/t9/city=guangzhou/009.txt
tom,11
jerry,12
[hadoop@node0 bin]$

以上就是以单个字段做静态分区的实践,接下来尝试多字段分区;

静态分区(多字段分区)

  1. 新建名为t10的表,有两个分区字段:province和city,建表语句:
create table t10 (name string, age int) 
partitioned by (province string, city string)
row format delimited 
fields terminated by ',';
  1. 上述建表语句中,分区字段province写在了city前面,这就意味着第一级子目录是province值,每个province子目录,再按照city值建立二级子目录,图示如下:
在这里插入图片描述
  1. 第一次导入,province='shanxi', city='xian':
load data 
local inpath '/home/hadoop/temp/202010/25/009.txt' 
into table t10 
partition(province='shanxi', city='xian');
  1. 第二次导入,province='shanxi', city='xian':
load data 
local inpath '/home/hadoop/temp/202010/25/009.txt' 
into table t10 
partition(province='shanxi', city='hanzhong');
  1. 第三次导入,province='guangdong', city='guangzhou':
load data 
local inpath '/home/hadoop/temp/202010/25/009.txt' 
into table t10 
partition(province='guangdong', city='guangzhou');
  1. 第四次导入,province='guangdong', city='shenzhen':
load data 
local inpath '/home/hadoop/temp/202010/25/009.txt' 
into table t10 
partition(province='guangdong', city='shenzhen');
  1. 全部数据如下:
hive> select * from t10;
OK
t10.name    t10.age t10.province    t10.city
tom 11  guangdong   guangzhou
jerry   12  guangdong   guangzhou
tom 11  guangdong   shenzhen
jerry   12  guangdong   shenzhen
tom 11  shanxi  hanzhong
jerry   12  shanxi  hanzhong
tom 11  shanxi  xian
jerry   12  shanxi  xian
Time taken: 0.129 seconds, Fetched: 8 row(s)
  1. 查看hdfs文件夹,如下图,一级目录是province字段的值:
在这里插入图片描述
  1. 打开一个一级目录,如下图,可见二级目录是city的值:
在这里插入图片描述
  1. 查看数据:
[hadoop@node0 bin]$ ./hadoop fs -cat /user/hive/warehouse/t10/province=shanxi/city=hanzhong/009.txt
tom,11
jerry,12
  1. 以上就是静态分区的基本操作,可见静态分区有个不便之处:新增数据的时候要针对每一个分区单独使用load命令去操作,这时候使用动态分区来解决这个麻烦;

动态分区

  1. 动态分区的特点就是不用指定分区目录,由hive自己选择;
  2. 执行以下命令开启动态分区功能:
set hive.exec.dynamic.partition=true
  1. 名为<font color="blue">hive.exec.dynamic.partition.mode</font>的属性,默认值是<font color="red">strict</font>,意思是不允许分区列全部是动态的,这里改为<font color="red">nostrict</font>以取消此禁制,允许全部分区都是动态分区:
set hive.exec.dynamic.partition.mode=nostrict;
  1. 建一个外部表,名为<font color="blue">t11</font>,只有四个字段:
create external table t11 (name string, age int, province string, city string) 
row format delimited 
fields terminated by ',' 
location '/data/external_t11';
  1. 创建名为<font color="blue">011.txt</font>的文件,内容如下:
tom,11,guangdong,guangzhou
jerry,12,guangdong,shenzhen
tony,13,shanxi,xian
john,14,shanxi,hanzhong
  1. 将<font color="red">011.txt</font>中的四条记录载入表<font color="blue">t11</font>:
load data 
local inpath '/home/hadoop/temp/202010/25/011.txt' 
into table t11;
  1. 接下来要,先创建动态分区表<font color="red">t12</font>,再把<font color="blue">t11</font>表的数据添加到<font color="red">t12</font>中;
  2. <font color="blue">t12</font>的建表语句如下,按照<font color="blue">province+city</font>分区:
create table t12 (name string, age int) 
partitioned by (province string, city string)
row format delimited 
fields terminated by ',';
  1. 执行以下操作,即可将<font color="blue">t11</font>的所有数据写入动态分区表<font color="red">t12</font>,注意,要用<font color="blue">overwrite</font>:
insert overwrite table t12 
partition(province, city) 
select name, age, province, city from t11;
  1. 通过hdfs查看文件夹,可见一级和二级子目录都符合预期:
在这里插入图片描述
  1. 最后检查二级子目录下的数据文件,可以看到该分区下的记录:
[hadoop@node0 bin]$ ./hadoop fs -cat /user/hive/warehouse/t12/province=guangdong/city=guangzhou/000000_0
tom,11

至此,分区表的学习就完成了,希望能给您一些参考;

你不孤单,欣宸原创一路相伴

  1. Java系列
  2. Spring系列
  3. Docker系列
  4. kubernetes系列
  5. 数据库+中间件系列
  6. DevOps系列

欢迎关注公众号:程序员欣宸

微信搜索「程序员欣宸」,我是欣宸,期待与您一同畅游Java世界...
https://github.com/zq2599/blog_demos

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,968评论 6 482
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,601评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 153,220评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,416评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,425评论 5 374
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,144评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,432评论 3 401
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,088评论 0 261
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,586评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,028评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,137评论 1 334
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,783评论 4 324
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,343评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,333评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,559评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,595评论 2 355
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,901评论 2 345

推荐阅读更多精彩内容