我的Hive学习之旅


row number

作用 : 返回这个Partition下的当前Row号,根据排序字段生成,无重复。

语法 :row_number() over (partition by 字段a order by 计算项b desc ) rank

select seasonid, episodeid , 
row_number() over(partition by seasonid order by episodeid asc) as rank 
from tutor.dw_season_live_information a 
where dt = date_sub(current_date,1) limit 100

内置rank分析函数区别 :

  • row_number:不管排名是否有相同的,都按照顺序1,2,3…..n
  • rank:排名相同的名次一样,同一排名有几个,后面排名就会跳过几次
  • dense_rank:排名相同的名次一样,且后面名次不跳跃

with cube & grouping sets & rollup

主要用于不能用简单group by语句处理需求的情况

grouping sets : 其后面跟括号里指定了零个或多个分组变量的聚合,然后产生这个维度下的聚合结果,再将每个结果UNION到一起,其实也就是相当于

select a,sum(xx) form table1 … group  by a 
union 
select b,sum(xx) form table1 … group  by b
union 
select sum(xx) form table1 …  group  by a,b 
union 
...

这个意思

用法:

select ga, gb, sum(val) from table
group by ga, gb
GROUPING SETS ((ga), (gb), ()); 

with cube : 对变量进行有/无的组合,如果有三个对象,就会产生2^3 = 8种聚合情况
用法 :

eg :
     cube (a,b,c) 
     equal 
     grouping sets( (a,b,c), (a,b), (a,c), (a),(b,c), (b), (c),  () )

rollup : 是cube的子集,以最左侧的维度为主,从该维度进行层级聚合
用法 :

eg  : 
     rollup(a,b,c)
     equal 
     grouping sets( (a,b,c),(a,b),(a),() )

regexp_extract

字符串正则表达式解析函数

用法 :

eg : 
   select regexp_extract(  'yfd-mkt-0207juzhanYY05-grp-123', 'yfd-mkt-([^\\-]+)-.*', 1) as keyfrom_type;    — res : 0207juzhanYY05

0 : 表示把整个正则表达式对应的结果全部返回
1 :表示返回表达式中第一个()对应的结果
依次类推...  

相关函数 : regexp_replace()


get_json_object

作用 : 从复杂json对象中提取元素
‘$’表示对Root对象

eg : get_json_object(t.info,’$.xx')

时间处理 :

一种思路 : 可以把时间转化为一个整数,经过处理之后,再转化为日期格式。

常见hive时间转换函数

  • from_unixtime : 日期函数UNIX时间戳转日期函数: from_unixtime语法: from_unixtime(bigint unixtime[, string format]),可以是识别到月
  • unix_timestamp(string date, string pattern) : 指定格式日期转UNIX时间戳函数,可以识别到月
hive>   select unix_timestamp('20111207 13:01:03','yyyyMMdd HH:mm:ss');
1323234063
hive> select unix_timestamp('2011-12-07 13:05','yyyy-MM-dd HH:mm');
1323234300
hive> select unix_timestamp('2011-12','yyyy-MM');
1322668800

  • date_format :
hive> select date_format('2015-04-08', 'y');
2015
hive> select date_format('2015-04-08', 'yyyy');
2015
hive> select date_format('2015-04-08', 'yyyy-MM');
2015-04
hive> select date_format('2015-04-08 10:10:01', 'yyyy-MM');
2015-04
hive> select date_format('2015-04-08', 'yyyy-MM-dd');
2015-04-08

  • to_date
hive>   select to_date('2011-12-08 10:03:01');
2011-12-08
hive> select to_date('2011-12-08');
2011-12-08
hive> select to_date('2011-12');
NULL

  • date_sub | date_add

窗口函数 :

待更新...

lag, first_value, last_value , lead

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,937评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,503评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,712评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,668评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,677评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,601评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,975评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,637评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,881评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,621评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,710评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,387评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,971评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,947评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,189评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,805评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,449评论 2 342

推荐阅读更多精彩内容

  • pyspark.sql module Module context Spark SQL和DataFrames中的重...
    盗梦者_56f2阅读 5,404评论 0 19
  • 分析函数,也称为窗口函数,通常被认为仅对数据仓库SQL有用。使用分析函数的查询,基于对数据行的分组来计算总量值。与...
    猫猫_tomluo阅读 3,305评论 3 18
  • 第二课:仍然模拟丽芳老师思维导图,这次的过程中有以下几点收获: 1、不像之前那么慌乱,不知如何去做,第一次的小白过...
    佩玉ing阅读 192评论 3 1
  • (稻盛哲学学习会)打卡第39天 姓名:汪何炯 部门:品控部 组别:待定 【知~学习】 诵读《活法》第二章 不在现场...
    汪何炯阅读 176评论 0 2
  • 最近脑子乱的很,作息上的不规律,锻炼上的不规律,一切都不受控制。都说越自律越自由,你看,这还差好大一截呢。 早上六...
    小鱼记事录阅读 162评论 0 0