引言
目前实习阶段,工作中用到最多的是hive sql。以前没有发现,sql,代码也可写的十分优雅,有一些知识点不容小觑,把这些知识点整理如下:
1.where和on条件的区别
使用left join时,原理简单的可以描述为先将左边的主表结果集查询出来,然后遍历主表结果集,对于每一条主表数据都会根据on后的条件去查询从表,查到了就拿出从表中需要的数据,查不到就为空。
也就是说on后的条件仅仅是针对从表数据进行筛选的。这样即使筛选不到也不影响最终的结果集数量。
而筛选条件放在where之后,就是对总的结果集进行筛选了。
On在where条件之前执行,因此效率比where略高
执行过程:
两条SQL:
1、select * from tab1 left join tab2 on (tab1.size = tab2.size) where tab2.name=’AAA’
2、select * from tab1 left join tab2 on (tab1.size = tab2.size and tab2.name=’AAA’)
第一条SQL的过程:
第二条SQL的过程:
总结:
其实以上结果的关键原因就是left join,right join,full join的特殊性,不管on上的条件是否为真都会返回left或right表中的记录,full则具有left和right的特性的并集。 而inner jion没这个特殊性,则条件放在on中和where中,返回的结果集是相同的。
2、 union和union all 区别
Union:对两个结果集进行并集操作,不包括重复行(即删除重复项),同时进行默认规则的排序;
Union All:对两个结果集进行并集操作,包括重复行(即不删除重复项)不进行排序;
测试:
(1)s1,s2两个表的内容
(2)union结果
(3)union all结果
3、 join & left outer join & Cross join
(1)Join 默认为inner join
(2)Left join:
做连接时,最好满足右表到左表 数量递增
思考一个问题:
多表做关联时,执行顺序是怎样的?
比如 a join b join c,是a与b先做关联,然后再与C表做关联吗?
答案:
如果只是join(即内连接,等同于inner join),则这里表的顺序是没有要求的,但如果是left join或right join则是有顺序要求的
(3)Cross join(交叉连接) 笛卡尔积
交叉连接。交叉连接返回左表中的所有行,左表中的每一行与右表中的所有行组合。交叉连接也称作笛卡尔积。
简单查询两张表组合,这是求笛卡儿积,效率最低。
笛卡儿积:笛卡尔乘积,也叫直积。假设集合A={a,b},集合B={0,1,2},则两个集合的笛卡尔积为{(a,0),(a,1),(a,2),(b,0),(b,1), (b,2)}。可以扩展到多个集合的情况。类似的例子有,如果A表示某学校学生的集合,B表示该学校所有课程的集合,则A与B的笛卡尔积表示所有可能的选课情况。
笛卡尔积出现的三种情况:
1)交叉连接(显式)
查询学生的信息,其中包括学生ID,学生姓名和专业名称。
SELECT Students.ID,Students.Name,Majors.Name AS MajorName FROM Students CROSS JOIN Majors
查询结果:
2)查询多表
其实也是笛卡儿积,与CROSS JOIN等价,以下查询同上述结果一样。
这种情况也查询了两张表中所有组合的全集。
SELECT Students.ID,Students.Name,Majors.Name AS MajorName FROM Students,Majors
3)加了查询条件
注意:在使用CROSS JOIN关键字交叉连接表时,因为生成的是两个表的笛卡尔积,因而不能使用ON关键字,只能在WHERE子句中定义搜索条件。
SELECT Students.ID,Students.Name,Majors.Name AS MajorName FROM Students CROSS JOIN Majors WHERE Students.MajorID = Majors.ID
查询结果与INNER JOIN一样,但是其效率就慢很多了
4、 hive 中常用的 时间格式的相互转换
(1)时间戳格式——》日期型
from_unixtime(cast(pay_time / 1000 as bigint), 'yyyy-MM-dd') as pay_time
注:/1000是因为。只取时间戳格式数据前13位即可
可实现时间戳格式——》日期时间
(2)日期时间型——》日期型
To_date()函数
(3)日期时间>>>>>>年/月/日/时/分/秒
year(string date),month(),day(),hour(),minute(),second()
原文参考链接:
时间格式转化 https://blog.csdn.net/shuangshaung_/article/details/53611188
union & union all https://blog.csdn.net/qq_33326449/article/details/53079082
where & on https://blog.csdn.net/wb_snail/article/details/79235219
join, left join,cross join https://blog.csdn.net/scythe666/article/details/51881235
以上是目前遇到的几个问题的总结,未完待续、、、、