我们平常写SQL中遇到过滤空值或者NULL值的处理,尤其是在非关系型数据库中没有唯一键和默认值的约束要求,很容易出现NULL值或者空值。很多时候我们总是会出现困扰,到底是该使用=' ' 还是用 is NULL呢?
另外我们一个多表JOIN的时候在这个SQL上跑的好好的,一旦换了一个SQL执行引擎就提示我们JOIN两边的数据类型不一致,这些都是为什么呢?
今天就带大家一起领略一下各类SQL中空值以及类型转换那些坑。
空值和NULL值
一、底层字段类型为字符型(string,varchar,char):
hive:如果底层存储的是NULL值,我们必须要用 is NULL来判断,如果底层存储的是' ',则需要使用 =' '来判断。在hive中NULL默认存储为'\N',' '存储还是' '。
presto:与hive保持一致。
spark:与hive保持一致。
impala:与hive保持一致。
mysql:使用上与hive使用保持一致。
二、底层字段是(int,bigint)
hive:由于int类型的数据在hive中默认存储为'\N',所以查询的时候必须要使用is NULL才能取出空的值。
presto:与hive中保持一致,不能使用='',会报类型错误。
spark:与hive中保持一致。
impala:与presto保持一致,只能使用is NULL,使用=''由于后面是字符类型,会报错。
mysql:与presto保持一致,使用is NULL,不过在mysql中数值类型一般会采用默认值0来填充。
这里需要特别注意的地方是:NULL值是不支持比较的。什么意思呢,比如说有一列ID的值是 NULL,如果使用ID<>'123'是无法把这条记录取出来的,只能使用ID is NULL。当然NULL和NULL比较也是没有意义的。另外空值也不支持与具体的值来比较,使用的时候也要注意,这部分数据需要特殊处理,如:先单独过滤掉或者单独取出来。
SQL中的字段类型转换
隐式类型转换
隐式类型转换,又叫自动类型转换,意思就是当要比较的两个对象(字段)类型不一致是,程序自动调整为一致的情况。通常是支持又小向大(兼容)的类型转换,如从int到bigint或者到string。不过这里并不是绝对的,一般程序会分析两个对象之间的运算符,如果是数值运算符(+-*/)的话再分析对象里面的具体的值,如果可以转为数字计算就会自动转为数字计算。否则的话会SQL可以运行但是结果会是空值。
支持隐式类型转换的SQL语言有:HIVE,SPARK,MYSQL,其中MYSQL如果两边不支持运算的话不一定返回空值,要看具体的情况,例如如果是'张三'+1 ,返回结果是1。
显式类型转换
显式类型转换,又叫强制类型转换,就是说程序不会自动帮你把两个对象的类型转为一致,需要自己手动显示声明。常用的显示声明有cast(col as type),convert(type col),一般对cast较为熟悉,各种SQL基本通用。这里需要说明的理论上有了强制类型转换在所有数据类型之间是可以互转的。但是转换的时候要确保底层数据转换后是有意义的,否则即使可以转,结果也是没有意思甚至是不正确的。
必须使用显式类型转换的SQL:PRESTO,IMPALA。另外需要注意的是mysql在使用强制类型转换的时候如果是把字符串转为数字AS后的类型只支持DECIMAL,SIGNED,UNSIGNED,而不支持其他类型。
通过以上的分析,相信大家对SQL中的NULL、空值有了进一步的了解,下次针对具体的数据采用上面的办法就可以确保取出的数据是正确的。通过类型转换的分析,大家在写SQL的时候首先要明确使用的是那种类型的SQL,JOIN的时候两个字段的类型是否一致,这样使用起来才能游刃有余。
备注:以上是本人根据日常工作中及网上相关资料的总结,虽然经过验证但不免某些地方存在瑕疵,如有发现也请大家积极指正,互相学习。