最近在做报表统计的时候碰到一个诡异的bug,union左边查出来有4条数据,右边是0条,理论上最后的结果有4条,但是执行结果很意外,只有三条。最后的解决办法是在查询数据列加上了各自的报表时间。
原始sql:
select
ifnull(a.impression, 0) impression
from t_ad_report_unit a
union
select
ifnull(aa.impression, 0) impression
from t_ad_report_unit a
改正后:
select
a.report_date_time,
ifnull(a.impression, 0) impression
from t_ad_report_unit a
union
select
aa.report_date_time,
ifnull(aa.impression, 0) impression
from t_ad_report_unit a
数据丢失原因
union在做一些数据合并统计的时候很有用,但稍不注意就会踩坑导致数据丢失统计出错。
使用union时一定要注意union自带了去重功能,而且机制类似于把左右两边的数据完全做完合并再来一个distinct,所以一旦有两行的数据一模一样时,union会去掉这些重复行,即使这些重复行只是存在于其中一个结果集的。
解决方案
使用union all(不推荐)
union all的机制类似于把左右两边的数据完全做完合并,并且不会做去重。虽然可以使用union all就不会做去重,但是试想一下这个需求:如果我们需要把左结果集和右结果集的数据做合并,但是左结果集和右结果集存在一些重复,这种重复数据是应该去掉的,而左结果集和右结果集自身存在的重复行是应该保留的,因为我们的目的并不是在每个结果集做去重,而是保证union的左边数据不和右边数据重复。建议认真考虑使用场景再决定是否使用union all。
为数据增加唯一标志属性(推荐)
union去重时去掉的重复数据如果是我们需要保留的,因为他们并不是来自于同一行,只是因为值完全一致而被去掉了,那么应该把这些数据的唯一标志也放在查询列,这样就不是重复数据了。