0x00 前言 本文将会谈一谈在数据仓库中拉链表相关的内容,包括它的原理、设计、以及在我们大数据场景下的实现方式。 全文由下面几个部分组成: 先...
收录了8篇文章 · 2人关注
0x00 前言 本文将会谈一谈在数据仓库中拉链表相关的内容,包括它的原理、设计、以及在我们大数据场景下的实现方式。 全文由下面几个部分组成: 先...
一:多维分组聚合背景 企业针对有些指标,希望能够支撑上钻和下钻来进行查看,这样即可以满足精细化分析,又可以满足指标概览,当然现在的一些可视化工具...
一:自定义UDF函数 UDF函数的特点是:多参数/单参数-》单个返回值,并且多个参数是一行当中的数据,不能实现跨行。常见的UDF函数有很多,比如...
Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流...
一:hive引入静态分区的意义 目前主流离线数据仓库都在使用hive,最初由谷歌工程师开发,后面贡献给apache。使我们在处理大数据时,需要写...
1.问题背景 介绍下这次遇到补数问题的背景。补数是数仓从事人员经常会碰到的问题,比如修复了历史错误的逻辑,需要修复历史数据,这种行为称之为补数,...
一:前言 在某些场景下比如报表的产出,为了更加易于理解,往往会行列互置这样显示,又或者我们需要将某个相同键的值,所属的属性进行合并显示,这样都会...
一:前言 根据官网的介绍,hive推出的窗口函数功能是对hive sql的功能增强,确实目前用于离线数据分析逻辑日趋复杂,很多场景都需要用到。以...