240 投稿
收录了8篇文章 · 2人关注
  • 数据仓库之拉链表设计(转)

    0x00 前言 本文将会谈一谈在数据仓库中拉链表相关的内容,包括它的原理、设计、以及在我们大数据场景下的实现方式。 全文由下面几个部分组成: 先...

  • Resize,w 360,h 240
    hive之with cube、with rollup、grouping sets

    一:多维分组聚合背景 企业针对有些指标,希望能够支撑上钻和下钻来进行查看,这样即可以满足精细化分析,又可以满足指标概览,当然现在的一些可视化工具...

  • hive自定义函数

    一:自定义UDF函数 UDF函数的特点是:多参数/单参数-》单个返回值,并且多个参数是一行当中的数据,不能实现跨行。常见的UDF函数有很多,比如...

  • Hive SQL的编译过程(转)

    Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流...

  • hive动态分区总结

    一:hive引入静态分区的意义 目前主流离线数据仓库都在使用hive,最初由谷歌工程师开发,后面贡献给apache。使我们在处理大数据时,需要写...

  • hive一次补跑数据遇到的坑

    1.问题背景 介绍下这次遇到补数问题的背景。补数是数仓从事人员经常会碰到的问题,比如修复了历史错误的逻辑,需要修复历史数据,这种行为称之为补数,...

  • hive之行转列与列转行的实现

    一:前言 在某些场景下比如报表的产出,为了更加易于理解,往往会行列互置这样显示,又或者我们需要将某个相同键的值,所属的属性进行合并显示,这样都会...

  • hive窗口函数总结

    一:前言 根据官网的介绍,hive推出的窗口函数功能是对hive sql的功能增强,确实目前用于离线数据分析逻辑日趋复杂,很多场景都需要用到。以...