一、 什么是数据仓库、数据集市和数据湖? 1、数据仓库 早期系统采用数据库来存放管理数据,但是随着大数据技术的兴起,大家想要通过大数据技术来找到数据之间可能存在的关系,所以...
1. 主流OLAP引擎技术原理大阅兵 1.1 何为OLAP 在前文 BI系统与ClickHouse:探索式BI的OLAP技术演进之路 [https://kstack.corp...
前言 初学hadoop,网上的相关资料很多,讲解大同小异:一堆专业术语+火星文 学习起来很困难,很难探究出它的存在意义,因此本文结合自己的理解,用地球人的语言来描述hadoo...
时间语义 上图是数据流式处理过程,涉及到两个重要的时间点:事件时间(Event Time)和处理时间(Processing Time)。 事件时间(Event Time):即...
1. 版本说明 组件版本hudi10.0flink13.5hive3.1.0 2. 实现效果 通过flink cdc 整合 hudi 到hive flink cdc 讲解f...
一、数据分析引擎 大数据的终极目标,是使用 SQL 语句来处理大数据,这样就能方便不知道怎么编程的数据分析人员进行数据分析。要实现这个目标,就需要大数据分析引擎,常见的有...
肝了几个晚上,梳理总结了一份万字长文超详述hive企业级优化文章,也整理了一份hive优化总结思维导图和hive优化详细PDF文档,有需要可关注公众号《大数据阶梯之路》找小编...