本博客是笔者在生产环境使用 Flink 遇到的 Checkpoint 相关故障后,整理输出,价值较高的 实战采坑记,本文会带你更深入的了解 Flink 实现增量 Checkp...
Apache Kylin核心思想 简单来说,Kylin的核心思想是预计算,用空间换时间,即对多维分析可能用到的度量进行预计算,将计算好的结果保存成Cube,供查询时直接访问。...
本文来自一位不愿意透露姓名的粉丝投稿 相信很多人对于MySQL的索引都不陌生,索引(Index)是帮助MySQL高效获取数据的数据结构。 因为索引是MySQL中比较重点的知识...
虽然一直在接触这些专业的名词,但是一直理解的不深刻,所以今天特地查了一些官方解释和很多优秀的博客文章,将关于这些方面的理解记了下来,先将这些简称做一个解释: 1、DB(Dat...
Map Reduce & YARN 简介 Apache Hadoop 是一个开源软件框架,可安装在一个商用机器集群中,使机器可彼此通信并协同工作,以高度分布式的方式共同存储和...
通过阅读本文,可以让你快速了解数仓如何分层,合理,实用。笔者坚持原创,根据实践总结,希望对新手有所帮助。 分层案例 1.电信通讯stage层 ->bdl层 ->analysi...
概述 维度建模法(Dimensional Modeling)是数据仓库建模中比较常用的方法,最常见的数据模式包括 星型模式(Star Schema)、雪花模式(Snowfla...
本文内容基于Spark最新版1.6.1 Spark 最初只有Spark Core,通过逐步的发展,现在已扩展出Spark SQL、Spark Streaming、Spark ...
案例来源:http://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.html Spark算子大致上可分三...
Spark Streaming 编程指南1.概述Spark Streaming 是 Spark Core API 的扩展, 它支持弹性的, 高吞吐的, 容错的实时数据流的处理...