一、参考资料 1、官方文档[https://clickhouse.com/docs/zh/] 2、大数据技术与数仓-clickhouse专栏[https://blog.csd...
一、组件 介绍一下kafka进行数据复制时会涉及到的一些组件概念 zookeeper:维护集群信息,当broker加入或退出时,kafka通过订阅zookeeper就能获得通...
一、概述 关键技术:预计算、大规模并行处理、列式存储 工作原理本质:MOLAP(多维立方体分析),具体过程:指定数据模型,定义维度和度量预计算cube,计算所有的cuboid...
一、关于直立行走 基因的随机突变。对于进化论,人们常常会有一个误导,以为进化就是朝着一个明确的、更好的方向进化。基因突变跟进化一样,只有适应与不适应环境,适应了当前环境的基因...
一、概述 Flink User-defined Sources & Sinks 官方文档[https://ci.apache.org/projects/flink/flink...
一、认识 分布式的支持实时分析的数据存储系统,处理海量规模的数据和实时方面比传统的olap系统有显著的性能改善 特点快速查询,数据预聚合和内存华,使用bitmap和各种压缩技...
步骤如下: 生成第二个账号密钥,要与原默认密钥id_rsa区分开,执行如下命令:ssh-keygen -t rsa -C "你的第二个账号" -f ~/.ssh/新的秘钥名称...
一、用户画像基础 1、什么是用户画像 用户画像,即用户信息标签化,通过收集用户的社会属性、行为方式、偏好特征等多维度数据,运用大数据技术进行数据刻画,并对数据进行分析、统计、...
一、简介 1、HBase是什么 HBase,Hadoop Database,是一个基于Hadoop HDFS作为其文件存储的分布式数据库 高可用性,高扩展性、面向列的数据库 ...
1、什么是统计学 什么是数字、数值、数据 统计学是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学 2、统计学会说谎 相同的数...
1、抽象分层 ProcessFunction:提供对时间、事件、状态的细粒度控制,用于处理一些复杂事件的逻辑上,易用性较低 DataStreamApi&DataSet:核心a...
anaconda清华下载源:https://mirrors.tuna.tsinghua.edu.cn/help/anaconda/[https://mirrors.tuna....
1、引入依赖 使用的是java开发语言,以下是主要的pom.xml配置 2、开发步骤 获取执行环境(批处理或流处理) 通过source加载数据 执行算子操作 通过sink输出...
1、功能特性 支持streaming流处理、batch批处理 容错:提供有状态的计算,记录数据的处理状态,基于chandy-lamport算法实现分布式一致性快照,提供一致性...