一.何为数仓?
也就是集成化数据环境,控制数据的流入与流出,本身并不产生和消费数据。
二.数仓的作用?
1、管理数据,支持服务调用,为企业提供决策支持。
2、基本架构图
三.数仓的数据流程
1.数据源
也就是我们的业务产生的数据。一般来源于日志,IOT(前端设备),或者其他的系统。
2.数据集成
其实也就是数据收集的过程。大部分web业务的数据收集以API接口和消息队列为主,这个过程应该是业务开发控制。
3.数据存储
1.不涉及大数据,一般用关系型数据库mysql,oracle,存储。
2.大数据环境下。Hbase大数据行数据库,Storm流式处理框架,Flink,Spark大数据系统框架.。
4.数据清洗
1..informatica(规则管理平台,华为目前在使用),一种第三方的数据规则管理工具,可以根据配置的规则对数据进行筛选。
2.利用算法进行筛选。
5.数据建模
1.数仓模型建模,也就是我们常常聊得业务模型建模
2 AI算法建模,基于统计学,概率论等,设计需要的数据模型,并进行自学习管理。(1,监督学 2 ,半监督学 3 ,无监督学)
6.数据服务
使用数据,发挥数据价值。
四.数仓建立的两种模式
1.kimball模式,自下而上,定制甲方业务,先有业务模型,再有数仓模型。
2.Inmon模式,自下而上,根据模块功能,建立数仓模型,再决定业务模型。
一般的互联网公司还是以服务甲方为主,而大企业公司就会选择Inmon模型,研发自己的产品。
五.数据中台。
1.一个对数据直接处理的平台。所有对数仓的直接操作,全部由数据中台处理。