目录
- 前言
- 现状
- 必要性
- 一、成果输出
- 数据集成
- 数据赋能
- 二、 实现过程
- 1)调研
- 2)数据采集同步
- 3)数据建模
- 4)数据指标提醒构建
- 5)数据赋能
前言
主要使用产品如下:
XX 大数据开发平台,可实现从数据的抽取、治理、分层存储,到数据模型的建立、分析挖掘以及数据的最终应用;
XX存储生态集群,包括(以postgres数据库为DB内核、HD大数据平台、分布式数据库、离线同步引擎等),在稳定的OLTP基础上持一定数量级别的大数据OLAP需求;
XX BI 大数据可视化分析平台。
作者:以数据分析师(产品)身份全程参与完成了此中台项目一期建设。从需求调研到数据贯通、数据赋能。
完成了自下而上的元数据梳理、数据定义、数据模型构建,和自上而下的业务理解、业务指标体系搭建、指标管理及指标可视化。同时指导数据开发工程师、UI及前端完成数据赋能的落地。
对象:XX园区[1]。大型产业园区,以为主营业务。
背景
现状
依靠业务线,经过十多年的信息化建设,XX园区[1]已经积累了大量数据,资产、财务、OA等系统建设也日趋完善。
-
业务模式
从XX园区[1]对外财报可以看到,主营业务收入主要来自房产租赁、销售以及投资收益。
必要性
-
痛点
1、数据孤岛
数据不规范、数据可靠性低。例如跨部门多台账、数据定义不一致。
2、业务线不连贯。
当业务线跨多部门时,前置和后置部门对业务对象定义不一。同一实体,无法复用 -
需求
1、解决数据孤岛、业务线不连贯等问题
2、通过数据集成,能够数据共享、复用。
3、数据分析,对内衡量业务发展,对外探索业务新模式,加快数字化转型。
一、成果输出
数据集成
一年已完成OA、资产、财务、人事等系统原始数据表的对接,开展400余项指标设计,完成开发了领导、资产部、财务、人力资源等9个驾驶舱,每日同步更新近400余张数据表,数据总量超过2200万。
数据赋能
-
1)构建数据标准
业务多元,各部门结合紧密,数据标准缺失导致企业内部存在“数据歧义”与“多台账”等问题。通过统一部门之间的数据标识、统计口径并设立信息数据专员明确数据责任主体,得以保证数据的唯一、准确、及时、有效,大幅节约部门间沟通成本,提高员工工作效率,并为具体实施中台搭建提供基础。 -
2)数据贯通
各业务子系统相互独立、孤岛纵横是推进数字化转型的一大阻碍。目前数据中台已连接部分业务系统,基本实现XX园区[1]的基础业务数据整合,实现信息系统之间的高效交流和数据共享。 -
3)数据价值
数据中台针对各部门在数据使用方面的痛点与需求,完成了数据建模与驾驶舱搭建。截至目前共开发完成9个驾驶舱界面,包含26个子模块,累计超过400个指标项,囊括XX园区[1]的主营业务。实现了通过数据分析,客观完整地反映企业经营状况,为精细化管理提供支撑。
二、实现过程
1)调研
了解XX园区[1]当前信息化建设下的已有系统,从完善度较高的系统开始对接,当前主要对接了OA、资产、财务、人事等系统, 已基本覆盖XX园区[1]的主营业务线。
调研各部门主要在业务系统使用中遇到的业务痛点,以及亟待解决的需求。例如:各部门较为独立,对出租率、收入的定义不一致。
业务调研
要构建大数据数据仓库,就需要了解各个业务领域、业务线的业务有什么共同点和不同点,以及各个业务线可以细分为哪几个业务模块,每个业务模块具体的业务流程又是怎样的。业务调研是否充分,将会直接决定数据仓库建设是否成功 。需求调研
需求调研的途径有两种:一是直接和业务人员获知需求;二是现有的报表和台账进行研究分析。
2)数据采集同步
-
数据来源
线上数据:对接各业务系统,拿到数据库说明文档及个业务系统读取权限(仅读取)
线下台账:开发上传接口,指定上传规则及更新周期
-
数据采集策略
备库: 与主库实时同步
抽取备库:每天定点全量
-
数据定义
-
元数据定义:
-
要理解业务,除和业务人员沟通外,就要对元数据进行梳理,避免毫无章法的查表,建议先对元数据进行数据定义,主要是分为单表属性定义和表字段定义。
-
要理解业务,除和业务人员沟通外,就要对元数据进行梳理,避免毫无章法的查表,建议先对元数据进行数据定义,主要是分为单表属性定义和表字段定义。
-
数据关系定义
-
在“数据定义” 完成后,需要考虑表与表之间的关系。以实体出发寻找其行为、扩展信息等,划分出不同的业务域。
-
在“数据定义” 完成后,需要考虑表与表之间的关系。以实体出发寻找其行为、扩展信息等,划分出不同的业务域。
-
3)数据建模
-
3.1数仓模型
-
在“数据定义” 完成后,需要考虑表与表之间的关系。以实体出发寻找其行为、扩展信息等,划分出不同的业务域。
-
ods层一般为抽取的元数据,例如
-
01、数据定义的表
商品表 ods_aaa1_xxx
商品信息表 ods_aaa2_xxx
定价表 ods_aaa3_xxx
厂商表 ods_aaa4_xxx
订单表 ods_aaa5_xxx
-
01、数据定义的表
-
dwd主题层一般建立大宽表,以事实表或者实体表尽可能的关联信息,避免百分比数据(因为比率数据无法做累加累减),此处dwd表不一定追求一步生成,“目标dwd表”可由多张“过程dwd表”生成。
-
02、数据关系定义划分的域
订单域 dwd_order_xx
商品域 dwd_sku_xxx
-
02、数据关系定义划分的域
-
dws专题层的建立就要考虑应用了(指标),思维方向是<自上而下>的。即从业务指标出发,考虑指标维度,从而去搭建适配的dws层。
-
按照实体进行维度聚合,例如订单按用户不同地区聚合,
-
按照实体进行维度聚合,例如订单按用户不同地区聚合,
adm应用层,既可以用作BI可视乎展示也可以用于结果集数据分享。其构建思路,是要考虑服务器的性能和指标的耦合性,要做到一定的平衡。例如adm层的应用表大而宽,对于指标取数是友好的,即可从一张表获取多个指标,但是adm层每天的日增或者全量运行,服务器压力可能会很大;反之应用表假如只针对一个指标,则耦合性太高,扩展性低,适合于业务固定场景。
-
在“数据定义” 完成后,需要考虑表与表之间的关系。以实体出发寻找其行为、扩展信息等,划分出不同的业务域。
-
3.2算法模型
- 我们在业务开发过程中会形成一些通用的算法,比如“在租客户价值度分析”等
4)数据指标体系构建
-
4.1数据指标定义
- 将不同角度的事实数字化、可量化
- 可度量、可拆解、可描述。
-
4.2指标类型
- 1、基础指标(原子指标)
- 由基础数据直接展示出单维度指标。如产量, 成本等
- 2、交叉指标(派生指标 = 原子指标+时间周期+修饰词)
- 由多个基础指标,结合多种维度,结合度量加工统计得出新的指标,如损耗率、缺货率、产品合格率等;
- 3、高级指标
- 结合一定的业务逻辑,或采取某种算法加工得出的指标。如产能利用率、劳动生产率、交货期预测等;
- 1、基础指标(原子指标)
-
4.3指标体系构建思路
- 1、自上而下
- 面向对象
- 指具体人员
- 面向业务
- 主营业务的业务线
- 如:用户行为生命周期
- 关键性指标构成线
- 如:GMV
- 各环节转化
- 如:GMV
- 主营业务的业务线
- 面向对象
- 2、自上而下
- 从源数据出发,发掘。
- 1、自上而下
-
4.4指标标准管理
- 1、基础属性
- 指标编号:一级分类、二级分类、三级分类、指标名称、英文名
- 2、业务属性
- 业务含义、统计口径、类型
- 度量单位、统计频率
- 3、技术属性
- 数据模型、长度/精度、敏感性
- 4、管理属性
- 版本号、日期、定义部门、使用部门
- 1、基础属性
-
举例
-
案例1:To-B
-
园区管理案例
- 人效分析
-
-
案例1:To-C
-
付费APP案例
-
-
5)数据赋能
- 在我们完成数据建模以及数据指标体系的构建后,接下来就是对数据进行赋能。数据中台针对各部门在数据使用方面的痛点与需求,完成了数据建模与驾驶舱(可视化大屏)搭建。截至目前共开发完成9个驾驶舱界面,包含26个子模块,累计超过400个指标项,客观完整地反映企业经营状况,为精细化管理提供支撑
-
数据标准化
- 去除不同终端中的叫法与含义,定义统一化的输入输出;构建数据指标字典,达到数据贯通及快速响应。
-
数据共享
- 针对之前存在的“数据歧义”与“多台账”等问题。通过统一部门之间的数据标识、统计口径。指定数据定义、统计口径等,实现系统间、部门间,数据共享。
-
数据可视化
- 截至目前共开发完成9个驾驶舱界面,包含26个子模块。通过数据分析,客观完整地反映企业经营状况,为精细化管理提供支撑。如**。
- 截至目前共开发完成9个驾驶舱界面,包含26个子模块。通过数据分析,客观完整地反映企业经营状况,为精细化管理提供支撑。如**。