数据仓库面试理论篇（全）

1、什么是数据仓库？

1）数据仓库是用于支持决策、面向分析型数据处理

2）对多个异构的数据源有效集成，集成后按照主题进行重组，并包含历史数据，而且存放在数据仓库中的数据一般不再修改

数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支持管理决策

2、数据仓库和数据库的区别？

从目标、用途、设计来说

1）数据库是面向事务处理的，数据是由日常的业务产生的，并且是频繁更新的；数据仓库是面向主题的，数据来源多样化，经过一定的规则转换得到的，用于分析和决策

2）数据库一般用来存储当前事务性数据，如交易数据；数据仓库一般存储的是历史数据

3）数据库设计一般符合三范式，有最大的精确度和最小的冗余度，有利于数据的插入；数据仓库设计一般不符合三范式，有利于查询

3、如何构建数据仓库？

数据仓库模型的选择是灵活的，不局限与某种模型方法；数据仓库数据是灵活的，以实际需求场景为导向；数仓设计要兼顾灵活性、可扩展性、要考虑技术可靠性和实现成本

1）调研：业务调研、需求调研、数据调研

2）划分主题域：通过业务调研、需求调研、数据调研最终确定主题域

3）构建总线矩阵、维度建模

总线矩阵：把总线架构列表形成矩阵形式，行表示业务处理过程，即事实，列表示一致性的维度，在交叉点上打上标记表示该业务处理过程与该维度相关（交叉探查）

4）设计数仓分层架构

5）模型落地

6）数据治理

4、什么是数据中台？

数据中台是通过数据技术，对海量数据进行采集、计算、存储、加工，同时统一标准和口径。数据中台把数据统一之后，会形成标准数据，再进行存储，形成大数据资产层，进而为客户提供高效服务。这些服务和企业的业务有较强关联性，是企业所独有且能复用的，他是企业业务和数据的积淀，其不仅能降低重复建设，减少烟囱式协助的成本，也是差异化竞争的优势所在

数据中台是通过整合公司开发工具、打通全域数据、让数据持续为业务赋能，实现数据平台化、数据服务化和数据价值化。数据中台更加侧重于“复用”和“业务”

5、数据中台、数据仓库、大数据平台、数据湖的关键区别是什么？

1）基础能力上的区别

数据平台：提供的是计算和存储能力

数据仓库：利用数据平台提供的计算和存储能力，在一套方法论的指导下建设的一整套的数据表

数据中台：包含了数据平台和数据仓库的所有内容，将其打包，并且以更加整合以及更加产品化的方式对外提供服务和价值

数据湖：一个存储企业各种各样原始数据的大型仓库，包括结构化和非结构化数据，其中湖里的数据可供存取、处理、分析和传输

2）业务能力上的区别

数据平台：为业务提供数据主要方式是提供数据集

数据仓库：相对具体的功能概念是存储和管理一个或多个主题数据的集合，为业务提供服务的方式主要是分析报表

数据中台：企业级的逻辑概念，体现企业数据产生价值的能力，为业务提供服务的主要方式是数据API

数据湖：数据仓库的数据来源

总的来说，数据中台距离业务更近，数据复用能力更强，能为业务提供速度更快的服务，数据中台在数据仓库和数据平台的基础上，将数据生产为一个个数据API服务，以更高效的方式提供给业务。数据中台可以建立在数据仓库和数据平台之上，是加速企业从数据到业务价值的过程的中间层

6、大数据有哪些相关的系统？

数仓设计中心：按照主题域、业务过程，分层的设计方式，以维度建模作为基本理论依据，按照维度、度量设计模型，确保模型、字段有统一的命名规范

数据资产中心：梳理数据资产，基于数据血缘，数据的访问热度，做成本的治理

数据质量中心：通过丰富的稽查监控系统，对数据进行事后校验，确保问题数据第一时间被发现，避免下游的无效计算，分析数据的影响范围。

指标系统：管理指标的业务口径、计算逻辑和数据来源，通过流程化的方式，建立从指标需求、指标开发、指标发布的全套协作流程

数据地图：提供元数据的快速索引，数据字典、数据血缘、数据特征信息的查询，相当于元数据中心的门户。

7、如何建设数据中台？

数据中台在企业落地实践时，结合技术、产品、数据、服务、运营等方面，逐步开展相关工作

1）理现状：了解业务现状、数据现状、IT现状、现有的组织架构

2）定架构：确认业务架构、技术架构、应用架构、组织架构

3）建资产：建立贴近数据层、统一数仓层、标签数据层、应用数据层

4）用数据：对数据进行输出、应用

5）数据运营：持续运营、持续迭代

中台建设需要有全员共识，由管理层从上往下推进，由技术和业务人员去执行和落地是一个漫长的过程，在实施数据中台时，最困难的地方就是需要有人推动。

8、数据仓库最重要的是什么？

个人认为是数据集成和数据质量

企业的数据通常存储在多个异构数据库中，要进行分析，必须对数据进行一致性整合，整合后才能对数据进行分析挖掘出潜在的价值；

数据质量必须有保障，数据质量不过关，别人怎么会使用你的数据？

9、概念模型、逻辑模型、物理模型分别介绍一下？

1）概念模型CDM：概念模型是最终用户对数据存储的看法，反映了最终用户综合性的信息需求，以数据类的方式描述企业级的数据需求

概念模型的内容包括重要的实体与实体之间的关系，在概念模型中不包含实体的属性，也不包含定义实体的主键

概念模型的目的是统一业务概念，作为业务人员和技术人员之间的沟通桥梁，确定不同实体之间的最高层次的关系

2）逻辑模型LDM：逻辑模型反映的是系统分析人员对数据存储的观点，是对概念模型的进一步分解和细化，逻辑模型是根据业务规则确定的，关于业务对象，业务对象的数据项以及业务对象之间关系的基本蓝图

逻辑模型的内容包括所有的实体和关系，确定每个实体的属性，定义每个实体的主键，指定实体的外键，需要进行范式化处理

逻辑模型的目标是尽可能详细的描述数据，并不考虑物理上如何实现

3）物理模型PDM：物理模型是在逻辑模型的基础上，考虑各种具体的技术实现因素，进行数据体系结构设计，真正实现数据在数据仓库中的存放

物理模型的内容包括确定所有的表和列，定义外键用确认表之间的关系，基于用户的需求可能要进行反范式化等内容

10、SCD常用的处理方式有哪些？

slowly changing dimensions 缓慢变化维度

常见的缓慢变化维有三种：

1）直接覆盖：不记录历史数据，薪数据覆盖旧数据

2）新加一行数据：使用代理主键+生效失效时间或者是代理主键+生效失效标识（保存多条记录，直接新添一条记录，同时保留原有记录，并用单独的专用字段保存）

3）新加两个字段，一个是previous，一个是current，每次更新只更新这两个值，但是这样职能保留最近两次的变化（添加历史列，用不同的字段保存变化痕迹，因为只保存两次变化记录，使用与变化不超过两次的维度）

11、怎么理解元数据？

狭义来讲就是用来描述数据的数据

广义来讲，除了业务逻辑直接读写处理的业务数据，所有其他用来维护整个系统运转所需要的数据，都可以认为是元数据

元数据metadata是关于数据的数据。在数仓中，元数据可以帮助数仓人员方便找到他们所关系的数据，是描述数仓内部数据的结构和建立方法的数据。按照用途可分为：技术元数据、业务员数据

技术元数据：存储关于数据仓库技术细节的数据，用于开发和管理数仓使用的数据

业务元数据：从业务角度描述了数据仓库中的数据，提供介于使用者和实际系统之间的语义层，使不懂计算机技术的业务人员也能读懂数仓中的数据

元数据管理功能

数据地图：以拓扑图的形式对数据系统的各类数据实体、数据处理过程元数据进行分层次的图形化展示，并通过不同层次的图形展现。

元数据分析：血缘分析、影响分析、实体关联分析、实体差异分析、指标一致性分析。

辅助应用优化：结合元数据分析功能，可以对数据系统的应用进行优化。

辅助安全管理：采用合理的安全管理机制来保障系统的数据安全；对数据系统的数据访问和功能使用进行有效监控。

基于元数据的开发管理：通过元数据管理系统规范日常开发的工作流程

12、数仓如何确定主题域？

主题是在较高层次上将数据进行综合、归类和分析利用的一个抽象概念，每一个主题基本对应一个宏观的分析领域，在逻辑意义上，他是对企业中某一宏观分析领域所涉及的分析对象

面向主题的数据组织方式，就是在较高层次上对分析对象的数据的一个完整并且一致的描述，能刻画各个分析对象所涉及的企业各项数据，以及数据之间的联系

主题域通常是联系较为机密的数据主题的集合，可以根据业务的关注度，将这些数据主题划分到不同的主题域（也就是说对某个主题进行分析后确定的主题的边界）

关于主题域的划分，可以考虑几方面：

1、按照业务或者业务过程划分：比如一个靠销售广告位置的门户网站主题域可能会有广告域，客户域等，而广告域可能就会有广告的库存，销售分析、内部投放分析等主题；

2、根据需求方划分：比如需求方为财务部，就可以设定对应的财务主题域，而财务主题域里面可能就会有员工工资分析，投资回报比分析等主题；

3、按照功能或者应用划分：：比如微信中的朋友圈数据域、群聊数据域等，而朋友圈数据域可能就会有用户动态信息主题、广告主题等；

4、按照部门划分：比如可能会有运营域、技术域等，运营域中可能会有工资支出分析、活动宣传效果分析等主题；

总而言之，切入的出发点逻辑不一样，就可以存在不同的划分逻辑。在建设过程中可采用迭代方式，不纠结于一次完成所有主题的抽象，可先从明确定义的主题开始，后续逐步归纳总结成自身行业的标准模型。

13、如何控制数据质量？

1）校验机制，每天对比数据量，比如count(*)，早发现，早修复

2）数据内容的比对，抽样对比

3）复盘、每月做一次全量

14、模型设计的思路？业务驱动？数据驱动？

构建数据仓库有两种方式：自上而下、自下而上

Bill Inmon推崇自上而下的方式，一个企业建立唯一的数据中心，数据是经过整合、清洗、去掉脏数据、标准的、能够提供统一的视图。要从整个企业的环境入手，建立数据仓库，要做很全面的设计。偏数据驱动

Ralph Kimball推崇自下而上的方式，认为数据仓库应该按照实际的应用需求，架子啊需要的数据，不需要的数据不要加载到数据仓库中。这种方式建设周期短，用户能很快看到结果。偏业务驱动

15、为什么需要数据仓库建模？

数仓建模需要按照一定的数据模型，对整个企业的数据进行采集，整理，提供跨部门、完全一致的报表数据。

合适的数据模型，对于大数据处理来讲，可以获得得更好的性能、成本、效率和质量。良好的模型可以帮助我们快速查询数据，减少不必要的数据冗余，提高用户的使用效率。

数据建模进行全方面的业务梳理，改进业务流程，消灭信息孤岛，更好的推进数仓系统的建设。

16、数据仓库建模方法有哪些？

常用的有ER模型，维度模型

ER模型

ER模型用实体关系模型描述企业业务，在范式理论上满足3NF。数仓中的3NF是站在企业角度面向主题的抽象，而不是针对某个具体业务流程的实体对象关系的抽象。

采用ER模型建设数据仓库模型的出发点是整合数据，将各个系统中的数据按照主题进行相似性整合，并进行一致性处理。

ER模型特点：

需要全方位了解企业业务数据

实施周期较长

对建模人员要求教高

维度建模

维度建模按照事实表和维度表来构建数仓。

维度建模从分析决策的需求出发构建模型，为分析需求服务。重点关注用户如何快速的完成数据分析，可以直观的反应业务模型中的业务问题，需要大量的数据预处理、数据冗余，有较好的大规模复杂查询的响应性能。

维度建模的两种模式：

星形模型：以事实表为中心，所有的维度直接连接在事实表上。由一个事实表和一组维度表组成。

雪花模型：是对星形模型的扩展。雪花模型的维度表可以拥有更细的维度，比星形更规范一点。维护成本较高，且查询是要关联多层维表，性能较低

维度建模步骤：选择业务过程-- 选择粒度-- 选定事实表-- 选择维度

17、数仓架构为什么要分层？

1）分层可以清晰数据结构，使用时更好的定位和理解

2）方便追踪数据的血缘关系

3）规范数据分层，可以开发一些通用的中间层数据，能够减少极大的重复计算

4）把复杂的问题简单化

5）屏蔽原始数据的异常，下游任务没有感知异常

18、presto原理是什么？

presto 是一个开源分布式的sql查询引擎，数据量支持GB到TB字节，presto本身不存数据，但是可以接入很多数据源，而且支持跨数据源的级联查询

presto优点：

1）支持多数据源及多数据源之间混合计算

2）大数据：完全的内存计算，数据量的大小取决于集群内存大小

3）低延迟高并发的内存计算引擎，相对hive，无论是mr还是tez还是spark执行引擎，至少提升10倍以上

4）扩展性：有众多的spi扩展点支持，开发人员可以编写udf、udtf，还可以实现自定义话的connector，实现索引下推，借助外置的索引能力，实现特殊场景下的mpp

5）流水线：presto是基于pipeline进行设计，在大量数据计算过程中，用户无需等到所有数据计算完成才能看到结果，一旦开始计算就可产生一部分结果返回，后续的计算结果以多个page返回给用户

6）索引下推：Presto 弃用 Hadoop InputFormat，但采用类似的数据分区技术，并且可以把 SQL 经过解析后，把Where 条件生成 TupleDomain 传递给 Connector。Connector 能根据字段元数据采用一定程度的索引下推，利用底层系统的索引能力，大大减少数据扫描区间和参与计算的数据量。

presto应用场景：

1）实时计算：实时查询工具上的重要选择

2）ad-hos查询：数据分析应用、presto根据特定条件查询返回结果和生成报表

3）etl：支持广泛的数据源，可用于不同数据库之间迁移、转换和清洗能力

4）实时数据流分析：presto-kafka connector使用sql对kafka的数据进行清洗、分析

5）作为MPP：Presto Connector 有非常好的扩展性，可进行扩展开发，可支持其他异构非SQL查询引擎转为SQL，支持索引下推

presto架构

1）client ：包含presto-cli客户端和jdbc驱动、odbc及其他语言实现的driver

2）discovery service：是将coordinator和work 结合到一起的服务。worker节点启动后向discovery server服务注册，coordinator从discovery server获得正常工作的worker节点

3）coordinator：主要用于接收客户端提交的查询，解析sql语句，生成查询执行计划，并生成stage和task进行调动，然后合并结果，把结果返回给客户端

4）worker：主要负责与数据的读写交互以及执行查询计划

presto sql执行步骤：

1）客户端通过http发送一个查询语句给presto集群的coordinator

2）coordinator接收到客户端的查询语句，对语句进行解析，生成查询执行计划，并根据生成的执行计划生成stage和task，并将task分发到需要处理数据的worker上进行分析

3）worker执行task，task通过connector从数据源中读取需要的数据

4）上游stage输出的结果给到下游stage作为输入，每个Stage的每个task在worker内存中进行计算和处理

5）client从提交查询后，就一直监听coordinator中的查询结果，一有结果就立即输出，直到轮训所有的结果都返回则本次查询结果结束

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,053评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,527评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,779评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,685评论 1赞 276
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,699评论 5赞 366
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,609评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,989评论 3赞 396
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,654评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,890评论 1赞 298
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,634评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,716评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,394评论 4赞 319
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,976评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,950评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,191评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,849评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,458评论 2赞 342