1.什么是数据仓库?如何构建数据仓库?(如果这个问题回答的好,后面很多问题都不需要再问)
业务调研 需求调研 数据调研
业务域 主题域/数据域 CDM 总线矩阵
分层架构 定制规范 命名规范、开发规范、流程规范
维度建模 星座模型 宽表 粒度 指标体系
任务调度 数据质量 元数据管理 血缘关系 数据治理
BI可视化 OLAP多维分析 用户画像 推荐系统
2.如何建设数据中台?可简单说下理解与思路
3.数据仓库、数据中台、数据湖的理解
4.传统数仓的程度(建模工具、ETL工具、BI报表工具、调度系统)
建模工具
ETL工具
BI报表工具
调度系统
5.传统数仓和大数据数仓的异同?有哪些大的变化?
6.印象最深刻的项目?为什么?亮点与优势?
7.数仓最重要的是什么?
模型 模型最重要的是什么?粒度 | 一致性维度 四步建模
规范 如何制定规范的?命名规范、流程规范、开发规范等
思想 解决方案、数据链路、设计思想、大数据架构
其他 发散.. 见仁见智
8.实时数仓做过吗?采用什么架构?lambda有哪些优缺点?
离线和实时是在server layer如何merge的?
丢数如何规避的?实时表存一天的数据,还是两天的?为什么?
9.如何看待kappa架构?iota架构呢?
10.责任心?沟通能力?团队协作?数据思维?
11.用户画像(静态、动态标签,统计、规则、预测标签,衰退系数、标签权重)
12.推荐系统(协同过滤,基于用户、商品,SVD,各种距离算法等)
13.数仓基础理念理解
(主题域 血缘关系 拉链表 代理键 维度退化 缓慢变化维SCD 事实表类型 增量dwd处理 星型/雪花/星座模型 事实 维度 粒度 原子/派生指标 OLAP)
14.数仓如何确定主题域?CDM?
15.数仓如何分层的?及每一层的作用?思考:为什么要这么分层?
16.数仓有哪几种建模思想?维度建模、范式建模、datavault?.. 有什么优劣,如何选择?
17.SCD的常用处理方式?优劣?与SCD2与拉链表有什么异同?
18.元数据的理解?元数据管理系统?
19.如何控制 数据质量?
20.如何做 数据治理?数据资产管理呢?
21.Hive优化?SQL优化,参数优化
(mapjoin、列裁剪、分区、分桶、Map数、Reduce数、常用参数等)
22.数据倾斜
23.小文件问题
24.order by、sort by、distribute by、cluster by
25.udf、udtf?处理的问题?
26.shuffer优化
27.MySQL如何改写row_number
28.连续n天登录用户
29.用户留存、用户活跃、沉默用户、回流用户
30.lag/lead()over()函数、ntile() 等分析函数
31.rollup、cube、grouping sets grouping_id
32.partition和分桶 order by和sort by