spearman秩相关系数 pearson线性相关系数要求连续变量的取值服从正态分布。不服从正态分布的变量、分类或等级变量之间的关联性可采用sp...
对于定性变量,常常根据变量的分类类型来分组,可以采用饼图和条形图来描述定性变量的分布。 3.2.2对比分析 (1)绝对数比较 (2)相对数比较 ...
一、数据质量分析 脏数据: 缺失值 异常值 不一致的值 重要数据含有特殊符号的数据 1.异常值分析 (1)简单统计量分析,最常用的统计量是最大值...
数据应用 生意参谋 数据产品的本质是产品,那么首先要回答用户是谁,用户的痛点是什么,产品要解决用户的哪些痛点,及产品给用户带来的价值是什么。对于...
数据质量 15.1数据质量保障原则 1.完整性 完整性是指数据的记录和信息是否完整,是否存在缺失的情况。 2.准确性 准确性是指数据种记录的信息...
存储和成本管理 14.1数据压缩 在分布式文件系统中,为了提高数据的可用性与性能,通常会将数据存储3分,这就意味着存储1TB的逻辑数据,实际上会...
优化器新特性 优化器具有一些新特性,主要是重新排序join和自动mapjoin。 (1)重新排序join (2)自动mapjoin (3)隐式类...
数据管理 元数据是关于数据的数据 元数据打通了源数据、数据仓库、数据应用,记录了数据从产生到消费的全过程。 元数据主要记录数据仓库中模型的定义,...
退化维度 在大数据的事实表模型设计中,更多的是考虑提高下游用户的使用效率,降低数据获取的复杂性,减少关联的表数量。 特点 1.数据不断更新 2....