1. Python和机器学习扩展异常检测 1.1. 机器学习有助于大规模数据可观测性和数据监控 1.1.1. 配备了机器学习的检测器可以更灵活地应用到更多的数据表上,从而消除...
1. Python和机器学习扩展异常检测 1.1. 机器学习有助于大规模数据可观测性和数据监控 1.1.1. 配备了机器学习的检测器可以更灵活地应用到更多的数据表上,从而消除...
1. 监控和异常检测 1.1. 在数据方面,所有明面上的测试和数据质量检查都不能完全保护你免受数据宕机的影响 1.1.1. 宕机可能由于各种原因而出现在管道内部和外部的各个阶...
1. 运行分析型数据转换 1.1. 确保ETL期间的数据质量 1.1.1. ETL即“提取-转换-加载” 1.1.2. 步骤1.1.2.1. 在提取步骤中,原始数据从一些上游...
1. 批处理 1.1. 批处理在一段时间内收集数据,然后将大量数据“批处理”在离散的数据包中 1.2. 直到20世纪10年代中期,批处理都是处理分析型数据最常用的方法 1.3...
1. 收集数据 1.1. 数据收集和清洗是生产管道中的第一步 1.1.1. 数据转换和测试则在生产管道中解决数据质量问题 1....
1. 同步数据 1.1. 不同的数据仓库和数据湖通过数据集成层来进行桥接 1.2. AWS Glue、Fivetran和Matillion等数据集成工具从不同来源收集数据,统...
1. 组装 1.1. 对于任何数据从业者来说,解决生产过程中的数据质量问题都是一项关键技能,但只要有适当的系统和流程,就基本可以防止数据宕机 1.2. 数据在管道的任何阶段都...
1. 为什么数据质量值得关注 1.1. 数据是你的CEO的首要任务 1.2. 下游数据消费者(包括产品分析师、营销领导者和销售团队)则依赖于数据驱动的工具 1.3. 数据宕机...
1. 基本信息 数据工程之道:设计和构建健壮的数据系统 [美]乔·里斯(Joe Reis),[美]马特·豪斯利(Matt Housley)著 机械工业出版社,2024年2月出...