1. 背景:算力提升、通信带宽提升、无线通信速率提升、互联网的发展以及普及率的提升、计算设备数量快速增长。
2. 四个驱动:摩尔定律驱动的指数增长模式; 技术低成本化驱动的万物数字化; 宽带、移动、泛在互联驱动的人、机、物广泛联接; 云计算模式驱动的数据大规模汇聚。
即存储、算例、网络、智能发展的产物。
3. 大数据定义:
① 技术能力方面:规模超过现有数据处理工具、获取、管理和分析能力的数据集。
② 内涵:具备海量Volume、高速Velocity、多样Variety、难辨真伪Veracity、有价值Value特征的多维数据集(5V)
4. 大数据 海量数据 大数据是具备5V特性的海量数据,海量是大数据其中一个特征。
5. 大数据分析目标:实现对目标对象的认知,提供决策建议。
6. 大数据分析四个层次:
① 描述分析 What happened?
② 诊断分析 Why happened?
③ 预测分析 What will happen?
④ 规范分析 How can make it happen ideally?
7. 大数据分析涉及技术:
① 数据采集:将分布、异构数据源进行清洗、集成加载到数据仓库中
② 数据存储和管理:用分布式文件系统,数据库等对结构化、非结构化数据进行存储和管理
③ 数据处理与分析:用计算框架,结合机器学习方法,对数据进行分析
④ 数据隐私和安全:建立隐私数据保护体系和数据安全体系,保护隐私和数据安全
8. 可扩展算法:
即说明该算法是可扩展的。
9. 大数据算法与传统算法对比:
大数据算法以优化为中心,通过多轮迭代直至收敛。
传统算法以操作为中心,每一步正确保证了结果的正确。