大数据采集、分布式存储、并行计算;信息检索(搜索/推荐/广告)、数据挖掘(概念/流程/机器学习/算法/模型)
- 数据库的范式约束着力解决数据冗余问题,保障数据的一致性。但对于大数据来说,并不需要进行数据的修改、和保障数据一致性,通常情况下,原始数据都是只读的。所以,数据库的范式等约束规则 反而会成为影响性能的因素,因此通常不会采用。
- 大数据下的分布式存储强调数据的只读特征,所以类似hdfs、hive这些存储系方式都不支持update,hdfs的write也不支持并行。
- 所谓的分布式存储,是指将一个大文件拆分成N份,每一份独立的放到一台机器上。这里就涉及到文件的副本、分片以及管理操作,分布式存储主要优化的动作都在这一块。
- 当前更多的方向是在存储上进行优化,以让查询和计算更加高效,即数据的查找和读取更快!所以存储不单单存储数据内容,也会添加很多元数据,如索引信息,优化查询性能。
- 分布式计算的思路是让多个节点并行计算,并且强调数据的本地性,尽可能的减少数据传输,例如spark通过RDD的形式来表现数据的计算逻辑,可以在RDD上做一系列的优化,来减少数据单位传输。
4.大数据架构除了批处理,还有实时处理的支撑。 - 流式架构以数据通道替代了ETL,数据全程以流的形式处理。经过流处理加工过的数据,以消息的形式直接推送给了消费者。
- 流式架构适用于预警、监控等对数据有有效期要求的情况。
- 综合架构,数据通道分为两条分支:实时和离线。实时流依照流式架构,离线以批处理方式为主。