Hadoop
- 大数据概念
- 大数据的特点
- 大数据应用场景
- 大数据业务分析基本步骤
- 大数据部门组织架构
大数据概念
- 数据
是事实或观察的结果
是对客观事务的逻辑归纳
是用于表示客观事物的未加工的原始素材- 数据的产生
对客观事物的计量和记录产生数据
- 大数据
是指无法在一定时间范围内用常规软件工具进行捕捉,管理和出苦力的数据集合
是需要新处理模式才能具有更强的决策力,洞察发现力和流程优化能力的海量,高增长率和多样化的信息资产- 大数据的特点(5V)
1.(Valume)数据体量大: 采集数据,存储数据,计算数据量大;TB,PB级起步
2.(Variety)种类,来源多样化
3.(Value)低价值密度
4.(Velocity)速度快
5.(Veracity)数据质量
- 大数据应用场景
1.电商领域: 精准广告位,个性化推荐,大数据杀熟
2.传媒领域: 精准营销,猜你喜欢,交互推荐
3.金融领域: 信用评估,风险管控,客户细分,精细化营销
4.交通领域: 智慧城市,拥堵预测,智能红绿灯
5.电信领域: 基站选址优化,舆情监控,客户用户画像
6.安防领域: 犯罪预防,天网监控
7.医疗领域: 智慧医疗,疾病预防,病源追踪
- 大数据业务分析基本步骤
明确分析目的和思路 --> 数据的收集 --> 数据处理 --> 数据分析 --> 数据展现(图形,表格) --> 报告撰写
1.明确分析目的和思路:
-- 目的是整个分析流程的起点: 为数据的收集,处理以及分析提供清晰的指引方向
2.思路是是分析框架体系化:
-- 先分析什么,后分析什么,是各个分析点之间具有逻辑关系
-- 保证分析维度的完整性,分析结果的有效性以及正确性
3.数据分析方法论: 营销管理相关理论:
-- 用户行为方法理论,PEST分析方法,5W2H分析法等
分布式系统概述
1.分布式系统是一个硬件或软件组件分布在不同的网络计算机上
2.彼此之间仅仅通过消息传递进行通信和协调的系统
3.一群互相独立计算机集合共同对外提供服务
4.对于系统的用户来说,就像是一台计算机在提供服务样
分布式(Distributed)和集群(Cluster)的区别
分布式: 多台机器,每台机器部署不同的组件
集群: 多台机器,每台机器部署相同的组件
- 负载均衡,故障转移,伸缩性
负载均衡(Load Balance)
1.将负载工作任务进行平衡、分摊到多个操作单元上进行运行
2.解决了单个无法处理所有任务,多个一起处理的问题
故障转移(Fail Over)
1.当活动的服务或应用意外终止时,快速启用冗余或备用的服务器、系统、硬件或者网络接替它工作
2.故障转移系统也称之为容错系统,所谓容错指的是可以容忍错误的发生
3.故障转移的核心是设置备份 出现故障时 主备切换
4.主备切换的前提是数据状态保持一致*
伸缩性(Scalability)
1.伸缩性也叫做弹性,可扩展性
2.指系统可以根据需求动态的扩容、缩容
3.比如双十一业务高峰期间,增加服务器;业务低峰期,减少服务器
负载均衡:解决一个处理不下多个一起处理
故障转移:解决单点故障 容忍错误发生 业务连续
伸缩性:动态扩容、缩容