大数据全系技术概览

什么是大数据？

大数据（big data），指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法（抽样调查）这样捷径，而采用所有数据进行分析处理。大数据的5V特点（IBM提出）：Volume（大量）、Velocity（高速）、Variety（多样）、Value（低价值密度）、Veracity（真实性）。

大数据应用现状

医疗/健康百度、平安、阿里、腾讯、春雨医生、易随诊、华大基因、丁香园、微糖、好大夫在线、39健康网、寻医问药网、有问必答网、育儿网、中国育儿网、宝宝树、百度医前智能问诊平台、东软、金蝶。【大数据开发学习资料领取方式】：加入大数据技术学习交流群522189307，点击加入群聊，私信管理员即可免费领取

电商淘宝、天猫、京东、亚马逊

精准销售对用户消费全过程数据进行分析，掌握用户基本属性、购买能力、行为特征、社交特征、心里特征和兴趣偏好等多方面信息。

商家和供应商决策支持。提供具有高度时效性的行业平均数据、市场需求变化、产业上下游动态等市场信息，帮助商家和供应商分析运营状态，预测销售和用户趋势，并提供针对性的运营优化策略；

平台运营优化通过大数据分析为管理层以及各级运营管理人员提供数据分析和决策支持服务。

语音服务科大讯飞、云知声、思必驰、捷通华声；

广告营销亿赞普、智子云、秒针系统、品友互动、精硕科技、集奥聚合、缔元信、

金融闪银（Wecash）、宜信、拍拍贷、陆金所、人人贷、芝麻征信、腾讯征信、京小贷、元宝铺、融360、数联铭品、九次方；

影视/娱乐腾讯视频、爱奇艺、优酷&土豆、搜狐视频、虾米音乐、网易云音乐、豆瓣FMQQ音乐、艺恩世纪国际信息咨询（北京）有限公司、新影数讯、艾漫科技、牧星人影视。

在线教育作业通、作业帮、学霸君

人力资源搜前途、哪上班、e成招聘、望才招聘、内聘网、人人猎头

旅游去哪儿、好巧网、马蜂窝、智游啦、携程

地理信息服务百度地图、高德地图、中海达、东方道迩、灵图软件

交通/物流航旅纵横、飞常准、途志、车来了、北京汇通天下物联科技、快的打车、美的空调、快逸行、九五智驾

房地产万科地产、链家地产、易遨中国、万达地产

企业应用企业有东方国信、亚信、金蝶、用友、神州数码

舆情鹰击、邦富、30所、百度、新浪

大数据技术共性

业界主流大数据技术框架

磁盘存储

HDFS、HBASE、S3、Cassandra、MongoDB、Redis

内存存储

Alluxio 、Redis

数据分析

Spark（SQL、Streaming、MLlib、GraphX）、Storm、MapReduce、Mahout、Hive、Pig

分步式协调服务

ZooKeeper

集群系统监控

CDH-CMS， Metrics， Grafana、Ambari

消息总线

kafka、ActiveMQ、Apollo、 Redis

索引系统

Solr、Lucene、ElasticSearch

大数据组件应用分类

数据采集

flume、kafka connector、sqoop、socket、sftp、mina

实时处理

Spark Streaming、Kafka Streams、Storm、Samza、Flink

数据存储

HDFS、HBASE、S3、Cassandra、MongoDB、Redis、Solr、ElasticSearch

离线处理【大数据开发学习资料领取方式】：加入大数据技术学习交流群522189307，点击加入群聊，私信管理员即可免费领取

Spark SQL、Hive、Map Reduce、Pig、Impala

交互式查询

Drill、PresTO、Kylin

数据展现

Echarts、Tableau、d3js

大数据组件简介

1、Hadoop是Apache开源组织的一个分布式计算框架，提供了一个分布式文件系统 (HDFS)、MapReduce分布式计算及统一资源管理框架（Yarn）的软件架构。

为大规模数据的存储提供解决方案（HDFS）；

解决大规模分步式计算（ MapReduce ）；

作为其周边软件Hbase、Hive、Pig、Mahout等的基础平台。

2、HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。

解决海量数据的存储；

解决随机、实时读写大数据；

提供简化访问HDFS的编程接口。

3、kafka是Apache旗下的一个高性能，高吞吐量的分步式消息总线系统。

分布式系统相互通信；

数据复制、同步；

日志同步；

Delay Queue；

广播通知。

4、Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

解决海量数据的存储；

解决大规模数据的分析：SQL。

5、MongoDB 是一个高性能，开源，无模式的文档型数据库，它在许多场景下可用于替代传统的关系型数据库或键/值存储方式。MongoDB不支持SQL，但有自己功能强大的查询语法。MongoDB使用BSON作为数据存储和传输的格式。BSON是一种类似JSON的二进制序列化文档，支持嵌套对象和数组。

解决海量数据在线存储；

许多情况下可以代替传统关系数据库；

代替键/值存储方式。

6、Redis是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。从2010年3月15日起，Redis的开发工作由VMware主持。从2013年5月开始，Redis的开发由Pivotal赞助。

7、Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。

Spark 是在 Scala 语言中实现的，它将 Scala 用作其应用程序框架。与 Hadoop 不同，Spark 和 Scala 能够紧密集成，其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

8、Storm是一个分布式的、容错的实时计算系统。使用Storm进行实时大数据分析。

9、Flink 是可扩展的批处理和流式数据处理的数据处理平台，设计思想主要来源于Hadoop、MPP数据库、流式计算系统等，支持增量迭代计算。

10、Alluxio A memory speed virtual distributed storage. Alluxio是一个高容错的内存分布式文件系统，允许文件以内存的速度在集群框架中进行可靠的共享。典型特点就是加速读写数据的速度。

11、ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。其典型特点是全文快速检索。【大数据开发学习资料领取方式】：加入大数据技术学习交流群522189307，点击加入群聊，私信管理员即可免费领取

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 205,386评论 6赞 479
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,939评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,851评论 0赞 341
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,953评论 1赞 278
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,971评论 5赞 369
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,784评论 1赞 283
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,126评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,765评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,148评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,744评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,858评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,479评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,080评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,053评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,278评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,245评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,590评论 2赞 343

大数据全系技术概览

推荐阅读更多精彩内容