0基础学习大数据你需要了解的学习路线和方向

现在大数据这么火，各行各业想转行大数据，那么问题来了，该往哪方面发展，哪方面最适合自己？

首先从字面来了解一下大数据 大数据 （巨量数据集合（IT行业术语））大数据（big data），指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据的5V特点（IBM提出）：Volume（大量）、Velocity（高速）、Variety（多样）、Value（低价值密度）、Veracity（真实性）。

接下来我们就看看大数据的学习方向

大数据世界有三大学习方向：数据开发师、数据运维师、数据架构师。

什么是大数据开发师？

围绕大数据系平台系统级的研发人员，熟练Hadoop、Spark、Storm等主流大数据平台的核心框架。深入掌握如何编写MapReduce的作业及作业流的管理完成对数据的计算，并能够使用Hadoop提供的通用算法，熟练掌握Hadoop整个生态系统的组件如： Yarn，HBase、Hive、Pig等重要组件，能够实现对平台监控、辅助运维系统的开发。

通过学习一系列面向开发者的Hadoop、Spark等大数据平台开发技术，掌握设计开发大数据系统或平台的工具和技能，能够从事分布式计算框架如Hadoop、Spark群集环境的部署、开发和管理工作，如性能改进、功能扩展、故障分析等。

什么是大数据运维师？

了解Hadoop、Spark、Storm等主流大数据平台的核心框架，熟悉Hadoop的核心组件：HDFS、MapReduce、Yarn；具备大数据集群环境的资源配置，如网络要求、硬件配置、系统搭建。熟悉各种大数据平台的部署方式，集群搭建，故障诊断、日常维护、性能优化，同时负责平台上的数据采集、数据清洗、数据存储，数据维护及优化。熟练使用Flume、Sqoop等工具将外部数据加载进入大数据平台，通过管理工具分配集群资源实现多用户协同使用集群资源。通过灵活、易扩展的Hadoop平台转变了传统的数据库和数据仓库系统架构，从Hadoop部署实施到运行全程的状态监控，保证大数据业务应用的安全性、快速响应及扩展能力！

什么是大数据架构师？

当然如果你想要做一个数据分析师或者数据挖掘师，那么，你首先要做的不是马上去买很多的相关书籍，也不是马上去报一个数据分析师培训课程，我觉得你最先应该做的是弄明白大数据是什么意思。了解了大数据的含义之后，不管是你自学也好，跟班学习也好，都是可以受益匪浅的。所以，我们先来回答一下大家可能比较关心的一些问题。

一、大数据是什么？

大数据是一个庞大的体系，其中大致包括以下几方面：

1.数据存储阶段（用户信息，行为信息存储进硬盘）。

2.数据挖掘清洗筛选（根据产品需求筛选出符合企业用于盈利需求的数据）

3.数据分析（通过数学分析，商业分析，将挖掘出来的数据进行产品匹配盈利分析）

4.产品调整（根据分析进行产品的上下架，迭代开发，达到产品迎合更多用户的选择或者销售出更多的产品。）

5.产品下一步的规划（譬如新开一个产品线，可以根据数据来进行分析。）

二、我怎么选择我适合那个阶段的职位

1.数据存储阶段（SQL，oracle，IBM等等都有相关的课程，根据公司的不同，学习好这些企业的开发工具，基本可以胜任此阶段的职位）

2.数据挖掘清洗筛选（大数据工程师，要学习JAVA，Linux，SQL，Hadoop，数据序列化系统Avro，数据仓库Hive，分布式数据库HBase，数据仓库Hive，Flume分布式日志框架，Kafka分布式队列系统课程，Sqoop数据迁移，pig开发，Storm实时数据处理。学会以上基本可以入门大数据工程师，如果想有一个更好的起点，建议前期学习scala编程，Spark，R语言等基本现在企业里面更专业的技能。）

3.数据分析（此阶段本人涉猎不是很多，所以大致说明。需要有比较强悍的商业头脑以及数字分析能力。好的数据分析师基本都是硕士起步，数学，经济类专业。）

4.产品调整（经过分析后的数据交由老板和PM经过协商后进行产品的更新，然后交由程序员进行修改（快消类进行商品的上下架调整））

想要找到适合自己的大数据发展方向，我们先要了解大数据的工作方向，主要分以下几点：

01.大数据工程师

02.数据分析师

03.大数据科学家

04.其他（数据挖掘本质算是机器学习，不过和数据相关，也可以理解为大数据的一个方向吧）

二、大数据工程师的技能要求

必须技能10条:

01.Java高级(虚拟机、并发)

02.Linux 基本操作

03.Hadoop（此处为侠义概念单指HDFS+MapReduce+Yarn ）

04.HBase（JavaAPI操作+Phoenix ）

05.Hive(Hql基本操作和原理理解）

06.Kafka

07.Storm

08.Scala需要

09.Python

10.Spark (Core+sparksql+Spark streaming ）

高阶技能6条:

1.机器学习算法以及mahout库加MLlib

2.R语言

3.Lambda 架构

4.Kappa架构

5.Kylin

6.Aluxio

三、大数据的学习技术点

Hadoop核心

(1) 分布式存储基石：HDFS

HDFS简介入门演示构成及工作原理解析：数据块，NameNode, DataNode、数据写入与读取过程、数据复制、HA方案、文件类型、 HDFS常用设置 Java API代码演示

(2) 分布式计算基础：MapReduce

MapReduce简介、编程模型、Java API 介绍、编程案例介绍、MapReduce调优

(3) Hadoop集群资源管家：YARN

YARN基本架构资源调度过程调度算法 YARN上的计算框架

离线计算

(1) 离线日志收集利器：Flume

Flume简介核心组件介绍 Flume实例：日志收集、适宜场景、常见问题

(2) 离线批处理必备工具：Hive

Hive在大数据平台里的定位、总体架构、使用场景之Access Log分析 Hive DDL&DML介绍视图函数（内置，窗口，自定义函数）表的分区、分桶和抽样优化

(3) 速度更快的Hive：Impala

Impala在大数据架构中的角色架构数据处理过程一般使用步骤：创建表，分区表，查询等常用查询演示：统计，连接等、Impala与Hive的比较常用配置与最佳使用建议（查错，调优等）

(4) 更快更强更好用的MR：Spark

Scala&Spark简介基础 Spark编程（计算模型RDD、算子Transformation和Actions的使用、使用Spark制作倒排索引）Spark SQL和DataFrame 实例：使用Spark SQL统计页面PV和UV

实时计算

(1) 流数据集成神器：Kafka

Kafka简介构成及工作原理解析 4组核心API 生态圈代码演示：生产并消费行为日志

(2) 实时计算引擎：Spark Streaming

Spark Streaming简介工作原理解剖编写Streaming程序的一般过程如何部署Streaming程序？如何监控Streaming程序？性能调优

(3) 海量数据高速存取数据库：HBase

HBase简介架构及基本组件 HBase Table设计 HBase基本操作访问HBase的几种方式

大数据ETL

(1) ETL神器：Sqoop，Kettle

数据同步ETL介绍 Kettle常用组件介绍、抽取Mysql数据到Hive实战 Sqoop介绍、抽取Hive数据到Mysql实战

(2) 任务调度双星：Oozie，Azkaban

ETL与计算任务的统一管理和调度简介 Crontab调度的方案自研调度系统的方案开源系统Oozie和Azkaban 方案总结与经验分享

大数据应用与数据挖掘

(1) 大数据全文检索引擎：Elasticsearch

全文检索基础知识，ES安装及初级介绍，ES深入理解，使用经验介绍

(2) 数据仓库搭建

为什么要构建大数据平台大数据平台的的经典架构深入剖析“五横一纵”的架构实践知名互联网公司大数据平台架构简介

(3) 数据可视化

什么是数据可视化，数据可视化常用工具与必备技能介，Tableau和ECharts实操讲解 ECharts介绍，知名互金公司可视化经验介绍

(4) 算法介绍

介绍数据挖掘，机器学习，深度学习的区别，R语言和python的介绍，逻辑回归算法的介绍与应用，以及主要的推荐算法介绍

四、学习资源推荐:

01.Apache 官网

02.Stackoverflow04.github

03.Cloudra官网

04.Databrick官网

05.过往的记忆（技术博客）

06.CSDN，51CTO

那么，有人就会问，学习大数据，Python和java哪个学习比较有优势呢？

如果是大数据方向，python明显是比java更有优势，所以个人建议是从python入手。为什么这么说呢，我认为受以下几个因素的影响。

大数据从目前来看，数据分析、数据挖掘、机器学习、人工智能等都归属于大数据的范畴，其实是大数据技术与数据科学的混合体

大数据目前来看是大数据技术与数据科学的混合体，大数据技术偏重工程实话，对计算机编程要求较高；数据科学偏重数学抽象，对数学与统计要求较高。大数据技术通过编程语言去解决业务问题，可以理解成我们生活中的码农，而数据科学则更多的是利用统计工具或者脚本语言对数据的处理分析，通过使用到的是Matlab、R、SAS、SPSS等工具。

python与java语言的本身的定位有关系

java是一种面向对象编程语言，不仅吸引了c++语言的优点，还摒弃了难以理解的多继承、指针等概念。java具有功能强大、易于理解的特点。java主要用于商业逻辑强的领域，如商城、erp、oa、金融等领域。

python是一种面向对象的解释型语言，python是纯粹的自由软件，源代码与解释器cpython遵循GPL协议。python主要用于数据分析、科学计算、金融分析、数据挖掘、人工智能等领域，具体快速开发特性的应用场景。

总的来说，想学习大数据对于Pythong来说更适合一些，Python在数据科学方面的应用会更有优势较java语言，当然如果偏向于应用的开发方面-比如数据产品类的，则java会更有优势

学习大数据以后，那么就业方向怎么样呢？

总的来说：三大方向，十大职位。

大数据主要的三大就业方向：大数据系统研发类人才、大数据应用开发类人才和大数据分析类人才。

十大职位：1、ETL研发；2、Hadoop开发；3、可视化（前端展现）工具开发；4、信息架构开发；5、数据仓库研究；6、OLAP开发；7、数据科学研究；8、数据预测（数据挖掘）分析；9、企业数据管理；10、数据安全研究。

希望这些对大家有些用处，只要你肯努力，相信没有做不好的事情，希望大家所有的努力都会得到更好的回报，天空这么广阔，总有一片天适合你飞翔！希望大家多多关注哦

加微信 zhanglindashuju 可以免费领取大数据资料哦

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 205,033评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,725评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,473评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,846评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,848评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,691评论 1赞 282
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,053评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,700评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 42,856评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,676评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,787评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,430评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,034评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,990评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,218评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,174评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,526评论 2赞 343

0基础学习大数据你需要了解的学习路线和方向

推荐阅读更多精彩内容