Spark大数据平台应用实战

对于一个具有相当技术门槛与复杂度的平台,Spark从诞生到正式版本的成熟,经历的时间如此之短,让人惊诧。2009年,Spark诞生于伯克利大学AMPLab,于2010年正式开源,2013年成为了Apache基金项目,2014年成为Apache基金的较高级项目,整个过程不到五年时间。

2015年是Spark飞速发展的一年,Spark成为了现在大数据领域最火的开源软件,截止2015年,Spark的Contributor比2014年涨了3倍,达到730人;总代码行数也比2014年涨了2倍多,达到40万行,不但大量的互联网企业已经在使用或者正准备使用Spark,而且大量的电信、金融、证券和传统企业已经开始引入了Spark。

学习它并掌握它,是大数据风口下IT人的必备技能。本课程全程将通过以下内容的实战演练,带你玩转Spark!

本课程将会结合精典案例讲解Spark Job的整个生命周期,以及如何划分Stage,如何生成逻辑执行计划和物理执行计划。从Hash Shuffle到Sort Shuffle再到Tungsten Sort Shuffle详细分析Spark Shuffle机制的原理与演进,同时结合Yarn分析Spark的内存模型以及如何进行相关调优,其中两节课主要介绍Spark Streaming使用方式,分析通用流式处理系统的关键问题以及Spark Streaming对相应问题的解决方案,如窗口,乱序,Checkpoint等,并分析Spark Streaming与Storm和Kafka Stream各自的优缺点和适用场景。

最后将结合源码分析Spark SQL的原理,以及实现SQL引擎的一般方法,介绍如何进行Spark SQL性能优化。并结合大量真实案例,分析如何解决数据倾斜问题从而提高应用性能。

课程大纲:

很多初学者,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习企鹅群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系。


第一课. Spark背景介绍与安装部署

             1.1 Spark在大数据生态中的定位

             1.2 Spark主要模块介绍

             1.3 Spark部署模型介绍

             1.4 Spark基于Ambari的安装

             1.5 Spark Standalone下的HA

第二课. 基于Java的Spark编程入门

             2.1 Spark应用中的术语介绍

             2.2 交互式工具spark-shell

             2.3 从Word Count看Spark编程

             2.4 spark-submit的几种用法

第三课 Spark常用算子介绍

             3.1 transform与action

             3.2 广播变量与累加器

             3.3 persist与checkpoint

             3.4 数据本地性(Data locality)

第四课. 一个Spark应用的一生

             4.1 Spark应用的Stage划分

             4.2 窄依赖 vs. Shuffle依赖

             4.3 Job逻辑执行计划

             4.4 Job物理执行计划

第五课. Shuffle机制变迁

             5.1 Hadoop Shuffle方案

             5.2 Spark Hash Shuffle

             5.3 Spark Sort Shuffle

             5.4 Spark Tungsten Sort Shuffle

第六课. Spark SQL实战

             6.1 Spark SQL前世今生

             6.2 RDD vs. Dataframe vs. Dataset

             6.3 使用外部数据源

             6.4 连接metastore

             6.5 自定义函数

             6.6 spark-sql与Spark thrift server

第七课. Spark SQL原理

             7.1 Spark SQL执行过程解析

             7.2 Catalyst原理

             7.3 SQL引擎原理

             7.4 Spark SQL优化

第八课. 例讲数据倾斜解决方案

             8.1 为何需要处理数据倾斜

             8.2 调整并行度,分散同一Task的不同Key

             8.3 自定义Partitioner,分散同一Task的不同Key

             8.4 Map Join代替Reduce Join消除数据倾斜

             8.5 为倾斜key增加随机前缀

             8.6 大表增加随机前缀,小表扩容

第九课. Spark Streaming上

             9.1 Spark Streaming示例

             9.2 流式系统关键问题分析

             9.3 Window操作

             9.4 如何在流数据上做Join

             9.5 Checkpoint机制

第十课. Spark Streaming下

             10.1 如何处理数据乱序问题

             10.2 Spark Streaming容错机制

             10.3 Spark与Kafka实现Exactly once

             10.4 Spark Streaming vs. Storm vs. Kafka Stream

             10.5 Spark Streaming性能优化

             10.6 Structured Streaming

第十一课. Spark MLlib

             11.1 Pipeline

             11.2 特征工程

             11.3 模型选择

             11.4 调优

第十二课. Spark优化

             12.1 应用代码优化

             12.2 Spark统一内存模型

             12.3 基于YARN的参数优化

             12.4 其它优化项

授课时间:

课程预计2017年10月26日开课,预计课程持续时间为14周

授课对象:

Java开发转大数据开发

具有一定Hadoop或其它分布式应用基础,转Spark开发

希望在Spark开发和原理上有所提升的大数据开发人员 

课程环境:

Spark 2.1、Hadoop 2.7.3+

收获预期:

1. 掌握Spark核心原理,包括但不限于Spark Job的执行过程,Shuffle机制

2. 了解如何对Spark Job进行性能优化,包括但不限于参数调优,数据倾斜优化,应用代码调优

3. 掌握Spark Streaming的原理及使用方式,并掌握如何结合Spark Streaming和Kafka实现正好一次处理语义

4. 了解流式处理系统的常见问题和解决方案 


©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,378评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,356评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,702评论 0 342
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,259评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,263评论 5 371
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,036评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,349评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,979评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,469评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,938评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,059评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,703评论 4 323
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,257评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,262评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,485评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,501评论 2 354
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,792评论 2 345

推荐阅读更多精彩内容