前言
Spark核心技术与高级应用是Spark领域少有的专注于核心原理与深度应用的著作,由科大讯飞和百分点科技的4位大数据专家撰写。不仅细致介绍了Spark的程序开发、编程模型、作业执行解析等基础知识,而且还深度讲解了Spark SQL、Spark ML、Spark Streaming等大量内部模块和周边模块的原理与使用。除此之外,还从管理和性能优化的角度对Spark进行了深入探索。
本书特色
从适合读者阅读和掌握知识的结构安排上讲,分为“基础篇"、“实战篇”、 “高级篇” 、“扩展篇”四个维度进行编写,从基础引出实战,从实战过渡高级,从高级进行扩展,层层推进,便于读者展开讨论,深入理解分析,并提供相应的解决方案。本书的案例都是实际业务中的抽象,都经过具体的实践。作为本书的延续,接下来会针对Spark机器学习部分进行拓展,期待和读者早点见面。
下面小编整理了一下书中的内容:
阅读对象:
(1)对大数据非常感兴趣的读者
(2)从事大数据开发的人员
(3)从事大数据运维的人员
(4)数据科学家和算法研究者
本书分为四篇,共计20章内容
基础篇(第1 ~ 10章):详细说明什么是Spark、Spark 的重要扩展、Spark 的部署和运行、Spark程序开发、Spark 编程模型以及Spark 作业执行解析。
实战篇(第11 ~ 14章):重点讲解Spark SQL与DataFrame、Spark Streaming、Spark MLlib与Spark ML、GraphX、SparkR,以及基于以上内容实现大数据分析、系统资源统计、LR模型、二级邻居关系图获取等方面的实战案例。
高级篇(第15~ 18章):深入讲解Spark调度管理、存储管理、监控管理、性能调优。
扩展篇(第19 ~ 20章):介绍Jobserver和Tachyon在Spark上的使用情况。
其中,第二部分实战篇为本书重点,如果你没有充足的时间完成全书的阅读,可以选择性地进行重点章节的阅读。如果你是一位有着一定经验的资深人员, 本书有助于你加深基础概念和实战应用的理解。如果你是一名初学者, 请在从基础篇知识开始阅读。
这份文档的内容很多,小编已经给大家整理出来了,点此即可
整理不易,还望大家多多转发关注,万分感谢!