Learning PySpark - 2017.pdf
在本地构建数据密集型应用程序,并使用Python和Spark 2.0的强大功能进行大规模部署。
Apache Spark是一个高效集群计算的开源框架,具有强大的数据并行和容错接口。本书将向您展示如何利用Python的强大功能并将其用于Spark生态系统。首先,您将深入了解Spark 2.0体系结构以及如何为Spark设置Python环境。
您将熟悉PySpark中可用的模块。您将学习如何使用RDD和DataFrame抽象数据并了解PySpark的流功能。此外,您将全面了解使用ML和MLlib的PySpark的机器学习功能,使用GraphFrames的图形处理以及使用Blaze的多语言持久性。最后,您将学习如何使用spark-submit命令将应用程序部署到云。
在本书的最后,您将对Spark Python API及其如何用于构建数据密集型应用程序有一个深入的了解。
本书采用了非常全面的循序渐进的方法,因此您可以了解Spark生态系统如何与Python一起使用来开发高效,可扩展的解决方案。每一章都是独立的,以非常易于理解的方式编写,重点关注每个概念的方法和原理。
关于本书
- 了解为何以及如何有效地使用Python处理数据并在Apache Spark 2.0中构建机器学习模型
- 开发和部署高效,可扩展的实时Spark解决方案
- 通过本跳转入门指南,将您对Spark的使用理解提升到新的水平
参考资料
- 英文版本下载:Learning PySpark - 2017.pdf
- python测试开发项目实战-目录
- 本文涉及的python测试开发库 谢谢点赞!
- 本文相关海量书籍下载
- 2018最佳人工智能机器学习工具书及下载(持续更新)
- Format Pdf
- Page Count 265 Pages
- https://github.com/PacktPublishing/Learning-PySpark 120+ 星
你会学到什么
- 了解Apache Spark和Spark 2.0架构
- 使用Spark SQL构建Spark DataFrames并与之交互
- 了解如何分别使用GraphFrames和TensorFrame解决图形和深度学习问题
- 读取,转换和理解数据并使用它来训练机器学习模型
- 使用MLlib和ML构建机器学习模型
- 了解如何使用spark-submit以编程方式提交应用程序
- 将本地构建的应用程序部署到群集
面向读者
如果您是想要了解Apache Spark 2.0生态系统的Python开发人员,那么本书适合您。对Python的深刻理解有望在本书中发挥最大作用。熟悉Spark会很有用,但不是强制性的