你们是不是都听过一句话:谷歌比你自己更了解你
事实上,这句话并不是毫无根据,我们周边的一切无不体现数据的重要性,你想想,我们对自己的看法会受到多种主观和客观的因素影响,但谷歌却没有这些限制,而且掌握你所有的客观数据,而这些庞大的数据来源则得益于智能手机、网购记录、健身追踪器等
大数据开发工程师是当今技术行业中最受欢迎的工作之一。事实上,如今这些专家供不应求,如果你打算在大数据领域开展职业生涯,不妨先看看这些书,在本文中,我罗列了云计算、大数据、Hadoop和Apache Spark的最佳书籍,希望对大家有帮助
在这里我还是要推荐下我自己建的大数据学习交流qq裙:458345782, 裙 里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据开发相关的),包括我自己整理的一份最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴。
云计算
1、《让云落地》
本书很适合正在纠结如何选择云服务的信息化从业人员,有意避开了那些与产品或供应商相关的细节,侧重于架构师及架构涉及各方应当解决的各种挑战,通过对具体问题的分析和案例讲解,向读者提供了大量可供参考的设计决策,并对所有云架构中都必须应对的重点领域进行了强调说明。
不过,本书仍停留在理论和理念操作层面,在工程操作层面缺少模型以及度量机制,对业务选型的操作层面缺少指导性建议。
2、《云计算与分布式系统:从并行处理到物联网》
本书是一本完整讲述云计算与分布式系统基本理论及其应用的教材。适合完全不了解云计算的人,书中从现代分布式模型概述开始,介绍了并行、分布式与云计算系统的设计原理、系统体系结构和创新应用,并通过开源应用和商业应用例子,阐述了如何为科研、电子商务、社会网络和超级计算等创建高性能、可扩展的、可靠的系统。
3、《云计算:概念、技术与架构》
云计算的基础读物,图文并茂,对云计算的概念解释的很清楚,是一本很好的入门读物。涉及云计算领域的各个方面,涵盖了很多基本概念,共包含五个部分,第一部分到第四部分主要涵盖了云计算基础、云计算机制、云计算架构以及云计算使用等内容,第五部分即附录给出了案例研究结论。
大数据架构
4、《大数据架构商业之路:从业务需求到技术方案》
本书通过一个虚拟的互联网O2O创业故事,来逐步展开介绍创业各个阶段可能遇到的大数据课题、业务需求,以及相对应的技术方案,甚至是实践解析;让读者身临其境,一起来探寻大数据的奥秘。对于各个技术点讲解很想详细,内容很丰富,可以对大数据的架构和业务有一个全面的了解,适合技术管理人员和架构师
5、《大数据之路:阿里巴巴大数据实践》
阿里多年的技术积累的产出,而且由阿里技术大牛撰写,本书分为四个部分,数据技术篇、数据模型篇、数据管理篇、数据应用篇,是阿里巴巴分享对大数据的认知,与生态伙伴共创数据智能的重要基石。相信能对读者有很大的启发
6、《大数据架构师指南》
本书用通俗易懂的语言将一些高大上的理论知识讲解的非常透彻,并且还配有具体的例子讲解,旨在帮助读者在最短的时间内,系统地把握大数据相关的技术框架,建立系统架构级别的技术思考能力与原则。通过阅读本书,您将可以迅速建立大数据技术架构相关的知识与脉络。
7、《架构真经》
本书给出了一系列规则,每个规则围绕着不同的主题展开讨论。大部分的规则聚焦在技术上,少数规则涉及一些关键的思维或流程问题,每个规则对构建可扩展的产品都是至关重要的,这些规则在深度和焦点上都有所不同。
8、《企业IT架构转型之道》
又一本阿里巴巴出品的书,本书从阿里巴巴启动中台战略说起,详细阐述了共享服务理念给企业业务发展带来的业务价值。接着会分享阿里巴巴在建设共享服务体系时如何进行技术框架的选择,哪些重要的技术平台支撑起了共享服务体系,这也是迄今为止对阿里巴巴集团中间件体系对外最全面系统的介绍。
Hadoop
9、《Hadoop权威指南》
Apache Hadoop是一个用Java语言实现的软件框架,,是Google的重要基石。本书内容丰富,展示了如何使用Hadoop构建可靠、可伸缩的分布式系统,程序员可从中探索如何分析海量数据集,管理员可以了解如何建立与运行Hadoop集群。.
10、《Hadoop实战》
分为3个部分,深入浅出地介绍了Hadoop框架、编写和运行Hadoop数据处理程序所需的实践技能及Hadoop之外更大的生态系统。适合需要处理大量离线数据的云计算程序员、架构师和项目经理。
11、《Hadoop技术内幕》
“Hadoop技术内幕”共两册,分别从源代码的角度对“Common+HDFS”和“MapReduce的架构设计和实现原理”进行了极为详细的分析。
首先介绍了MapReduce的设计理念和编程模型,然后从源代码的角度深入分析了RPC框架、客户端、JobTracker、TaskTracker和Task等MapReduce运行时环境的架构设计与实现原理,最后从实际应用的角度深入讲解了Hadoop的性能优化、安全机制、多用户作业调度器和下一代MapReduce框架等高级主题和内容。
Spark
12、《Spark大数据处理——技术、应用与性能优化》
作为一个基于内存计算的大数据并行计算框架,Spark不仅很好地解决了数据的实时处理问题,而且保证了高容错性和高可伸缩性。本书系统、全面、详细讲解Spark的各项功能使用、原理机制、技术细节、应用方法、性能优化,以及BDAS生态系统的相关技术。
13、《深入理解Spark核心思想与源码分析》
本书结合大量图和示例,对Spark的架构、部署模式和工作模块的设计理念、实现源码与使用技巧进行了深入的剖析与解读。前面章节总结概括基本搭建和原理架构等,后面章节从SparkContext,BlockManager, Memstore以及上层的任务提交,RDD模式等模块的开发和实践进行讲解,介绍的比较具体。
14、《图解Spark:核心技术与案例实战》
以Spark 2.0 版本为基础进行编写,全面介绍了Spark 核心及其生态圈组件技术。主要内容包括Spark 生态圈、实战环境搭建、编程模型和内部重要模块的分析,重点介绍了消息通信框架、作业调度、容错执行、监控管理、存储管理以及运行框架,同时还介绍了Spark 生态圈相关组件。
15、《Spark快速大数据分析》
本书由 Spark 开发者及核心成员共同打造,讲解了网络大数据时代应运而生的、能高效迅捷地分析处理数据的工具——Spark,它带领读者快速掌握用 Spark 收集、计算、简化和保存海量数据的方法,学会交互、迭代和增量式分析,解决分区、数据本地化和自定义序列化等问题。