在了解了大数据的知识体系后,我们知道大数据技术是由一个个的产品组合而来的,我们要想学好大数据,必然要对每一个组件了然于胸,必须将理论和实践结合起来才能学习的更加高效,更加透彻。其实不难发现,大数据技术本质是分布式计算,分布式存储以及集中管理,我们知道大数据之所以能够快速的处理海量数据,就是建立在多台服务器的基础上,通过各种分布式技术来让多台机器来更加灵活高效的完成计算任务。因此,我们在学习这门技术的时候,不能一头扎进去某个技术点,应该在一个更宏观的角度来看待这门技术,需要先了解这门技术是怎样的一个运行机制,核心原理是什么。这样我们学习才能更加有侧重点,把主要的精力应该放在哪里。这样的话,我们学习起来也会更有意思一点。
一般的大数据平台指的是互联网平台加大数据产品组合而来的,应用服务器负责业务数据与日志的收集,通过大数据产品将数据进行存储,计算,然后将处理好的数据返回给应用服务器,最后数据以图形或者其他形式展现在前端页面上。不管是人工智能还是机器学习,其基本技术还是得有大数据支撑,巧妇难为无米之炊,数据意味着价值,根据历史数据我们可以判断接下来的走势,可以通过数据挖掘出新的需求,软件工程就是把现实中的业务操作由计算机来实现,现在大多的业务操作都已经完成了信息化,我们需要通过大数据挖掘出一些业务的相关性,让数据来给我们答案。在实际业务场景中我们更多的是通过大数据产品来完成数据的采集,存储,计算,最后通过数据分析得到我们想要的结果。
那么如何去实践呢,我们需要将整个知识体系打散,就想庖丁解牛一样一个一个的去攻克每个知识点。在学习每个大数据产品组件的时候,我们需要不断的总结思考,不同的组件之间的联系是什么,它们之间的共性是什么,为什么要这样设计。就好像从一个树干中分离出树枝,树枝上挂着树叶的形式将零散的知识点串起来,只有这样我们才能记得更加牢固,更加深刻。
1.将整体切分个体,逐个学习并建立联系
2.理论结合实践,多动手
3.每隔一段时间进行复盘
上面说的可能更多的是方法论,偏理论。好像并没有将到具体的知识点该如何学习并且掌握。因此,在接下来的篇幅我会针对hadoop生态圈中的每一个组件进行详细的讲解,也是自己从Java开发转型大数据的一些经验总结以及所遇到的坑。