截止到目前,大数据hadoop已经更新到了3.0版本,那么相比较之前的版本,3.0到底在哪些方面做出了新的改变呢?到底做了哪些重大的改进呢?
1、 Hadoop Common
(1)内核的精简,这个是很多次版本更新都会进行重组的地方。想比较与之前的版本,3.0剔除了一些过期的API和实现,将默认组件实现替换成最高效的实现(比如将FileOutputCommitter缺省实现换为v2版本,废除hftp转由webhdfs替代,移除Hadoop子实现序列化库org.apache.hadoop.Records
(2)Classpath isolation以防止不同版本jar包冲突,比如google Guava在混合使用Hadoop、HBase和Spark时,很容易产生冲突。
(3)Shell脚本重构。 Hadoop 3.0对Hadoop的管理脚本进行了重构,修复了大量bug,增加了新特性,支持动态命令等。
2、 Hadoop HDFS
(1)多NameNode支持,即支持一个集群中,一个active、多个standby namenode部署方式。
(2)HDFS支持数据的擦除编码,这使得HDFS在不降低可靠性的前提下,节省一半存储空间。
3 、Hadoop MapReduce
(1)MapReduce内存参数自动推断。
(2)Tasknative优化。为MapReduce增加了C/C++的map output collector实现(包括Spill,Sort和IFile等),通过作业级别参数调整就可切换到该实现上。
小编真理的大数据架构师相关学习资料,需要的请私信小编哦!