大数据学习路线(完整细节版)
大数据学习路线
java
(Java se,javaweb)
Linux(shell,高并发架构,lucene,solr)
Hadoop(Hadoop,HDFS,Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume)
机器学习(R,mahout)
Storm(Storm,kafka,redis)
Spark(scala,spark,spark core,spark sql,spark streaming,spark mllib,spark graphx)
Python(python,spark python)
云核算渠道(docker,kvm,openstack)
名词解释
一、Linux
lucene: 全文检索引擎的架构
solr: 根据lucene的全文查找服务器,完结了可装备、可扩展并对查询功用进行了优化,而且供给了一个完善的功用办理界面。
二、Hadoop
HDFS
: 分布式存储体系,包含NameNode,DataNode。NameNode:元数据,DataNode。DataNode:存数数据。
yarn: 能够理解为MapReduce的和谐机制,本质就是Hadoop的处理剖析机制,分为ResourceManager NodeManager。
MapReduce: 软件结构,编写程序。
Hive: 数据仓库 能够用SQL查询,能够运行Map/Reduce程序。用来核算趋势或许网站日志,不该用于实时查询,需求很长时刻回来成果。
HBase: 数据库。十分合适用来做大数据的实时查询。Facebook用Hbase存储音讯数据并进行音讯实时的剖析
ZooKeeper: 针对大型分布式的可靠性和谐体系。Hadoop的分布式同步等靠Zookeeper完结,例如多个NameNode,active standby切换。
Sqoop: 数据库彼此搬运,关系型数据库和HDFS彼此搬运
Mahout: 可扩展的机器学习和数据发掘库。用来做引荐发掘,集合,分类,频频项集发掘。
Chukwa: 开源搜集体系,监督大型分布式体系,建立在HDFS和Map/Reduce结构之上。显现、监督、剖析成果。
Ambari: 用于装备、办理和监督Hadoop集群,根据Web,界面友爱。
二、Cloudera
Cloudera Manager: 办理 监控 确诊 集成
Cloudera CDH:(Cloudera's Distribution,including Apache Hadoop) Cloudera对Hadoop做了相应的改动,发行版别称为CDH。
Cloudera Flume: 日志搜集体系,支撑在日志体系中定制各类数据发送方,用来搜集数据。
Cloudera Impala: 对存储在Apache Hadoop的HDFS,HBase的数据供给直接查询互动的SQL。
Cloudera hue: web办理器,包含hue ui,hui server,hui db。hue供给一切CDH组件的shell界面的接口,能够在hue编写mr。
三、机器学习/R
R
: 用于统计剖析、绘图的言语和操作环境,现在有Hadoop-R
mahout: 供给可扩展的机器学习范畴经典算法的完结,包含聚类、分类、引荐过滤、频频子项发掘等,且可经过Hadoop扩展到云中。
四、storm
Storm
: 分布式,容错的实时流式核算体系,能够用作实时剖析,在线机器学习,信息流处理,连续性核算,分布式RPC,实时处理音讯并更新数据库。
Kafka: 高吞吐量的分布式发布订阅音讯体系,能够处理消费者规划的网站中的一切动作流数据(阅读,查找等)。相对Hadoop的日志数据和离线剖析,能够完结实时处理。现在经过Hadoop的并行加载机制来一致线上和离线的音讯处理
Redis: 由c言语编写,支撑网络、可根据内存亦可耐久化的日志型、key-value型数据库。
五、Spark
Scala
: 一种类似java的彻底面向对象的编程言语。
jblas: 一个快速的线性代数库(JAVA)。根据BLAS与LAPACK,矩阵核算实践的行业标准,并运用先进的根底设施等一切的核算程序的ATLAS艺术的完结,使其十分快。
Spark: Spark是在Scala言语中完结的类似于Hadoop MapReduce的通用并行结构,除了Hadoop MapReduce所具有的长处,但不同于MapReduce的是job中心输出成果能够保存在内存中,从而不需求读写HDFS,因而Spark能更好的适用于数据发掘与机器学习等需求迭代的MapReduce算法。能够和Hadoop文件体系并行运作,用过Mesos的第三方集群结构能够支撑此行为。
Spark SQL: 作为Apache Spark大数据结构的一部分,可用于结构化数据处理并能够履行类似SQL的Spark数据查询
Spark Streaming:一种构建在Spark上的实时核算结构,扩展了Spark处理大数据流式数据的才能。
Spark MLlib: MLlib是Spark是常用的机器学习算法的完结库,现在(2014.05)支撑二元分类,回归,聚类以及协同过滤。一起也包含一个底层的梯度下降优化根底算法。MLlib以来jblas线性代数库,jblas自身以来长途的Fortran程序。
Spark GraphX: GraphX是Spark中用于图和图并行核算的API,能够在Spark之上供给一站式数据解决方案,能够便利且高效地完结图核算的一整套流水作业。
Fortran: 最早呈现的核算机高档程序设计言语,广泛应用于科学和工程核算范畴。
BLAS: 根底线性代数子程序库,具有很多现已编写好的关于线性代数运算的程序。
LAPACK: 闻名的揭露软件,包含了求解科学与工程核算中最常见的数值线性代数问题,如求解线性方程组、线性最小二乘问题、特征值问题和奇特值问题等。
ATLAS: BLAS线性算法库的优化版别。
Spark Python: Spark是由scala言语编写的,但是为了推广和兼容,供给了java和python接口。
六、Python
Python
: 一种面向对象的、解释型核算机程序设计言语。
七、云核算渠道
Docker
: 开源的应用容器引擎
kvm: (Keyboard Video Mouse)
openstack: 开源的云核算办理渠道项目
想要了解更多,加我扣扣 前面274中间395后面8831