Hadoop系列-Hadoop简介与运行环境搭建

hadoop简介

hadoop主要是解决海量数据的存储和海量数据的分析计算问题,狭义上来说,hadoop最擅长做海量离线的日志分析;广义上来说,hadoop还是指一个更加广泛的概念--hadoop生态圈。

hadoop 核心

HDFS:分布式文件系统
YARN:资源管理调度系统
Mapreduce:分布式运算框架

hadoop有三个发行版本:Apache、Cloudrea、Hortonworks。
Apache 版本最原始(最基础)的版本,对于入门学习最好。
Cloudera 在大型互联网企业中用的较多。
Hortonworks 文档较好。

选择hadoop的优势(4高)

  1. 高可靠性: Hadoop底层维护多个数据副本, 所以即使Hadoop某个计算元素或存储出现故障, 也不会导致数据的丢失。
  2. 高扩展性:在集群间分配任务数据, 可方便的扩展数以千计的节点。
  3. 高效性:在MapReduce的思想下, Hadoop是并行工作的, 以加快任务处理速度。
  4. 高容错性:能够自动将失败的任务重新分配。

Hadoop1.x和Hadoop2.x区别

image.png

如图,在Hadoop1.x时代,Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度, 耦合性较大, 在Hadoop2.x时代, 增加了Yarn。 Yarn只负责资源的调度,MapReduce只负责运算。

HDFS架构

  1. NameNode( nn) :存储文件的元数据, 如文件名, 文件目录结构, 文件属性( 生成时间、 副本数、文件权限) , 以及每个文件的块列表和块所在的DataNode等。


    image.png

    image.png
  2. DataNode(dn):在本地文件系统存储文件块数据, 以及块数据的校验和。


    image.png

    image.png

(上面四幅图片是对NameNode和DataNode最形象的比喻,我们可以把NameNode看作是文件的目录,而DataNode是文件的内容)

  1. Secondary NameNode(2nn):用来监控HDFS状态的辅助后台程序, 每隔一段时间获取HDFS元数据的快照。

MapReduce 架构

MapReduce 将计算过程分为两个阶段: Map 和 Reduce。其中
1) Map 阶段并行处理输入数据
2) Reduce 阶段对 Map 结果进行汇总
如下图所示的两个阶段:


hadoop运行环境搭建

1. 安装对应版本的JDK

由于hadoop是安装的最新版本的3.2.0版本,所以JDK选择的是1.8.0版本,这个版本一定要注意,安装之前google一下,否则后边会出现很多问题。
首先官网下载对应版本的JDK,我是下载到了Downloads目录下,然后解压到opt/jvm目录下(jvm是新建的文件夹,解压好的文件都放到了这个文件夹中),命令如下:
sudo tar zxvf jdk-8u211-linux-x64.tar.gz -C /opt/jvm

2. 配置JDK的环境变量

切换到JDK所在目录,运行如下命令:

dreamgeng at dreamgeng-ubuntu in ~ 
$ cd /opt/jvm/jdk1.8.0_211   #切换目录
dreamgeng at dreamgeng-ubuntu in /opt/jvm/jdk1.8.0_211 
$ pwd   
/opt/jvm/jdk1.8.0_211  # pwd获得JDK路径
dreamgeng at dreamgeng-ubuntu in /opt/jvm/jdk1.8.0_211 
$ sudo vi /etc/profile  # vim编辑/etc/profile文件,将JDK 的路径添加进去

在 profile 文件末尾添加 JDK 路径

在 profile 文件末尾添加 JDK 路径
#JAVA_HOME
export JAVA_HOME=/opt/jvm/jdk1.8.0_211
export PATH=$PATH:$JAVA_HOME/bin

让修改后的文件生效

dreamgeng at dreamgeng-ubuntu in /opt/jvm/jdk1.8.0_211 
$ sudo -s source /etc/profile  # 这里加了-s,网上很多教程是没有的,但是如果不加会提示找不到source命令的错误

到这里jdk就安装完成了。

3. 安装 Hadoop

首先官网下载3.2.0最新版本的hadoop,均下载.tar.gz 版本的,然后和安装jdk一样,将其解压到opt/jvm目录下,这里不再重复。

4. 将 Hadoop 添加到环境变量

dreamgeng at dreamgeng-ubuntu in /opt/jvm 
$ cd hadoop-3.2.0
dreamgeng at dreamgeng-ubuntu in /opt/jvm/hadoop-3.2.0 
$ pwd
/opt/jvm/hadoop-3.2.0
dreamgeng at dreamgeng-ubuntu in /opt/jvm/hadoop-3.2.0 
$ sudo vi /etc/profile
将如下内容添加到/etc/profile文件中
##HADOOP_HOME
export HADOOP_HOME=/opt/jvm/hadoop-3.2.0
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
保存后退出
dreamgeng at dreamgeng-ubuntu in /opt/jvm/hadoop-3.2.0 
$ sudo -s source /etc/profile  # 激活
如果 Hadoop 命令不能用,则需要重启
dreamgeng at dreamgeng-ubuntu in /opt/jvm/hadoop-3.2.0 
$ sync  
dreamgeng at dreamgeng-ubuntu in /opt/jvm/hadoop-3.2.0 
$ sudo reboot    
输入ll可查看Hadoop 目录结构
dreamgeng at dreamgeng-ubuntu in /opt/jvm/hadoop-3.2.0 
$ ll                         
total 228K
drwxr-xr-x 3 dreamgeng      1002 4.0K Jul  7 20:12 bin
drwxrwxr-x 3 dreamgeng dreamgeng 4.0K Jul  8 10:54 data
drwxr-xr-x 3 dreamgeng      1002 4.0K Jan  8 14:13 etc
drwxr-xr-x 2 dreamgeng      1002 4.0K Jan  8 15:59 include
drwxrwxr-x 2 dreamgeng dreamgeng 4.0K Jul  8 08:47 input
drwxr-xr-x 3 dreamgeng      1002 4.0K Jan  8 15:58 lib
drwxr-xr-x 4 dreamgeng      1002 4.0K Jan  8 15:59 libexec
-rw-rw-r-- 1 dreamgeng      1002 148K Oct 19  2018 LICENSE.txt
drwxr-xr-x 2 dreamgeng root      4.0K Jul  8 16:00 logs
-rw-rw-r-- 1 dreamgeng      1002  22K Oct 19  2018 NOTICE.txt
drwxr-xr-x 2 dreamgeng dreamgeng 4.0K Jul  8 09:12 output
-rw-rw-r-- 1 dreamgeng      1002 1.4K Oct 19  2018 README.txt
drwxr-xr-x 3 dreamgeng      1002 4.0K Jan  8 14:13 sbin
drwxr-xr-x 4 dreamgeng      1002 4.0K Jan  8 16:32 share
drwxrwxr-x 2 dreamgeng dreamgeng 4.0K Jul  8 09:39 wcinput
drwxr-xr-x 2 dreamgeng dreamgeng 4.0K Jul  8 09:47 wcoutput

其中重要目录:
( 1) bin 目录:存放对 Hadoop 相关服务( HDFS,YARN)进行操作的脚本
( 2) etc 目录: Hadoop 的配置文件目录,存放 Hadoop 的配置文件
( 3) lib 目录:存放 Hadoop 的本地库(对数据进行压缩解压缩功能)
( 4) sbin 目录:存放启动或停止 Hadoop 相关服务的脚本
( 5) share 目录:存放 Hadoop 的依赖 jar 包、 文档、 和官方案例

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,684评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,143评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,214评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,788评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,796评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,665评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,027评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,679评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,346评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,664评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,766评论 1 331
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,412评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,015评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,974评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,073评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,501评论 2 343

推荐阅读更多精彩内容