hadoop安装与配置

安装并使用多种方法配置Hadoop。

准备

创建Hadoop用户

创建新用户
- sudo useradd –m hadoop –s /bin/bash
设置密码
- sudo passwd hadoop
增加管理员权限
- sudo adduser hadoop sudo
最后，切换到该用户进行登录

SSH登录权限设置

配置SSH的原因

Hadoop名称节点（NameNode）需要启动集群中所有机器的Hadoop守护进程，这个过程需要通过SSH登录来实现
Hadoop并没有提供SSH输入密码登录的形式，因此，为了能够顺利登录每台机器，需要将所有机器配置为名称节点可以无密码登录它们

SSH本机免密钥登录

首先安装openssh
查看当前/home/hadoop目录下有无.ssh文件夹，若无，则创建mkdir ~/.ssh，修改权限 chmod 700 ~/.ssh
执行指令ssh-keygen –t rsa生成公钥和私钥 (一路回车)
执行 cat ./id_rsa.pub >> ./authorized_keys将密钥加入授权
执行指令 ssh localhost 进行测试
- 53784246987

Java

首先确保Linux系统中已经装好Java
在oracle官网安装最新版本。
默认下载到download目录
当前目录下进行解压
- tar -xvf jdk-8u161-linux-x64.tar.gz
移动到目录/usr/local/Java

配置环境变量（vim ~/.bashrc）

#JAVA
export JAVA_HOME=/usr/local/Java/jdk1.8.0_181/
export JRE_HOME=$JAVA_HOME/jre
export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH
export CLASSPATH=$JAVA_HOME/lib:$JRE_HOME/lib:.

退出后刷新source ~/.bashrc
测试java -version

53784201450

Hadoop下载

下载清华的镜像
默认下载到download
解压到/usr/local
- sudo tar -zxf ./hadoop-3.1.1.tar.gz -C /usr/local

切换到解压目录并修改文件权限

cd /usr/local
sudo mv ./hadoop-3.1.1 ./hadoop #重命名
sudo chown -R hadoop ./hadoop # 修改文件权限

查看版本号及是否安装好
- ```
cd /usr/local/hadoop
./bin/hadoop version
```
- 53784274702
设置环境变量，以便直接使用hadoop命令
- 进入vim /.bashrc
- ```
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:/usr/local/hadoop/bin
```
- 直接输入hadoop看是否成功

Hadoop目录结构

bin：Hadoop最基本的管理脚本和使用脚本的目录，这些脚本是sbin目录下管理
脚本的基础实现，用户可以直接使用这些脚本管理和使用Hadoop
etc：Hadoop配置文件所在的目录，包括core-site,xml、hdfs-site.xml、mapredsite.xml等
include：对外提供的编程库头文件（具体动态库和静态库在lib目录中），这些头
文件均是用C++定义的，通常用于C++程序访问HDFS或者编写MapReduce程序
lib：该目录包含了Hadoop对外提供的编程动态库和静态库，与include目录中的
头文件结合使用
libexec：各个服务对用的shell配置文件所在的目录，可用于配置日志输出、启动
参数（比如JVM参数）等基本信息
sbin：Hadoop管理脚本所在的目录，主要包含HDFS和YARN中各类服务的启动/关
闭脚本
share：Hadoop各个模块编译后的jar包所在的目录

53788582047

Hadoop单机部署

默认为非分布式模式，无须进行其他配置即可运行。附带了很多例子，可以直接查看所有例子：
- ```
cd /usr/local/hadoop
hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.1.jar 
```
- 会显示grep，join，wordcount等例子
这里选择grep例子，流程为先建一个input文件夹，并复制一些文件到该文件；然后运行grep程序，将input文件夹的所有文件作为grep的输入，让grep程序从所有文件中筛选出符合正则表达式的单词，并输出结果到output
- ```
mkdir input
cp ./etc/hadoop/*.xml ./input
hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.1.jar grep ./input ./output 'dfs[a-z.]+'
```
- 这里需要注意的是，hadoop默认要求输出output不存在，若存在则会报错
- 查看运行结果cat ./output/*
- cat output/* dfsadmtn 1

Hadoop伪分布式部署

Hadoop 的配置文件位于 /usr/local/hadoop/etc/hadoop/中，伪分布式需要修改2个配置文件 core-site.xml和 hdfs-site.xml
配置文件是 xml格式，每个配置以声明 property的 name 和 value的方式来实现
Hadoop在启动时会读取配置文件，根据配置文件来决定运行在什么模式下

修改配置文件

vim core-site.xml

打开后如图所示：

image

修改为

<configuration>
    <property>
     <name>hadoop.tmp.dir</name>
     <value>file:/usr/local/hadoop/tmp</value>
     <description>Abase for other temporary directories.</description>
    </property>
 <property>
     <name>fs.defaultFS</name>
     <value>hdfs://localhost:9000</value>
 </property>
</configuration>

hadoop.tmp.dir表示存放临时数据的目录，即包括NameNode的数据，也包括DataNode的数据。该路径任意指定，只要实际存在该文件夹即可
name为fs.defaultFS的值，表示hdfs路径的逻辑名称

vim hdfs-site.xml

修改为：

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/usr/local/hadoop/tmp/dfs/name</value>
    </property>
    <property>
       <name>dfs.datanode.data.dir</name>
       <value>file:/usr/local/hadoop/tmp/dfs/data</value>
    </property>
</configuration>

dfs.replication表示副本的数量，伪分布式要设置为1
dfs.namenode.name.dir表示名称节点的元数据保存目录
dfs.datanode.data.dir表示数据节点的数据保存目录

格式化节点

cd /usr/local/hadoop/
./bin/hdfs namenode -format

若成功，则显示

image

启动Hadoop

执行命令：

cd /usr/local/hadoop
./sbin/start-dfs.sh

若出现报错：

image
则表示JAVA_HOME目录没有设置对，如果之前使用Java没有问题，则直接进入Hadoop环境中设置

cd /usr/local/hadoop/etc/hadoop
vim hadoop-env.sh

直接添加自己电脑里的Java_HOME路径，如：
- image
再次启动
- image
判断是否启动成功
- image

Web界面查看HDFS信息

启动Hadoop后，在浏览器输入http://localhost:9870/，可访问NameNode。
如图所示，表示成功：
53788338969

关闭Hadoop

cd /usr/local/hadoop
./sbin/stop-dfs.sh

下次启动时，无须再进行名称节点的格式化

关于三种Shell命令方式的区别

hadoop fs
- hadoop fs适用于任何不同的文件系统，比如本地文件系统和HDFS文件系统
hadoop dfs
- hadoop dfs只能适用于HDFS文件系统
hdfs dfs
- hdfs dfs跟hadoop dfs的命令作用一样，也只能适用于HDFS文件系统

操作示例

还原单机模型的grep例子

cd /usr/local/hadoop
./bin/hdfs dfs –mkdir –p /user/hadoop # 在HDFS中为hadoop用户创建目录（Linux文件系统中不可见）
./bin/hdfs dfs –mkdir input # 在HDFS中创建hadoop用户对应的input目录
./bin/hdfs dfs –put ./etc/hadoop/*.xml input # 将本地文件复制到HDFS中
./bin/hdfs dfs –ls input # 查看HDFS中的文件列表
./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep input output ‘dfs[a-z.]+’
./bin/hdfs dfs -cat output/* #查看运行结果

可能出现警告信息，可忽略
53788440534
查看文件列表
53788436836
最后结果
53788533976

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,547评论 6赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,399评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,428评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,599评论 1赞 274
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,612评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,577评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,941评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,603评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,852评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,605评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,693评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,375评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,955评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,936评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,172评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,970评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,414评论 2赞 342

hadoop安装与配置

准备

创建Hadoop用户

SSH登录权限设置

配置SSH的原因

SSH本机免密钥登录

Java

Hadoop下载

Hadoop目录结构

Hadoop单机部署

Hadoop伪分布式部署

修改配置文件

格式化节点

启动Hadoop

Web界面查看HDFS信息

关闭Hadoop

关于三种Shell命令方式的区别

操作示例

推荐阅读更多精彩内容