本文的内容仅仅是在windows 的单机环境下安装hadoop,目的自然是对hadoop可以有一个感性的接触和了解。所以正是因为需要阅读此文的肯定是hadoop门外汉,而且一步一步越细致的越好,不要让复杂和挫败感一下子就把你当在门外。真正把hadoop 在多机器的环境下配置起来需要更多的学习,就不是本文的职责了。
一:先准备需要下载的东东:
- Java Runtime (JRE)1.6 以上,下载最新版本就是了。http://www.java.com/
值得注意的是安装路径,不要用默认的c:/Program files/Java,此路径中有空格。在hadoop中会出现不必要的麻烦,建议用c:/java。 - cygwin 环境,如果你还不知道这是什么,google 一下先。然后再来接着看。。。http://www.cygwin.com/
cygwin 的安装有点需要注意的地方。hadoop需要ssh,注意把net包选上。具体可以参考我的另一篇博文:白手起家:一步一步安装cygwin - hadoop 包 http://hadoop.apache.org/common/releases.html 下载stable版本,一般是一个.tar.gz文件。建议解压到c:/hadoop。
到目前我们的计算机中多了三个目录:
c:/cygwin
c:/java
c:/hadoop
二:配置
设置JAVA_HOME
打开c:/hadoop/conf/hadoop-env.sh
找到#export JAVA_HOME=
大概在第9行左右。
改成export JAVA_HOME=c:/java/jre6
配置ssh 为无密码
先打开cygwin,在cygwin窗口中启动sshd server:
ssh-host-config -y
等待完成,接着:
cygrunsrv -S sshd
此时已经启动sshd了,然后开始设置ssh。
ssh-keygen -t dsa -P ' -f ~/.ssh/id_dsa
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
至此,你可以用ssh localhost 看看是否真的不需要密码。
- 配置hadoop
打开c:/hadoop/conf/core-site.xml
,改成
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
打开c:/hadoop/conf/hdfs-site.xml,改成
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
打开c:/hadoop/conf/hdfs-site.xml,改成
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
</configuration>
- 格式化hadoop
在cygwin 窗口中进入c:/hadoop
bin/hadoop namenode -format
三:启动hadoop
bin/start-all.sh
如果启动成功,可以打开浏览器 http://localhost:50070/ 看看,如果有hadoop的状态页面出来,ok,恭喜你。
四:停止hadoop
bin/stop-all.sh
五:后记
本文就是把我自己安装hadoop的过程做了一个记录,并且避免了一般在初次安装时可能会碰到的问题。