概述
在虚拟机中配置好Hadoop环境,通过本地(宿主机)编写Java程序去访问虚拟机中的HDFS,完成基本的读取文件操作。
方法
1.在mavan中添依赖项
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-common</artifactId>
<version>2.7.7</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-hdfs</artifactId>
<version>2.7.7</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>2.7.7</version>
</dependency>
2.代码
Configuration conf = new Configuration();
conf.set("fs.defaultFS", "hdfs://master:9000");
conf.set("fs.hdfs.impl", "org.apache.hadoop.hdfs.DistributedFileSystem");
FileSystem fs = null;
fs = FileSystem.get(conf);
Path file = new Path(path + fileName);
FSDataInputStream getIt = fs.open(file);
BufferedReader d = new BufferedReader(new InputStreamReader(getIt));
String content = d.readLine(); //读取文件一行
fs.close();
遇到的问题
-
问题一:
java.lang.NoSuchMethodError: org.apache.hadoop.ipc.RPC.getProxy(....)
解决办法:手动导入hadoop的依赖包。将虚拟机中hadoop安装目录下的share/hadoop文件夹中的comon hdfs mapreduce tools yarn这几个文件夹,加入到项目的依赖中。
-
问题二:
No FileSystem for scheme:hdfs and Classorg.apache.hadoop.DistributedFileSystem not found
解决办法:添加如下依赖项。
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-core</artifactId>
<version>1.2.1</version>
</dependency>
其实,我是先遇到了这个问题,找到了解决方法后,再出现了上面的那个问题。但奇怪的是,我按上面那个问题的解决方法操作后,依然报错,而当我把这里添加的hadoop-core依赖项删除后,这两个问题都消失了。(应该是第一个解决方法所导入的文件,已经包含了这里给出的依赖)