闲话少叙,言归正传。这次,我们从"-ls /"命令入手,窥探一下hdfs。
hdfs模块提供了一个org.apache.hadoop.fs.FsShell类用来支持用户在终端的命令行操作。我们在使用终端时输入的命令,最终都会在FsShell这个类中执行。
首先,我们给FsShell类传递参数“-ls /”:
然后找到“-ls /”命令执行运行的入口——main()函数:
public static void main(String argv[]) throws Exception {
FsShell shell = new FsShell();
int res;
try {
res = ToolRunner.run(shell, argv);
} finally {
shell.close();
}
System.exit(res);
}
我们可以看到,首先,main()函数实例化一个FsShell对象,实例化FsShell对象的工作包括加载conf,初始化fs(FileSystem)和trash(Trash)两个成员变量为null。
接着,交给ToolRunner类去执行,ToolRunner的run方法的主要作用是解析参数。这里有个重要的辅助类提一下:GenericOptionsParser,具体是这个类来解析传入的参数。解析完参数后,ToolRunner 的run()方法又返回FsShell的run方法。注意:FsShell实现了Tool接口,然后实现了Tool接口的run方法
然后,我们看到FsShell的run方法。
FsShell的run方法首先检查参数(在上一步的ToolRunner的run方法中解析得到)的格式是否正确。接着,初始化FsShell
protected void init() throws IOException {
getConf().setQuietMode(true);
}
这里的getConf().setQuietMode(true),我并不懂,暂不深究。我们继续往下看。
接下来,就是具体的参数匹配工作了。例如,在“-ls /”这个例子中就会匹配到:
else if ("-ls".equals(cmd)) {
if (i < argv.length) {
exitCode = doall(cmd, argv, i);
} else {
exitCode = ls(Path.CUR_DIR, false);
}
如果给定了特定目录久执行doall方法,否则ls当前目录(Path.CUR_DIR)。因为这里我们给定了特定目录“/”,所以我们跳转到doall方法里去。
以ls命令为例,doall方法就是执行所有的ls命令后面的目录或文件的ls操作。例如,-ls <path1> <path2> <path3>。doall会以for循环的形式依次执行ls()这个方法:
else if ("-ls".equals(cmd)) {
exitCode = ls(argv[i], false);
}
我们紧接着跳转到ls()方法。
private int ls(String srcf, boolean recursive) throws IOException {
Path srcPath = new Path(srcf);
FileSystem srcFs = srcPath.getFileSystem(this.getConf());
FileStatus[] srcs = srcFs.globStatus(srcPath);
这是ls开头重要的三个步骤:
第一步:根据路径创建一个Path对象。创建过程会先检查该路径是否合法,然后将路径解析成uri(scheme://authority/path)格式;
第二步:根据上一步创建的Path对象获取FileSystem对象(具体获取过程我们在下一篇文章中单独讲,因为这里面涉及DFSClient、DistributedFileSystem、NameNode,内容较多)。这个FileSystem对象决定了我们要读取的文件是在哪个类型的文件系统中,例如hdfs或者本地文件系统。
第三步:在对应的文件系统中,获取对应路径下文件的属性(FileStatus)。这一步更重要,过程涉及DFSClient与NamNode之间的通信,即Hadoop ipc相关内容,也需要单独讲。
注意,在第三步中的srcPath这个参数,srcPath可以是一个具体的文件名字,也可以是文件名字的匹配模式,例如"/t",这种模式就可以匹配到/test和/tmp这两个文件,srcs.length也就是2了,而不是我之前以为的好像只能是1。*如果srcs.length>1,则不会打印此次ls的信息头(即发现文件的个数,“Found xxx items”)
在这里,我们先简单地说这三步做了什么。
在获取到FileStatus[] srcs后(假设我们这里获取到了srcs[2]={"/test","/tmp"}两个目录),就循环遍历srcs,执行ls:
for(int i=0; i<srcs.length; i++) {
numOfErrors += ls(srcs[i], srcFs, recursive, printHeader);
}
接着跳转到又一个ls方法(假设第一次循环传过来的参数是"/test")中:
private int ls(FileStatus src, FileSystem srcFs, boolean recursive,
boolean printHeader) throws IOException {
final String cmd = recursive? "lsr": "ls";
final FileStatus[] items = shellListStatus(cmd, srcFs, src);
刚跳过来,又要跳到shellListStatus方法中去了:
private static FileStatus[] shellListStatus(String cmd,
FileSystem srcFs,
FileStatus src) {
if (!src.isDir()) {
FileStatus[] files = { src };
return files;
}
Path path = src.getPath();
try {
FileStatus[] files = srcFs.listStatus(path);
shellListStatus方法会首先判断路径src(/test)是目录还是文件,如果是文件则直接返回,如果是目录,则要调用listStatus方法获取该目录所有文件的status。
DistributedFileSystem类实现了FileSystem里listStatus()这个抽象方法。DistributedFileSystem类的list Status按两步获取一个目录下的所有文件。先取一部分数量的文件,如果没有其它的文件了,则获取结束。如果还有其它的文件,则循环获取该目录下的文件,直到获取完所有的文件。
然后,跳转到最近的一个ls方法中,继续执行。现在我们已经获取了一个目录下的所有文件信息(例如"/test/a","/test/b")。接下来就是打印所有文件的信息:
// 接着上面最近的ls方法
int maxReplication = 3, maxLen = 10, maxOwner = 0,maxGroup = 0;
System.out.println("FsShell's ls's items.length: " + items.length);
for(int i = 0; i < items.length; i++) {
FileStatus stat = items[i];
int replication = String.valueOf(stat.getReplication()).length();
int len = String.valueOf(stat.getLen()).length();
int owner = String.valueOf(stat.getOwner()).length();
int group = String.valueOf(stat.getGroup()).length();
if (replication > maxReplication) maxReplication = replication;
if (len > maxLen) maxLen = len;
if (owner > maxOwner) maxOwner = owner;
if (group > maxGroup) maxGroup = group; /
}
一开始,我看不懂这段代码的意思,后来终于看明白了。这段代码用来/获取文件各个属性的最大字符宽度,以便规整文件信息打印的格式。举个例子,文件/test/a的owner是wuyi,文件/test/b的owner是wy, 那么,为了打印的时候格式规整,则/test/b的owner打印是也给定4个字符的宽度。
for (int i = 0; i < items.length; i++) {
FileStatus stat = items[i];
Path cur = stat.getPath();
String mdate = dateForm.format(new Date(stat.getModificationTime()));
System.out.print((stat.isDir() ? "d" : "-") +
stat.getPermission() + " ");
System.out.printf("%"+ maxReplication +
"s ", (!stat.isDir() ? stat.getReplication() : "-"));
if (maxOwner > 0)
System.out.printf("%-"+ maxOwner + "s ", stat.getOwner());
if (maxGroup > 0)
System.out.printf("%-"+ maxGroup + "s ", stat.getGroup());
System.out.printf("%"+ maxLen + "d ", stat.getLen());
System.out.print(mdate + " ");
System.out.println(cur.toUri().getPath());
if (recursive && stat.isDir()) {
numOfErrors += ls(stat,srcFs, recursive, printHeader);
}
}
接下来这段代码,就可以和我们在控制台看到的ls的输出结果可以对应起来了。例如:
-rw-r--r-- 1 wuyi supergroup 92 2017-05-26 08:45 /test/a
-rw-r--r-- 1 wuyi supergroup 63 2017-05-26 08:47 /test/b
至此,ls的整改流程也就通了。确切地说,应该是FsShell这段的流程。因为,我们知道,文件真正存储的地方是hdfs,所以想要获取文件信息,必定要访问namenode,这就涉及到hadoop ipc通信问题了。这是我们接下来需要进一步探讨的。
总结一下##
FsShell其实就是我们平常用终端写命令时,最终的程序运行入口。所以,FsShell命令还包括了我们常见的很多命令,例如put(旧版本的copyFromLocal)、get(旧版本的copyToLocal)、mkdir、mv、cp、rm、cat、chmod、chown、chgrp等等。而在FsShell类里所做的主要工作就是对这些命令的解析,即这些命令体现在文件系统中具体行为。当然,这其中也需要文件系统的配合(例如DistributedFileSystem中的listStatus方法)。我们接下来要重点关注的是(Distributed)FileSystem和DFSClient和Namenode三者的协作关系以及工作原理。