hadoop 学习笔记（2）-- hadoop 文件系统

当数据量很大，一台物理机无法容纳时，我们就需要将数据存储到由网络连接的若干台机器上，这就是所谓的分布式文件系统。hadoop 使用 hdfs 作为自己的分布式文件系统。目前 hdfs 不适合低延迟访问，也不适合存储大量的小文件以及随机写入（hdfs 中只能在文件末尾进行写操作）。

1 hdfs 的概念

硬盘有自己的块大小，表示其可以读写的最小数据量。文件系统块的大小为若干倍的硬盘大小。
hdfs 上的文件也以块来划分，默认为 128M，为了容错，每个 block 通常在其他节点有若干个备份，一个节点出问题了可以使用别的节点的数据。

使用下面的命令可以查看 hdfs 的信息：

hdfs fsck / -files -blocks

2 namenode 与 datanode

hdfs 集群包括两种节点：

namenode：是集群的管理者，记录着文件系统树以及所有文件和目录的元数据。namenode 还记录着组成文件的 block 的位置（在每次系统启动时建立）
datanode：存储数据并提供数据，定时向 namenode 同步自己存储的 block 的信息

经常被读取的文件的相关 block 会被缓存在 datanode 的内存中，用户也可以指定哪些文件的 block 应当被缓存。

3 命令行接口

在学习 hadoop 时，我们使用伪分布式的方法启动 hadoop 集群。在 **core-site.xml ** 中可以通过设置下面的属性来配置默认的文件系统。

<property>
       <name>fs.defaultFS</name>
       <value>hdfs://localhost:9000</value>
</property>

基础的操作有：

//将本地文件系统的数据复制到 hdfs 中，由于已经配置了 fs.defaultFS 可以省略 hdfs://localhost:9000
hdfs dfs -copyFromLocal /test/data/* /test1/input
//使用相对路径会将数据复制到用户目录下我这里是 /user/hadoop
hdfs dfs -copyFromLocal /test/data/* input
//从hdfs copy 到本地
hdfs dfs -copyToLocal test.txt text.txt
//创建文件夹
hdfs dfs -mkdir books
//列出所有文件
hdfs dfs -ls .
//print 文件的内容
hdfs dfs -cat /user/hadoop/books

hdfs 的文件也有 r w x 的概念，当然这里的 x 是指是否可以访问一个目录下面的文件。hdfs 中的文件也有所属 user 以及 group 的概念，使用当前调用者进程的 user 和 group 来标识，运行 namenode 的用户有 “root” 权限。

hadoop 有一个抽象的文件系统，hdfs 是其实现之一，通过 uri 的方式，可以选择不同的文件系统，比如hdfs

hdfs dfs -ls file:///home/hadoop

4 java api

使用 URL 就可以访问 hdfs 文件，不过要进行一点小处理，设置 UrlStreamHandlerFactory：

不方便设置 UrlStreamHandlerFactory 时，可以使用 FileSystem Api：

public class ReadFile {
    public static void main(String[] args) throws IOException {
        if (args.length != 1) {
            System.out.println("Usage: ReadFile path/to/file");
            System.exit(-1);
        }
        String filePath = args[0];
        if (!filePath.startsWith("/")) {
            filePath = "/" + filePath;
        }
        filePath = "hdfs://localhost:9000" + filePath;
        // conf 会根据 classpath 中的 core-site.xml 创建
        Configuration conf = new Configuration();
        //创建 fileSystem 实例
        FileSystem fileSystem = FileSystem.get(URI.create(filePath), conf);
        InputStream is = null;
        try {
            //使用 open 打开 InputStream
            is = fileSystem.open(new Path(filePath));
            IOUtils.copyBytes(is, System.out, 4096, false);
        } finally {
            IOUtils.closeStream(is);
        }
    }
}

其中，FileSystem.open 返回的是一个 FSDataInputStream 对象，可以使用 seek 调整读取的位置：

另外，其还实现了 PositionedReadable 接口，可以从指定位置读取指定的数据：

public interface PositionedReadable {
  /**
   * Read upto the specified number of bytes, from a given
   * position within a file, and return the number of bytes read. This does not
   * change the current offset of a file, and is thread-safe.
   */
  public int read(long position, byte[] buffer, int offset, int length)
    throws IOException;
  
  /**
   * Read the specified number of bytes, from a given
   * position within a file. This does not
   * change the current offset of a file, and is thread-safe.
   */
  public void readFully(long position, byte[] buffer, int offset, int length)
    throws IOException;
  
  /**
   * Read number of bytes equal to the length of the buffer, from a given
   * position within a file. This does not
   * change the current offset of a file, and is thread-safe.
   */
  public void readFully(long position, byte[] buffer) throws IOException;
}

使用 FileSystem api 也可以进行写操作：

        String localFile = args[0];
        String hdfsFile = args[1];
        if (!hdfsFile.startsWith("/")) {
            hdfsFile = "/" + hdfsFile;
        }
        hdfsFile = "hdfs://localhost:9000" + hdfsFile;

        InputStream in = null;
        FSDataOutputStream out = null;
        try {
            in = new BufferedInputStream(new FileInputStream(localFile));

            FileSystem fileSystem = FileSystem.get(URI.create(hdfsFile), new Configuration());
            out = fileSystem.create(new Path(hdfsFile));

            IOUtils.copyBytes(in, out, 4096, true);
        } catch (Exception e) {
            e.printStackTrace();
        }

通过 FileSystem.getStatus 可以查看文件的状态。

通过 FileSystem.listStatus 可以获取文件夹下的所有文件的信息。

通过 FileSystem.globStatus 可以按照一定的 pattern 查看

通过 PathFilter 可以在globStatus 加入更细粒度的控制:

fs.globStatus(new Path("/2007/*/*"), new RegexExcludeFilter("^.*/2017/12/31$"));

删除数据使用 FileSystem 的 delete 方法进行。

文件读取的过程中，从 namenode 获取 block 的位置，再去对应的 datanode 读取数据：

文件读取

文件写入数据的过程中，先在 namenode 创建元数据，然后向一个 datanode 写入数据，该 datanode 会同时向其他 datanode 同步数据。

写入数据

数据写入时，应该在需要的地方调用输出流的 sync，以便于将缓存写入文件系统中，注意 close 时也会调用一次 sync。

5 distcp

使用 distcp 可以并发的进行数据复制，个人认为功能可以与 rsync 类比。

hadoop@millions-server:/usr/local/hadoop/etc/hadoop$ hdfs dfs -ls testdata
Found 1 items
-rw-r--r-- 1 hadoop supergroup 288374 2017-03-07 23:22 testdata/synthetic_control.data

而后输入：

hadoop distcp -update testdata/synthetic_control.data testdata/synthetic_control2.data

可以看到：

hadoop@millions-server:/usr/local/hadoop/etc/hadoop$ hdfs dfs -ls testdata
Found 2 items
-rw-r--r-- 1 hadoop supergroup 288374 2017-03-07 23:22 testdata/synthetic_control.data
-rw-r--r-- 1 hadoop supergroup 288374 2017-05-06 23:09 testdata/synthetic_control2.data

再来同步一个文件夹：

hadoop distcp testdata testdata2
hdfs dfs -ls testdata2
Found 2 items
-rw-r--r-- 1 hadoop supergroup 288374 2017-05-06 23:14 testdata2/synthetic_control.data
-rw-r--r-- 1 hadoop supergroup 288374 2017-05-06 23:14 testdata2/synthetic_control2.data

删除 testdata 中的 synthetic_control2.data：

hdfs dfs -rm testdata/synthetic_control2.data

再进行一次带 -update 和 -delete 的 distcp，可以看到，多余的文件被删除了：

hadoop distcp -update -delete testdata testdata2
hdfs dfs -ls testdata2
Found 1 items
-rw-r--r-- 1 hadoop supergroup 288374 2017-05-06 23:14 testdata2/synthetic_control.data

最后编辑于：2017.12.07 02:55:41

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,179评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,229评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,032评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,533评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,531评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,539评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,916评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,574评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,813评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,568评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,654评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,354评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,937评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,918评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,152评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,852评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,378评论 2赞 342