第3章 Hadoop分布式文件系统 学习笔记(二)

3.6 数据流

3.6.1 剖析文件读取

客户端读取HDFS数据.png
  • 1、客户端调用DistributedFileSystem.open方法以打开希望读取的文件,DistributedFileSystem初始化的时候(参见:java.util.ServiceLoader加载服务实现类)创建了一个DFSClient实例,DFSClient通过RPC向namenode发送请求获取文件块位置,对于每个数据块,namenode返回该块所有复本datanode地址,这些datanode根据它们与客户端的距离排序,若客户端本身就是一个datanode,那么该客户端会从本地读取数据。
  • 2、DistributedFileSystem.open返回一个FSDataInputStream对象,该对象封装了一个DFSInputStreamDFSInputStream封装了DFSClient、Datanode、LocatedBlock
  • 3、FSDataInputStream.read,反复调用,达到块末端,DFSInputStream关闭与datanode连接,寻找下一个块的最佳datanode。若DFSInputStream与datanode通信时发生错误,会尝试从邻近datanode读取数据。

可以将namenode理解为服务发现组件,datanode为真正服务响应组件。

  • 带宽很稀缺,将两节点间带宽作为距离的衡量标准。
    如下场景,可用带宽依次递减:
    distance(/d1/r1/n1, /d1/r1/n1) = 0(同一节点上进程)
    distance(/d1/r1/n1, /d1/r1/n2) = 2(同机架不同节点)
    distance(/d1/r1/n1, /d1/r2/n3) = 4(同数据中心不同机架)
    distance(/d1/r1/n1, /d2/r3/n4) = 6(不同数据中心)

3.6.2 剖析文件写入

HDFS文件写入.png
  • 1、DistributedFileSystem.create创建文件,DistributedFileSystem向namenode发送文件创建RPC请求,namenode检查文件是否存在及用户是否有创建文件权限,若不通过,抛出IO异常
  • 2、DistributedFileSystem返回一个FSDataOutputStream,其封装了一个DFSOutputStream,该对象负责datanode与namenode间通信
  • 3、客户端写入数据时,DFSOutputStream将它分成一个个数据包,并写入内部队列(数据队列data queue),DataStreamer处理数据队列,先挑选一组适合存储数据复本的datanode,并据此要求namenode分配新的数据块,这组datanode构成一个管线,DataStreamer将数据包流式传输到第一个datanode,该datanode存储数据包并将它发送到第二个datanode,同样第二个往第三个datanode传输数据。
  • 4、DFSOutputStream维护一个内部数据包队列(确认队列ack queue),管道中所有datanode发送ack消息后,数据包才从队列移除。

复本存放

  • 1、运行客户端的节点存放第一个复本,若客户端运行于集群之外,则随机选择一个节点,系统会尽量避免选择磁盘太满或太忙节点;
  • 2、第2个复本存放于不同机架随机节点(离架)
  • 3、第3个复本与第2个复本同一个机架,不同节点
  • 4、其他节点随机存放,尽量不在同一机架存放太多复本

3.6.3 一致模型(coherency model)

  • 1、新建文件,立即可见
  • 2、写入文件内容(即使已刷新并存储,out.flush()),不保证立即可见,当写入的数据超过一个块,第一个块对新reader可见,正在写入的块对其他reader不可见。

两种强刷缓存至所有datanode手段

  • FSDataInputStream.hflush()后,FSDataInputStream.close()隐含执行了hflush()方法,HDFS保证文件中到目前为止写入的数据均到达所有datanode写入管道并对所有reader可见,不保证数据写入磁盘,可能丢失;
  • FSDataInputStream.hsync()后,刷新到磁盘。

调用hflush存在额外性能开销,hsync性能开销更大,需要在数据鲁棒性和性能之间取得平衡。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,547评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,399评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,428评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,599评论 1 274
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,612评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,577评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,941评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,603评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,852评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,605评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,693评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,375评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,955评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,936评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,172评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,970评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,414评论 2 342

推荐阅读更多精彩内容