Hadoop相关笔记

HDFS

hadoop
NameNode
  • 负责客户端请求的相应
  • 负责维护元数据 文件的名称、副本数、Block存放的DataNode,接受DN的心跳包
  • 一个典型的架构是一个NN加上n个DN。当然一个机器上可以运行多个DN,但生产环境上不建议这样使用
    -NN决定副本的复制
DataDode
  • 存储用户的文件的数据块 Block
  • 定期向NameNode发送心跳信息,汇报本身及其所有的Block信息、健康状况
  • 不支持并发写
HDFS副本机制
  • NN维护一个文件系统的命名空间,做了任何修改都会被记录下来(比如改名字)
  • 可以指定文件的副本数量,创建的时候可以指定,后期也可以修改,这些信息都被存放在NN上
  • 每个block都是以多副本的方式存储
  • 一个文件里的所有Block除了最后一个,其他的大小都是一样的
  • HDFS里面的文件只能写一次(write once)
    SecondNameNode
  • 了解,在2.x中不是必须的


    hadoop
HDFS核心配置文件
  • hadoop-env.sh
  • core-site.xml
  • hdfs-site.xml
HDFS启动与停止
  • 目录结构,bin文件夹下是客户端相关的脚本,sbin文件夹下是服务端的相关脚本
  • 官网
HDFS Shell 常用命令

HDFS 优缺点

  • 优点:高容错、批处理(吞吐量高)、适合大数据处理 、可以部署在廉价的机器上
  • 缺点:低延迟数据访问、不适合小文件存储(可以借助Hbase)

MapReduce

  • 目前应用场景特别少,被spark代替
  • 不擅长DAG作业(逻辑先后关系)、实时计算、流式计算

YARN

  • 产生背景,在MapReduce1.X中Jobtrack负责资源管理和任务的调度,TaskTrack和JobTrack通过心跳通信,Jobtrack负责的事情特别多而且单点,所以Jobtrack存在单点故障,
  • 资源利用率和运维成本,统一资源管理,yarn上可以管理storm,spark,Habase等等

YARN的架构

yarn
  • Resource Manager 和 Node Manager ,一个RM(active)加上n个NM

  • Resource Manager 负责整个集群的资源调度,接受客户端请求

  • 一个任务对应用一个Application Master ,如果AM挂了,会自动在其他节点重启,由RM启动、杀死、监控。

  • NM会定期向RM发送心跳并告诉RM资源使用情况

  • NM负责自己节点的资源管理以及task运行情况,并向RM汇报,NM会接受RM的调度,启动、停止

  • 一个Application Master 可能又多个Container运行,他负责应用程序的管理,为应用程序向RM申请资源,并分配内部任务,与NM通信启停task,task是运行在Container中的,同样负责task的监控和容错

  • Container 是对任务的描述 :cpu、memory、环境变量

工作流程
yarn

1,用户向YARN提交作业
2,RM为作业分配一个container(AM)
3,RM会与对应的NM通讯,要求NM在container上启动应用程序的AM
4,AM首先向RM注册,然后AM将为各个任务申请资源,并监控运行情况
5,AM会采用轮训的方式通过RPC协议向RM申请和领取资源
6,AM申请到资源后,便和NM通讯,要求NM启动任务
7, NM启动作业的task

Hive

  • Hive是由Facebook开源的,构建在Hadoop之上,Hive定义了一种类SQL -> HQL。
  • 通常用于离线批处理,早起底层用MapReduce进行计算,现在支持多种计算引擎(Spark)
  • Hive支持多种不同的压缩格式以及自定义函数
  • Hive的元数据可以存放在Mysql中的(表名,分隔符)
产生背景
  • MapReduce编程的不便性
  • HDFS上文件缺少Schema
优点
  • 简单、容易上手
  • 为超大数据集的计算、存储扩展能力
  • 统一的元数据管理、可以共享数据(SparkSQL)
  • 可以提交到Yarn上
基本使用
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,968评论 6 482
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,601评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 153,220评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,416评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,425评论 5 374
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,144评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,432评论 3 401
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,088评论 0 261
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,586评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,028评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,137评论 1 334
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,783评论 4 324
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,343评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,333评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,559评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,595评论 2 355
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,901评论 2 345

推荐阅读更多精彩内容