1.hadoop是什么
狭义上说就是hdfs、mr、YARN组成的hadoop,广义上指的是整个生态圈
2.hadoop三大组件,分别做什么
HDFS 存储
MapReduce计算
Yarn资源调度
3.hdfs默认块大小多少
128m
4.副本三份,块128M,一个文件260M,多少块,实际存储多少
9个块 780M
5.hdfs的nn snn dn启动顺序是什么
nn dn snn
6.hdfs的读流程 ,那幅图有印象没
有
7.同之,hdfs的写流程,是不是所有块的第一个副本写完,再统一去写第二个副本
写顺序在不出错的情况下,是管道内顺序把每个块写到指定数量的副本里,然后再继续下个块
8.hdfs读写谁是input 谁是out
写是outputstream 读是inputstream
9.NN节点是做什么的?
存储元数据
10.snn是做什么的
冷备份 定时合并镜像和日志文件
11.副本放置策略,那幅图有没有印象?
副本就近原则先备 当前节点--》同机柜节点--》跨机柜节点--》跨机房节点
12.hdfs dfs命令和什么命令一样
hadoop fs
13.mr提交流程,来简单说说(我是面试官)
客户端提交job给 Applications Manager 连接Node Manager去申请一个Container的容器,这个容器运行作业的App Mstr的主程序,启动后向App Manager进行注册,然后可以访问URL界面,然后App Mastr向 Resource Scheduler申请资源,拿到一个资源的列表,和对应的NodeManager进行通信,去启动对应的Container容器,去运行 Reduce Task 和 Map Task (两个先后运行顺序随机运行),它们是向App Mstr进行汇报它们的运行状态, 当所有作业运行完成后还需要向Applications Manager进行汇报并注销和关闭
14.hdfs yarn web界面默认端口号多少
50070 8088
15.知不知道,windows也有hosts这个文件?
知道 在C:\Windows\System32\drivers\etc路径下
16.来来来 老生常谈一个问题,敲完命令,not found,你们觉得从该怎么办
首先看看命令有没有打错 然后检查环境变量或者find下 实在没有进行安装