1.hadoop的褒义狭义
狭义指hadoop,广义指hadoop生态圈
2.hadoop三大组件,分别做什么?官网地址是什么
hdfs,mr,yarn,hadoop.apache.org
3.hdfs的块默认大小,副本数默认多少?哪个参数控制会找吗?
128M,3
4.hdfs进程有哪些?按启动顺序
nn dn snn
5.谈谈对jps命令的理解
显示java进程信息的一个命令
6.谈谈对pid文件的理解
保存进程号的文件
7.说说你们会的hdfs哪些shell命令
hdfs dfs -ls -mkdir -text -cat -mv -cp
8.NN,DN,SNN节点分别做什么的?
NN存储元数据
DN存储数据
SNN默认一小时的冷备
9.浅谈副本放置策略
首先就近dn,然后考虑当前机柜不同dn,再不同机架dn,最后考虑跨数据中心dn
10.(面试题)hdfs读写流程,mr提交到yarn流程 这三块,博客有没有文档了?
11.yarn的调优参数那两篇,你们博客上有没有?
12.谈谈你们对shuffle的初步理解
预先reduce,减少reduce的复杂度
13.hive里哪种SQL会执行mr job?
聚合,join
insert ... as select
14.hive的元数据和数据分别存储在哪?
mysql,hdfs
15.你们的博客有hive的 分区 作业吗?做了没
16.你们的博客有hive的 udf函数 作业吗?做了没
17.你们的博客有sqoop从MySQL抽取到hdfs或者hive作业吗?做了没