HDFS 分布式文件系统,存储海量的数据
MapReduce 并行处理框架,实现任务分解和调度
高扩展,低成本,成熟的生态圈
设置环境变量
修改配置文件
core
map
hdfs
hadoop-env
slaves
hdfs的文件被分成块进行存储,hdfs块的默认大小是64M,块是文件存储处理的逻辑单元
namenode是管理节点,存放文件元数据(文件和数据块的映射表,数据块和数据节点的映射表)
datanode是hdfs的工作节点,存放数据块
datanode定期向namenode发送心跳信息
二级namenode定期同步元数据映像文件和修改日志
hdfs特点:数据冗余,硬件容错;流式的数据访问(写一次,读多次);存储大文件
适用性和局限性:适合数据批量读写,吞吐量高;不适合交互式应用,低延迟很难满足;适合一次写入,多次读取;不支持多用户并发写相同文件
hadoop namenode -format
hadoop fs -ls /
hadoop fs -put src dst
hadoop dfsadmin -report
MapReduce 分而治之 map分,reduce合并
JOB 分成多个 TASK(MapTask和ReduceTask)
JobTracker 分成TaskTracker(MapTracker和ReduceTracker)
JobTracker:作业调度;分配任务、监控任务执行的状态;监控TaskTracker的状态
TaskTracker:执行任务;汇报任务状态
MapReduce的容错机制:重复执行;推测执行;
2、Hadoop
最后编辑于 :
©著作权归作者所有,转载或内容合作请联系作者
- 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
- 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
- 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
推荐阅读更多精彩内容
- 1.job的本质是什么? 2.任务的本质是什么? 3.文件系统的Namespace由谁来管理,Namespace的...