大数据系列(一):初识Hadoop

学习计划

  • Big Data Specialization from the Uni of California, San Diego
  • Hadoop 权威指南

本文

  • Hadoop Platform and Application Framework Week1: ** Hadoop Basics**
  • Hadoop 权威指南第一章:初识Hadoop

Hadoop是什么?

Apache Hadoop是在商用硬件集群上储存并大规模处理数据集的开源软件框架(Apache Hadoop is an open source software framework for storage and large scale processing of data-sets on clusters of commodity hardware)。

Hadoop框架的基本模块是什么?

  • Hadoop Common: Hadoop Common 包含其他Hadoop模块需要的库和实用程序(Hadoop Common contains libraries and utilities needed by other Hadoop modules
  • Hadoop分布式文件系统(Hadoop Distributed File System): HDFS 是一个用于储存超大文件的系统。这个系统在商用硬件集群上运行,以流式数据访问模式来存储这些超大文件(HDFS is a filesystem designed for storing very large files with streaming data access patterns, running on clusters of commodity hardware
    • 超大文件(Very large files): GB, TB, PB级别文件
    • 流式数据访问(Streaming data access):一次写入,多次读取
    • 商用硬件(Commodity hardware): 并不需要运行在高可靠的硬件上。因此,成本低但节点故障率高
  • Hadoop YARN (Yet Another Resource Negotiator): YARN 是用于集群计算资源管理和用户、应用规划的资源管理平台(YARN is a resource management platform responsible for managing compute resources in the cluster and using them in order to schedule users and applications). YARN的基础思想是将job tracker的两个主要功能(资源管理和任务分配与监控)分离 (The fundamental idea behind the MapReduce 2.0 is to split up two major functionalities of the job tracker, resource management, and the job scheduling and monitoring, and to do two separate units.)
  • Hadoop MapReduce:一个用于数据处理的编程模型(MapReduce is a programming model for data processing.

Hadoop生态系统主要组成部分是什么?

Apache Hadoop Ecosystem.png
  • Apache Sqoop: 在关系型数据库和HDFS之间移动数据的工具(A tool for efficiently moving data between relational databases and HDFS
  • Apache HBase:一个分布式的列数据库。HBase使用HDFS进行基础储存并同时支持MapReduce的批量计算和随机读取的点查询(A distributed, column-oriented database. HBase uses HDFS for its underlying storage, and supports both batch-style computation using MapReduce and point queries (random reads)
  • Apache Pig:Pig是一种探索大规模数据集的脚本语言,由两部分组成:Pig Latin(描述数据流)和用于运行Pig Latin程序的执行环境。
  • Apache Hive: Hive是一个分布式的数据仓库,管理存储在HDFS中的数据并提供和SQL长得像的查询语言来查询数据(A distributed data warehouse. Hive manages data stored in HDFS and provides a query language based on SQL (and which is translated by the runtime engine to MapReduce jobs) for querying the data.
  • Apache Oozie: Oozie用于管理Hadoop所有工作的工作流计划系统(Oozie's a workflow schedule system that manages all of our Apache Hadoop jobs
  • Apache Flume: Flume 是一个用于收集不断增加并移动的大量数据的分布式服务(Flume is a distributed and reliable available service for efficiently collecting aggregating and moving large amounts of data)
  • Apache Zookeeper: Zookeeper提供分布式的配置服务和同步服务,这样我们可以将Hadoop的所有工作和整个分布系统的注册表同步(It provides a distributed configuration service and synchronization service so he can synchronize all these jobs and a naming registry for the entire distributed system
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,937评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,503评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,712评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,668评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,677评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,601评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,975评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,637评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,881评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,621评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,710评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,387评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,971评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,947评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,189评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,805评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,449评论 2 342

推荐阅读更多精彩内容