利用HCatalog管理元数据

在HDFS和HBase之间,Hadoop提供了许多保存数据的方法,使得数据可以被多个应用程序访问。但将数据集中存储并提供给多个应用程序访问,这样做产生了一系列新的挑战,包括以下几点:

如何分享数据,才能够使数据以用户想要的任何形式来保存和处理?

如何能够将不同的Hadoop应用程序和其他系统集成?

访问数据的常见方法之一是通过表抽象,该方法通常用于访问关系型数据库,并且为许多开发者所熟知(和广泛采用)。一些流行的Hadoop系统,例如Hive和Pig,也采用了这种方法。这种抽象解除了数据如何存储(HDFS文件、HBase表)与应用程序如何处理数据(表格式)之间的耦合。此外,它允许从较大的数据语料库中“过滤”感兴趣的数据。

为支持这种抽象,Hive以关系型数据库的形式提供了元存储,这允许我们捕获实际物理文件(和HBase表)与用于访问该数据的表(虚拟的)之间的依赖关系。

Hive和Pig

传统上,数据保存在数据库中,SQL是提供给数据工作者的主要接口。

Hadoop的数据仓库系统——Hive,旨在为这些数据工作者简化Hadoop的使用,它提供了HiveQL——一种类似SQL的语言,用于访问和操作基于Hadoop且保存在HDFS和HBase中的数据。通过将请求透明地转换为MapReduce执行,HiveQL支持专有的查询、连接、摘要等。其结果是,Hive查询不是实时执行,而是作为批量任务执行。

Pig是另外一个Hadoop数据仓库系统,与类SQL的语言不同,它使用Pig的专用脚本语言——Pig Latin。Pig Latin将数据视为一个元组集合(字段的有序集合),允许将输入元组转换为输出。类似于Hive,Pig支持专有的查询、连接和其他操作,且将Pig Latin代码转换为MapReduce执行。Pig还支持大量的并行机制和诸多优化技巧,使其能够处理非常庞大的数据集。

第13章有关于Hive和Pig更详细的信息。

一个新的Apache项目(HCatalog)扩展了Hive的元存储,同时保留了Hive DDL中用于表定义的组件。其结果是,Hive的表抽象(当使用了HCatalog时)可以用于Pig和MapReduce应用程序,这带来了以下一些主要优势:

它使得数据消费者不必知道其数据存储的位置和方式。

它允许数据生产者修改物理数据存储和数据模型,同时仍然支持以旧格式存储的现有数据,从而数据消费者不需要修改他们的处理流程。

它为Pig、Hive和MapReduce提供了共享的结构和数据模型。

HCatalog应用程序的数据模型以表的形式组织,表可以放入数据库中。可以基于一个或多个键对表进行散列分区,这允许我们将包含一个(或一组)给定键值的所有行组织在一起。例如,如果使用日期对一个包含三天数据的表进行分区,那么表中将会有三个分区。可以从表中动态地创建和删除新分区。分区是多维度的,而非层次化的。

分区包含多条记录。一旦创建了分区,相应的记录集就确定了,并且不能修改。记录被划分为多列,每列均有名称和数据类型。HCatalog支持与Hive相同的数据类型。

HCatalog还为“存储格式开发者”提供了一个API,用于定义如何读取和写入保存在实际物理文件或HBase表中的数据(与Hive序列化/反序列化——SerDe相比)。HCatalog的默认数据格式是RCFile。但如果数据以不同格式存储,那么用户可以实现HCatInputStorageDriver和HCatOutputStorageDriver来定义底层数据存储和应用程序记录格式之间的转换。StorageDriver的作用域是一个分区,允许底层存储灵活地支持分区修改,或者将不同布局的多个文件合并为一个单独的表。

以下是HCatalog的三个基本用途:

工具间通信——大多数复杂的Hadoop应用程序都会使用多种工具来处理相同的数据。它们可能将Pig和MapReduce的组合用于抽取、转换、加载(ETL)的实现,MapReduce用于实际的数据处理,而Hive用于分析查询。中心化元数据存储库的使用简化了数据共享,并确保了某个工具的执行结果总是对其他工具可见。

数据发现——对于大型Hadoop集群来说,常见的情形是应用程序和数据具有多样性。通常,一个应用程序的数据可以被其他应用程序使用,但试图发现这些情况需要大量跨应用程序的信息。在这种情况下,可以将HCatalog用作对任何应用程序可见的注册表。将数据在HCatalog中发布就可以让其他应用程序发现它们。

系统集成——HCatalog所提供的REST服务,打开了Hadoop数据和处理的大门,使其可以应用在整体的企业级数据和处理基础设施中。Hadoop以简易API和类似SQL语言的形式提供了简单的接口。

本节概述了存储数据的一些方法,以及如何对其进行组装/反组装。下一节介绍一些关于如何为特定应用程序设计数据布局的指南。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,684评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,143评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,214评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,788评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,796评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,665评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,027评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,679评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,346评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,664评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,766评论 1 331
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,412评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,015评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,974评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,073评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,501评论 2 343

推荐阅读更多精彩内容