在HDFS和HBase之间,Hadoop提供了许多保存数据的方法,使得数据可以被多个应用程序访问。但将数据集中存储并提供给多个应用程序访问,这样做产生了一系列新的挑战,包括以下几点:
如何分享数据,才能够使数据以用户想要的任何形式来保存和处理?
如何能够将不同的Hadoop应用程序和其他系统集成?
访问数据的常见方法之一是通过表抽象,该方法通常用于访问关系型数据库,并且为许多开发者所熟知(和广泛采用)。一些流行的Hadoop系统,例如Hive和Pig,也采用了这种方法。这种抽象解除了数据如何存储(HDFS文件、HBase表)与应用程序如何处理数据(表格式)之间的耦合。此外,它允许从较大的数据语料库中“过滤”感兴趣的数据。
为支持这种抽象,Hive以关系型数据库的形式提供了元存储,这允许我们捕获实际物理文件(和HBase表)与用于访问该数据的表(虚拟的)之间的依赖关系。
Hive和Pig
传统上,数据保存在数据库中,SQL是提供给数据工作者的主要接口。
Hadoop的数据仓库系统——Hive,旨在为这些数据工作者简化Hadoop的使用,它提供了HiveQL——一种类似SQL的语言,用于访问和操作基于Hadoop且保存在HDFS和HBase中的数据。通过将请求透明地转换为MapReduce执行,HiveQL支持专有的查询、连接、摘要等。其结果是,Hive查询不是实时执行,而是作为批量任务执行。
Pig是另外一个Hadoop数据仓库系统,与类SQL的语言不同,它使用Pig的专用脚本语言——Pig Latin。Pig Latin将数据视为一个元组集合(字段的有序集合),允许将输入元组转换为输出。类似于Hive,Pig支持专有的查询、连接和其他操作,且将Pig Latin代码转换为MapReduce执行。Pig还支持大量的并行机制和诸多优化技巧,使其能够处理非常庞大的数据集。
第13章有关于Hive和Pig更详细的信息。
一个新的Apache项目(HCatalog)扩展了Hive的元存储,同时保留了Hive DDL中用于表定义的组件。其结果是,Hive的表抽象(当使用了HCatalog时)可以用于Pig和MapReduce应用程序,这带来了以下一些主要优势:
它使得数据消费者不必知道其数据存储的位置和方式。
它允许数据生产者修改物理数据存储和数据模型,同时仍然支持以旧格式存储的现有数据,从而数据消费者不需要修改他们的处理流程。
它为Pig、Hive和MapReduce提供了共享的结构和数据模型。
HCatalog应用程序的数据模型以表的形式组织,表可以放入数据库中。可以基于一个或多个键对表进行散列分区,这允许我们将包含一个(或一组)给定键值的所有行组织在一起。例如,如果使用日期对一个包含三天数据的表进行分区,那么表中将会有三个分区。可以从表中动态地创建和删除新分区。分区是多维度的,而非层次化的。
分区包含多条记录。一旦创建了分区,相应的记录集就确定了,并且不能修改。记录被划分为多列,每列均有名称和数据类型。HCatalog支持与Hive相同的数据类型。
HCatalog还为“存储格式开发者”提供了一个API,用于定义如何读取和写入保存在实际物理文件或HBase表中的数据(与Hive序列化/反序列化——SerDe相比)。HCatalog的默认数据格式是RCFile。但如果数据以不同格式存储,那么用户可以实现HCatInputStorageDriver和HCatOutputStorageDriver来定义底层数据存储和应用程序记录格式之间的转换。StorageDriver的作用域是一个分区,允许底层存储灵活地支持分区修改,或者将不同布局的多个文件合并为一个单独的表。
以下是HCatalog的三个基本用途:
工具间通信——大多数复杂的Hadoop应用程序都会使用多种工具来处理相同的数据。它们可能将Pig和MapReduce的组合用于抽取、转换、加载(ETL)的实现,MapReduce用于实际的数据处理,而Hive用于分析查询。中心化元数据存储库的使用简化了数据共享,并确保了某个工具的执行结果总是对其他工具可见。
数据发现——对于大型Hadoop集群来说,常见的情形是应用程序和数据具有多样性。通常,一个应用程序的数据可以被其他应用程序使用,但试图发现这些情况需要大量跨应用程序的信息。在这种情况下,可以将HCatalog用作对任何应用程序可见的注册表。将数据在HCatalog中发布就可以让其他应用程序发现它们。
系统集成——HCatalog所提供的REST服务,打开了Hadoop数据和处理的大门,使其可以应用在整体的企业级数据和处理基础设施中。Hadoop以简易API和类似SQL语言的形式提供了简单的接口。
本节概述了存储数据的一些方法,以及如何对其进行组装/反组装。下一节介绍一些关于如何为特定应用程序设计数据布局的指南。