Hive概述
- 1.Hive提供了一个被称为Hive查询语言(简称HiveQL或HQL)的SQL方言,来查询存储在Hadoop集群中的数据。其实,hive的功能远不止查询,还有对Hadoop集群上数据的各种操作的能力。
- 2.Hive可以将大多数的查询转换为MapReduce任务(job),进而在街上一个令人熟悉的SQL抽象的同时,拓展Hadoop的可扩展性。
- 3.Hive最适合于数据仓库应用程序,使用该应用程序进行相关的静态数据分析,不需要快速响应给出结果,而且数据本身不会频繁变化。
- 4.Hive的缺陷:
- 1.Hive最大的限制是不支持**纪录级别的更新,插入或删除操作;
- 2.Hive查询延时比较严重,传统数据库在秒级别可以完成的查询,在Hive中需要更长时间
- 3.Hive不支持事务
数据类型和文件格式
Hive支持关系型数据库中的大多数基本数据,同时也支持3种集合数据类型,如下。
以上是基本数据类型,需要注意的是所有的这些数据类型都是对Java接口的实现,因此,这些数据类型的具体行为细节和Java中对应的数据类型完全一致。如:STRING是Java中的String,FLOAT是Java中的float。另外,和其他SQL一样,以上名称类型都是保留字。
Hive支持structs,maps,arrays这三种集合类型。
以上名称类型都是保留字。
以上集合类型是Hive区别于其他大部分关系型数据库的特色。
- 采用以上数据模型创建一个员工信息表:
<code>
CREATE TABLE employees(
name STRING,
salary FLOAT,
subordinates ARRAY<STRING>,
deductions MAP<STRING,FLOAT>,
address STRUCT<street:STRING,city:STRING,state:STRING,zip:INT>
);
</code>
分隔符:
- 分隔符的作用:将表格转换为文本时,用分隔符标识文字分隔的位置,或在将文本转换为表格时,用其标识新行或新列的起始位置。一般用户比较熟悉以逗号或者制表符为分隔符的文件文本,逗号符分隔值即CSV,制表符分隔值即TSV
-
默认分隔符:
- 指定分隔符:用户可以根据需要指定分隔符,当然需要注意的是在指定分隔符的时候,ROW FORMAT DELIMITED这组关键字必须要写在其他子句之前。
- 警告:分隔符只会影响到Hive在读取到文件后如何进行划分。
展开阅读
HiveQL:数据定义
HiveQL是Hive的查询语言,它不完全遵循任何一种ANSI SQL标准的修订版,在各大SQL方言中,它可能是MySQL方言最为接近。二者最大不同是:HiveQL不支持行级别的数据的插入,更新和删除操作,也不支持事务,查询延时较高。
所谓HiveQL的数据定义语言是指:用于创建,修改和删除数据库,表,视图,函数和索引,简而言之是对表结构的操作。
所谓HiveQL的数据操作语言是指:用于将数据导入到Hive的表中,以及将数据抽取到文件系统中。还包括对数据的查询,分组,过滤,连接等操作。
- 区别:数据定义指定义数据表的结果,数据操作是指对数据实行增删改查操作。
拓展阅读:数据定义语言和数据操作语言的区别
Hive下的数据库
- Hive中数据库的概念本质上是表的一个目录或者命名空间。对于具有很多组和用户的大集群来说,这是非常有用的,因为这样可以避免表命名冲突。
- 如果用户没有显示的指定数据库,那么将会使用默认数据库default。使用命令:SHOW DATABASES可以查看Hive中所包含的数据库。
- Hive会为每个数据库创建一个目录,数据库中的表以子目录的形式存储。但是default数据库除外,这个数据库没有自己的目录。数据库的目录会在hive.metastore.warehouse.dir所配置的目录下创建,比如在默认配置下创建数据库financials时,该数据库目录为:/user/hive/warehouse/financials.db;当然用户可以通过LOCATION命令修改db位置。
注意:Hive定位为数据仓库而不是数据库,Hive和Hbase根据不同的业务需求各司其职。Hive主要用于数据的查询和分析,而并非数据的增删改查CRUD操作。Hbase是面向列的noSQL数据库,用于存储数据。
网友的点评:hbase就是一个存储key-value的大map,hive是一个做统计处理的工具,类似于awk类的。
所以如果你是一条一条读写记录用hbase,如果需要对大量数据做分析统计用hive。
拓展阅读: