Hbase 是可以支持实时查询的非关系行数据库,采用列存储的同时也是的直接查询的数据不太直观,对此,我们可以将之关联hive表,通过HQL大到查询Hbase的目的
Hbase 关联 hive 表有两种方式(通过建立hive管理表 和 外表的方式实现)
通过管理表
1、创建hive-hbase 管理表:
drop table tbl_hive_mange;
create table tbl_hive_mange
(key String,
dict_id String,
city_id String,
city_name String,
city_code String,
group_id String,
group_name String,
area_code String,
bureau_id String,
sort String,
bureau_name String)
row format delimited
fields terminated by '|'
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES("hbase.columns.mapping" = ":key,
info:dict_id,
info:city_id,
info:city_name,
info:city_code,
info:group_id,
info:group_name,
info:area_code,
info:bureau_id,
info:sort,
info:bureau_name")
TBLPROPERTIES("hbase.table.name" = "tbl_hive_mange");
2、创建普通的 hive 管理表
drop table tbl_hive_mange_1;
create table tbl_hive_mange_1
(key String,
dict_id String,
city_id String,
city_name String,
city_code String,
group_id String,
group_name String,
area_code String,
bureau_id String,
sort String,
bureau_name String)
row format delimited
fields terminated by '|'
STORED AS TEXTFILE;
3、向 tbl_hive_mange_1 中添加数据
load data inpath 'hdfs:/ns1/user/hive/warehouse/xx.db/a...' into table tbl_hive_mange_1;
4、将 tbl_hive_mange_1 的数据添加到 tbl_hive_mange
insert overwrite table tbl_hive_mange select * from tbl_hive_mange_1;
目前为止:
建立了一张Hbase的表:tbl_hive_mange
并关联了 hive 表:tbl_hive_mange
同时将hive表 tbl_hive_mange_1 的数据添加到了 tbl_hive_mange
可以通过hivev表:tbl_hive_mange查询Hbase表:tbl_hive_mange 数据
注:
a:建立hive-hbase 管理表 tbl_hive_mange 后不能直接通过load data 的方式添加数据
hive> load data inpath 'hdfs://ns1/user/hive/warehouse/xx.db/tbl_hive_test' into table tbl_hive_test;
FAILED: SemanticException [Error 10101]: A non-native table cannot be used as target for LOAD
b:通过 desc formatted tbl_hive_mange 可以看到在默认的hive数据存储路径下存在制定文件夹,但是却没有数据,表明这个数据是存在hbase下面的。
c:删除表操作
先删除hbase(disabled->drop)
hbase(main):003:0> disable 'tbl_hive_mange'
0 row(s) in 2.5610 seconds
hbase(main):004:0> drop 'tbl_hive_mange'
0 row(s) in 1.3140 seconds
此时show tables 在hive里面能看到tbl_hive_mange 但是已经没有数据了,用show tables还能查出来。但是用select * from tbl_hive_mange 查询的时候报错
此时mysql中TBLS还有hive表的信息,执行drop table tbl_hive_mange 报错。
继续show tables时,发现表已经不在了。TBLS里面也没有hive表信息了。
通过管理表
1、建立外部表(hive),关联存在hbase表
drop table tbl_hive_xternal;
create xternal table tbl_hive_xternal
(key String,
dict_id String,
city_id String,
city_name String,
city_code String,
group_id String,
group_name String,
area_code String,
bureau_id String,
sort String,
bureau_name String)
row format delimited
fields terminated by '|'
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES("hbase.columns.mapping" = ":key,
info:dict_id,
info:city_id,
info:city_name,
info:city_code,
info:group_id,
info:group_name,
info:area_code,
info:bureau_id,
info:sort,
info:bureau_name")
TBLPROPERTIES("hbase.table.name" = "tbl_hive_xternal");
2、创建普通的 hive 管理表
drop table tbl_hive_xternal_1;
create table tbl_hive_xternal_1
(key String,
dict_id String,
city_id String,
city_name String,
city_code String,
group_id String,
group_name String,
area_code String,
bureau_id String,
sort String,
bureau_name String)
row format delimited
fields terminated by '|'
STORED AS TEXTFILE;
3、向 tbl_hive_xternal_1 中添加数据
load data inpath 'hdfs:/ns1/user/hive/warehouse/xx.db/a...' into table tbl_hive_xternal_1;
4、将 tbl_hive_xternal_1 的数据添加到 tbl_hive_xternal
insert overwrite table tbl_hive_xternal select * from tbl_hive_xternal_1;
目前为止:
建立了 hive 外部表表: tbl_hive_xternal
同时将hive表 tbl_hive_xternal_1 的数据添加到了 tbl_hive_xternal
可以通过hivev表: tbl_hive_xternal 查询Hbase表: tbl_hive_xternal 数据
注:
a:使用外部表需要确保 hbase的表存在,同时在建立hive标的时候可以指定hbase中不存在的列
b:desc formatted tbl_hive_xternal可以看到存储文件的路径,但是真实的数据存储在hbase
c:删除操作:删除hive表对hbase操作没有影响; 但是删除hbase表后hive查询会报错(数据存hbase)