9.HADOOP组件Hbase

HBASE 是一个在HDFS上开发的面向列分布式NOSQL数据库
像mysql这种是面向行非分布式数据库
MYSQL叫做行式存储,比如一条insert语句,其实就是在这个表中增加了一行,而表的字段就是列,举例:

mysql 行式存储

HBASE是为 实时随机访问超大规模数据集设计的,区分于HIVE的实时性很差。

虽然数据的存储和检索的实现可以选择很多不同的策略,但是绝大多数解决办法特别是关系型数据库不是为大规模可伸缩的分布式处理设计的。

很多厂商提供了复制(replication)和分区(partition)的解决方案,让数据库可以从单个节点上扩展出去,但是这些附加的技术都属于“事后的解决办法”,而且非常难以安装和维护,并且需要牺牲一部分关系型数据库的特性,比如mysql 提供了主从复制的策略,但是有太多不足

Hbase从另一个方向来解决可伸缩的问题。它自底向上的构建,能够简单的通过增加节点来达到线性扩展
Hbase并不是关系型数据库,不支持SQL。

Hbase原理简单说明:

Hbase 把数据存放在带标签的表中,表由行和列组成。
表格的单元格(cell)由行和列的坐标交叉决定,但是是有版本的。默认情况下,版本号是自动分配的,为Hbase插入单元格的时间戳

Mysql的一个单元格就能存储一个数据,但是Hbase的单元格是带版本号的,版本号是自动分配的,一般为写入这个cell的时间戳,所以Hbase的一个cell是可以存储多个版本数据的,
我们访问这个数据时,会给我们最新版本的数据,但是我们可以访问这个cell之前时间的版本数据。
但是如果我们把每个版本都存储下来,会占用大量资源,所以一般只建议保留几个版本。
在Hbase上我们拥有了时光机器

HBASE cell 示意图

两个硬性指标:
A.Hbase中行键一定是表的主键
B.所有对表的访问都要表的主键,也就是行键来排序
但是具有相似属性的列叫做列族(column family)
同一个列族的所有成员具有相同的前缀。因此像列 USER.name 与USER.age 都是列族USER的成员。
一个表的列族必须作为表模式定义的一部分预先给出
(就是说在Hbase里你创建表的时候就要预先定义好列族,后期不能修改和增加啦,但是可以在已经存在的列族里添加列)

下面我们看一个例子:

为了更好的理解HBase表的思路,先回顾一下关系数据库中表的处理方式
例如有一个用户表user_info,有字段:id、name、tel,表名和字段需要在建表时指定

create table user_info (

    id 类型,

    name 类型,

    tel 类型

)

然后插入两条数据

insert into user_info values(...)

表结构如下:

id name tel
1 小明 123
2 小王 456

我们对比来看一下Hbase的表结构:
建表时要指定的是:表名、列族

row_key base_info ext_info
... ... ...
... ... ...

建表语句
create 'user_info', 'base_info', 'ext_info'
意思是新建一个表,名称是user_info,包含两个列族base_info和ext_info
列族 是列的集合,一个列族中包含多个列
这时的表结构:

row_key base_info ext_info
... ... ...
... ... ...

row key 是行键,每一行的ID,这个字段是自动创建的,建表时不需要指定,当然也可以手动指定

插入一条用户数据:name为‘a’,tel为‘123’

插入语句

put 'user_info', 'row1', 'base_info:name', 'a'
put 'user_info', 'row1', 'base_info:tel', '123'

意思是向user_info表中行健为row1的base_info列族中添加一个列,列名称为name,name列的值是a,接着又添加了一列tel,tel列添加值123
name和tel就是列,属于base_info这个列族
这时的表结构:

Hbase表结构

再插入一条数据:name为‘b’,addr为‘beijing’

put 'user_info', 'row2', 'base_info:name', 'b'
put 'user_info', 'row2', 'ext_info:addr', 'bj'
Hbase表结构图2

HBase表中还有一个重要概念:版本,每个字段的值都有版本信息(通过时间戳指定)
例如 base_info:name,每次修改时都会保留之前的值,就是说可以取到他的旧值

Hbase cell 版本 示意图

Hbase 区域的概念:

HBase 是一个NoSQL数据库,用于处理海量数据,可以支持10亿行百万列的大表,但是表特别大怎么存储呢?
Habse自动把表水平划分为区域,每个区域由表中行的子集构成
每个区域由它所属于的表,它所包含的第一行及其最后一行(不包括这行来表示)。
一开始,一个表只有一个区域,但是随着区域开始变大,等到他超出设定的大小阈值,便会在某行的边界上把表分成两个大小基本相同的新分区

在第一次划分之前,所有的数据都放在原始区域所在的那台服务器上。随着表变大,区域的个数也会增加。
区域是在Hbase集群上的最小单位。
用这种方式,一个因为太大而无法放在单台服务器上的表会被放置到服务器集群上,其中每个节点都负责管理表所在区域的一个子集。

Hbase的容错及备份

上面我们介绍了hadoop的表的区域划分,把表切割后放置在不同的节点上,但是我们思考一个问题,如果其中一台机器挂掉会如何??
如果只是按照上面的逻辑,那么肯定这个表的数据会变得不完整

HDFS有namenode和datanode
Mapreduce有jobtracker与tasktracker
Hbase也采用了类似的模型,他利用一个master节点协调管理一个或者多个regionserver

Region翻译:(区域,地区)

  • HMaster:
    Hmaster负责启动一个全新的安装,把区域分配给注册的regionserver,如果regionserver出现问题,也负责恢复regionserver的故障,所以Master的负载很轻

  • regionserver:
    regionserver负责0个或者多个区域的管理以及相应客户端的读写请求。

  • Zookeeper:
    Hbase依赖于zookeeper
    如果在区域的分配过程中有服务器崩溃,就可以通过zookeeper来进行分配协调。在zookeeper上管理事物分配的状态有助于在恢复时能够从崩溃服务器遗留的状态继续分配
    当然为了避免单点故障,zookeeper也有集群

  • HBase Master高可用(HA):
    HMaster没有单点问题,HBase中可以启动多个HMaster,通过Zookeeper的Master Election机制保 证总有一个Master运行。
    所以这里要配置HBase高可用的话,只需要启动两个HMaster,让Zookeeper自己去选择一个Master Acitve。

Hbase 整体示意图

图片 12.png

Hbase 简单操作

Hbase shell 进入 hbase的交互界面
List 查看hbase数据库有哪些表

Scan “表名“ 扫描表中所有数据,不建议这么做

Get “表”,“rowkey”
get 'DayPriceIndex', '0000011498060800'

本文只是简单介绍HBase原理,Hbase更多操作,参见本文集后期文章

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,684评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,143评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,214评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,788评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,796评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,665评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,027评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,679评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,346评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,664评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,766评论 1 331
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,412评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,015评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,974评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,073评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,501评论 2 343

推荐阅读更多精彩内容