HBase学习笔记

1.HBase简介

HBase是Apache下的基于Hadoop的高可靠性,高性能,面向列和可伸缩的Key-Value型的分布式的列式存储集群。
在CAP理论中:

Consistency(一致性)
Availability(可用性)
Partition tolerance(分区容错性)

Hbase选择了CP,即一致性和分区容错性,舍弃了可用性。Hbase不想Redis性能那么高,但是在数据量很大时,Hbase的性能下降的不明显。Hbase不适合做数据分析(如数据联查,聚合和排序等)且数据量比较少的情况(如没有达到千万级别时)。

注意问题:
1.Hbase不支持表联查;
2.Hbase部分支持ACID(原子性,一致性,隔离性,持久性)

1.1 HBase基本架构:

Hbase

说明:

Master:

维护表结构信息,主要负责RegionServer的协调(如建表,删表,移动Region和合并等需要跨RegionServer的操作),Master宕机之后,Hbase仍然可以访问RegionServer的数据,但是无法建表删表等。

RegionServer:

RegionServer主要保存Region(一段数据的集合)存储数据,实际数据直接存储在HDFS上。

一个RegionServer上根据数据量可能会有多个Region,Hbase在进行数据平衡的时候,一个Region可能会被迁移到另一台RegionServer上。

Zookeeper:

相当于的RegionServer管理者,记录那些数据段保存在哪个RegionServer上。Client先与Zookeeper建立连接,查出数据在哪个RegionServer上,然后再链接RegionServer,执行CRUD。

1.2 HBase存储架构:

一个Region是多行(row)数据的集合,在Region是按照行的row key字典进行排序。

列(column):

存储的基本单位,每行(row)对应的列可能不同,不需要建表的时候指定列;

行键(row key):

用来唯一标定一行数据,类似于Map中的key;

列族(column family):

Hbase的列是不固定的,但是需要确定列族,即建表时需要指定列族,Hbase会把相同列族的列尽量存放到通过一台机器上。列族不应该太多,否则影响性能;

版本号(version):

Hbase的一个列会存储多个版本的值,多个版本的值保存在多个单元格内,多个版本之间使用版本号来区分。如果查询时不指定版本号,那么返回最新的版本号数据为返回结果。

单元格(cell):

Hbase的每次存储都必须知道数据要被存储到哪个单元格,每个版本就称为一个单元格,单元格由(表,列族,行,列)来唯一确定。

表空间(table name space):

主要用于对表进行分组,对不同的分组设置不同的管理配置。 Hbase默认有两个表空间,Hbase系统表空间,default默认表空间。

2.HBase进阶:

Region.png

说明:

1.WAL(Write-Ahead Log):

WAL解决宕机之后的数据操作的恢复问题,
当修改Region中的数据时,先把数据写入WAL中(底层是HDFS),然后数据先写入MemStore中,等数据达到一定量时,flush到Hfile中,如果flush之前,系统宕机或者重启,会导致MemStore中数据丢失,可以通过WAL恢复数据。

WAL开启会对性能有影响,WAL支持同步和异步方式,异步默认flush时间是1秒,系统宕机会导致数据丢失,但是提高WAL的性能。

2.Store:

一个Region中包含多个Store实例,一个Store对应一个列族的数据,一个Store有一个MemStore;

3.HFile:

Hfile存储在HDFS上的,每次MemStore的flush都生成一个新的HFile文件,HFile不可修改。Hbase会对HFile进行周期性合并,合并的时候忽略掉Deleted的数据。

4.MemStore

由于HDFS支持创建,追加和删除,但是不支持更改,这样对数据的顺序写入带来的困难(顺序写入写入提高性能),MemStore将数据安装rowkey进行排序,提高读写性能。MemStore使用了LSM树结构(一种B+树的改进)来存储数据;

避免段时间存储在MemStore中的数据flush到磁盘。

Hbase是建立在不可修改的HDFS上,其增删改都是通过新增一条数据时间的,只是修改时新增一条版本号更大数据,删除时增加一个没有Value的数据,类型为Delete(成为墓碑标记)。墓碑标记数据可能和数据保存的不是一个位置,毕竟大概率不是新增一条数据,然后再删除。在根据RowKey读取数据时,StoreScanner并不是扫描到数据(即有MemStore,也有HFile)后立即返回,而是直到被扫描的数据大于给出的限定条件位置,避免读取到脏数据。

Hbase的写入顺序为:

Client --> WAL --> MemStore --> HFile

Hbase的读取顺序为:

Client --> BlockCache --> MemStore --> HFile

二层查询架构.png

1.Client从Zookeeper中的/hbase/meta-region-server节点查询到哪台RegionServer上有hbase:meta表,Client会缓存hbase:meta表,下次不再需要加载hbase:meta表了;
2.Client从上一步查询到的RegionServer中查询到rowkey所在哪个RegionServer的哪个Region上;
3.Client连接上一步获取的RegionServer,然后进行scan操作。

3.HBase优化:

3.1 JVM的优化:

3.2 Region的拆分和合并:

3.3 WAL性能的考量:

3.4 BlockCache:

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,098评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,213评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,960评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,519评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,512评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,533评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,914评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,574评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,804评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,563评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,644评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,350评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,933评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,908评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,146评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,847评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,361评论 2 342

推荐阅读更多精彩内容

  • 最近使用HBase存储数据比较多,看了一些资料,这里记录一下笔记。HBase是Google开源项目bigtable...
    猿鹿说阅读 1,275评论 0 1
  • HBase是运行在Hadoop集群上的一个数据库,与传统的数据库有严格的ACID(原子性、一致性、隔离性、持久性)...
    陌上疏影凉阅读 2,403评论 0 7
  • 一、简介 Hbase:全名Hadoop DataBase,是一种开源的,可伸缩的,严格一致性(并非最终一致性)的分...
    菜鸟小玄阅读 2,362评论 0 12
  • 本文是对Hbase组件的一个学习总结,共包括如下章节的内容: Hbase是什么 Hbase的数据模型 Hbase体...
    我是老薛阅读 1,648评论 1 10
  • 在对HBase进行操作之前,首先学习一下HBase的基础架构和运行原理。这里讲解了 HBase 在大数据生态圈中的...
    卡卡xx阅读 7,210评论 1 2