HBase基础（一）：架构和组件

1、基本概念

HBase是一个开源的非关系型分布式数据库（NoSQL），参考了谷歌的BIgTable建模，实现的编程语音为Java。是Apache软件基金会的Hadoop项目的一部分，运行于HDFS文件系统上，所以可以容错地存储海量稀疏的数据

HBase的特性：
- 高可靠
- 高并发读写
- 面向列
  行存储 VS 列存储
  行存储：优点是，写入一次性完成，保持数据完整性；缺点是，数据读取过程中产生冗余数据，若有少量数据可以忽略；
  列存储：优点是，读取过程不会产生冗余数据，特别适合对数据完整性要求不高的大数据领域；缺点是，写入效率差，保证数据完整性方面差
- 可伸缩
- 易构建
Hbase优势：
- 海量数据存储
- 快速随机访问
- 大量写操作的应用
Hbase应用场景：
- 互联网搜索引擎数据存储
- 海量数据写入
- 消息中心
- 内容服务系统（schema-free）
- 大表负责&多维护索引
- 大批量数据读取

2、Data Modeling

image.png

RowKey：是Byte array，是表中每条记录的“主键”，方便快速查找，Rowkey的设计非常重要；
Column Family：列簇，拥有一个名称（String），包含一个或者多个相关列
Column : 属于某一个Columnfamily，familyName:columnName，每条记录可动态添加

image.png

Version Number：类型为Long，默认值是系统时间戳，可由用户自定义，每个rowkey唯一
Value（Cell）：Byte array

image.png

三维有序 {rowkey => {family => {qualifier => {version => value}}}}
默认都是按字典顺序，即字母顺序排列（如下，bar在foo前）；
a:cf1:bar:1368394583:7
a:cf1:foo:1368394261:hello

image.png

3、体系架构

image.png

Client :
1、整个HBase集群的访问入口；
2、使用HBase RPC机制与HMaster和HRegionServer进行通信；
3、与HMaster通信进行管理类操作；
4、与HRegionServer通信进行数据读写类操作；
5、包含访问HBase的接口，并维护cache来加快对HBase的访问

Zookeeper：
1、保证任何时候，集群中只有一个HMaster；
2、存储所有HRegion的寻址入口；
3、HMaster和HRegionServers启动时会向ZooKeeper注册；
4、实时监控HRegion Server的上线和下线信息，并实时通知给HMaster；
5、存储HBase的schema和table元数据。
6、容错：Zookeeper是一个可靠的服务，一般配置3或者5个Zookeeper实例。

HMaster：主要负责Table和Region的管理工作
1、HMaster没有单点问题，HBase中可以启动多个HMaster，通过Zookeeper的Master Election机制保证总有一个Master在运行；
2、管理用户对table的增删改查操作；
3、管理HRegionServer的负载均衡，调整Region分布；
4、Region Split后，负责新Region的分配；
5、在HRegionServer停机后，负责失效HRegionServer上Region迁移工作；
6、Client访问hbase上数据的过程并不需要HMaster参与（寻址访问Zookeeper和HRegionServer，数据读写访问HRegionServer）,HMaster仅仅维护着table和Region的元数据信息，负载很低；
7、容错：Zookeeper重新选择一个新的的Master
—无HMaster过程中，数据读取依旧照常进行；
—无HMaster过程中，region切分，负载均衡等无法进行

RegionServer：
1、维护HRegion，处理对这些HRegion的IO请求，向HDFS文件系统中读写数据；
2、负责切分在运行过程中变得过大的HRegion；
3、HRegionServer内部管理了一系列的HRegion对象，每个HRegion对应了table中的一个region，HRegion中由多个HStore组成。每个HStore对应了Table中的一个column family(列簇)，每个HStore 是一个集中的存储单元，因此最好将具备共同IO特性的column放在一个column family中，这样最高效；
4、HStore存储是HBase存储的核心，由两部分组成，一部分是MemStore，一部分是StoreFile；MemStore是Sorted Memory Buffer，用户写入的数据首先会放入MemStore中，当MemStore满了以后会Flush成一个StoreFile(底层实现是HFile)
5、Regionserver容错：定时向Zookeeper汇报心跳，如果一段时间内未出现心跳，Master将该RegionServer上的Region重新分配到其他RegionServer上，失效服务器上“预写”日志由主服务器进行分割并派送给新的RegionServer。

注：split分为切分（regionserver负责）和分配（master负责）两个过程

4、物理模型

region，Hbase上的分区概念，不同rewkey存储在不同的region上

image.png

当region被分为两个新的region时，master会将这两个region分配到不同的regionServer上

image.png

5、在HDFS上目录结构

image.png

WALs：预写日志，用来记录日志；RegionServer在往表中写入数据时，会先往WALs下的Hlog写一份，然后再往内存写（和mysql的binlog类似），避免内存丢失数据，可以从日志文件中恢复
data：是真正存储数据的
下面第一层是namespace（nstest）

image.png

第二层是table（tb1），第三层是region，第四层是列簇Column Family，第五层是StoreFile

image.png

6、在HDFS上数据存储

HBase中的所有数据文件都存储在HDFS上，主要有两种文件类型
1、Hfile : HBase中<key，value>存储格式，是Hadoop的二进制格式文件，StoreFile就是对HFile做了轻量级包装，进行数据的存储；
当用户写入时候，先写入memstore，当memstore满了以后会flush成一个storefile（就是Hdfs上的Hfile）；
用户也可以手动flush，将内存中的数据直接溢写到磁盘上，手动干预
2、Hlog File : HBase中WAL（Write Ahead Log预写日志）的存储格式，物理上是Hadoop的squence File序列化文件
WAL类似Mysql中的binlog，用来做灾难恢复。Hlog记录数据的所有变更，一旦数据修改，就可以从log中进行恢复。每个HRegionServer维护一个HLog；这样不同region(来自不同表table)的日志会混在一起，这样做的目的是不断追加单个文件，相对于同时写多个文件而言，可以减少磁盘寻址次数，因此可以提高对table的写性能；但是，因此带来的缺点是，如果一台HRegionServer下线，为了恢复其上的region，需要将HRegionServer上的log进行拆分，然后分发到其他HRegionServer上进行恢复

HBase中默认有张系统表（'hbase:namespace'，下图），存储hbase中所有namespace的信息；还有张'hbase:meta'表：记录元数据，它的rowkey存储的是hbase中所有表的region 的位置信息

image.png

7、在Zookeeper上数据存储：

除了HDFS存储信息，HBase还在Zookeeper中存储信息，其中的znode信息：
– /hbase/root-region-server ，Root region的位置(系统'hbase:meta'元数据表的region信息)
– /hbase/table/-ROOT-，根元数据信息
– /hbase/table/.META.，元数据信息
– /hbase/master，当选的Mater
– /hbase/backup-masters，备选的Master
– /hbase/rs ，Region Server的信息
– /hbase/unassigned，未分配的Region

image.png

8、Hbase读写数据流程：

Hbase读取数据流程：
1、首先，Client先访问zookeeper，获取系统'hbase:meta'元数据表的region信息和HRegionServer信息（确定'hbase:meta'元数据表的位置），从而获取到'hbase:meta'元数据表
2、其次，根据namespace、tablename、rowkey，在'hbase:meta'元数据表查找对应的的Region信息和HRegionserver信息
3、最后，根据已经获取到的regionserver 和 region信息，去regionserver节点上查找数据，先从memstore读取，如果没有，再到storeFile上读取（为了读取的效率）
从这个过程可以看出，真正的读写并不依赖于master，在读写的过程中如果master节点出现宕机，短暂性的是不会出现太大的问题

Hbase写入数据流程：
1、当客户端发起一个Put请求时，首先它从hbase:meta表中查出该Put数据最终需要去的HRegionServer；然后客户端将Put请求发送给相应的HRegionServer，在HRegionServer中它首先会将该Put操作写入WAL日志；
2、写完WAL日志文件后，HRegionServer根据Put中的TableName和RowKey找到对应的HRegion，并根据Column Family找到对应的HStore，并将Put写入到该HStore的MemStore中，此时写成功，并返回通知客户端。

image.png

9、Regionserver的内存：Memstore & BlockCache

HBase上Regionserver的内存分为两个部分，一部分作为Memstore，主要用来写；另外一部分作为BlockCache，主要用来读。
写请求会先写入Memstore，Regionserver会给每个region提供一个Memstore，当Memstore满128M(可配置)后，会启动flush刷新到磁盘。当Memstore的总大小超过限制时(heapsizehbase.regionserver.global.memstore.upperLimit0.9)——一个Regionserver有多个Region，多个region中memstore的总大小——，会强行启动flush进程，从最大的Memstore开始flush，直到低于限制；
读请求先到Memstore中查数据，查不到就到BlockCache中查，再查不到就会到磁盘上磁盘上读，并把读的结果放入BlockCache。由于BlockCache采用的是LRU策略(Least recently used，最近最少使用)，因此BlockCache达到上限（headsizehfile.block.cache.size0.85）后，会启动淘汰机制，淘汰掉最老的一批数据
在注重读响应时间的应用场景下，可以将BlockCache设置大些，Memstore设置小些，以加大缓存的命中率

image.png

10、Hbase的Compaction和Split：

image.png

Compaction过程：
Client写入 -》存入MemStore，一直到MemStore满 -》Flush成一个StoreFile，直至增长到一定阈值 -》触发Compaction合并操作 -》多个StoreFile合并成一个StoreFile，同时进行版本合并和删除 -》当StoreFiles Compaction后，逐步形成越来越大的StoreFile -》当个StoreFile大小超过一定阈值后，触发Split操作，把当前Region Split成2个Region，Region会下线，新Split出的2个子Region会被HMaster分配到相应的HRegionServer上，使得原先1个Region的压力得以分流到2个Region上。
HBase只是增加数据，所有的更新和删除操作，都是在Compaction阶段做的，所以用户写操作只需要进入到内存即可立即返回，从而保证I/O高性能；

Compaction：会从一个region的一个store中选择一些Hfile文件进行合并；
—》合并原理：先从这些待合并的数据文件中读出KeyValues，再按照由小到大排列后写入一个新的文件中，之后，这个新生成的文件就会取代之前合并的所有文件对外提供服务；
—》合并类型：Minor Compaction & Major Compaction
Minor Compaction：是指选取一些小的、相邻的StoreFile将他们合并成一个更大的StoreFile，在这个过程中不会处理已经Delete或Expired的Cell。一次Minor Compation的结果是更少并且更大的StoreFile；这个过程实际上是个多路归并的过程，因为HFile的每个文件都是经过归类的，所以合并速度很快，只受到磁盘IO性能的影响；
Major Compaction：是指将所有的StoreFile合并成一个StoreFile，这个过程还会清理三类无意义数据，被删除的数据，TTL过期数据、版本号超过设定版本号的数据；major合并能扫描所有的键/值对，顺序重写全部的数据，重写数据的过程中会略过做了删除标记的数据，多余断言删除此时生效，例如，对于那些超过版本号限制的数据以及生存时间到期的数据，在重写数据时就不再写入磁盘了；所以Major Compaction时间会持续比较长，整个过程会消耗大量系统资源，对上层业务有比较大的影响，因此线上业务都会关闭自动触发Major Compactio功能，改为手动在业务低峰期触发;
minor compaction，轻量级，将符合条件的最早生成的几个storefile合并成一个大的sotrefile文件，它不会删除被标记为“删除”的数据和已过期的数据，并且执行过一次minor合并操作后，还会有多个storefile文件；
major compaction，重要级，把所有的storefile合并成一个单一的storefile文件，在文件合并期间系统会删除标记为“删除”标记的数据和已过期失效的数据，同时会block（阻塞）所有客户端对该操作所属region的请求直到合并完毕，最后删除已合并的storefile文件
—》Compaction本质：使用短时间的IO消耗以及带宽消耗换取后续查询的低延迟；
—》conpact的速度远远跟不上Hfile生产的速度，这样就会使Hfile的数量越来越多，导致读性能急剧下降，为了避免这种情况，在HFile的数量过多的时候，会限制写请求的速度
—》Split和Major Compaction可以手动或者自动触发；

Split：当一个Region太大时，将其分裂成两个Region

最后编辑于：2019.09.17 14:41:11

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,772评论 6赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,458评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,610评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,640评论 1赞 276
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,657评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,590评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,962评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,631评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,870评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,611评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,704评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,386评论 4赞 319
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,969评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,944评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,179评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,742评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,440评论 2赞 342

HBase基础（一）：架构和组件

1、基本概念

2、Data Modeling

3、体系架构

4、物理模型

5、在HDFS上目录结构

6、在HDFS上数据存储

7、在Zookeeper上数据存储：

8、Hbase读写数据流程：

9、Regionserver的内存：Memstore & BlockCache

10、Hbase的Compaction和Split：

推荐阅读更多精彩内容