Kudu基本介绍

kudu提纲

整体技术架构
基本组件构成限制&制约
原子性与事务机制
压缩与存储机制相关

image.png

● Master：负责集群table、tablet元数据管理，对table的crud，tablet分布，ts宕机后tablet转移。提供元数据信息的api接口；
● TabletServer：提供用户IO请求相应，负责本地磁盘系统的读写
● table ：表
● tablet ：分区表，分布在各个tabletserver上
● CatalogTable ： kudu的元数据表，tables、tablets的信息存储于catalog table中，可以通过api的方式访问

使用场景

● 近实时可用的流式数据输入
● 时序应用，以提供更广泛的访问
● 预测建模（更新操作，以改变文件中一个或多个数据集）
● impala可以多个数据源，很方便处理历史遗留问题（数据层面）

Schema的设计

比较合理的设计是什么样？
● 数据分布合理，提升读写的性能
● tablet间数据均匀，负载可以保持稳定
● 数据读取，尽可能涉及到较少的设计操作

以上取决于partition、primarykey的设计，最重要的就是对数据特征的了解。所以，在使用kudu的时候，对我们来说，schema设计是最重要的。

PrimaryKey

● kudu提供了组件索引
● 不支持范围update、delete
● 没有mysql那样的自动增长feature，需要用户自己指定

Partition

PangePartition
HashPartition
前者可以自动分区（动态地增加、删除分区），在时序类应用中比较合适
后者可以较好的解决热点问题和数据分布不均匀的问题

Comparison

image.png

MutiLevel Partition

Hash and Range Partitioning Example

image.png

Hash and Hash Partitioning Example

image.png

限制因素

数据类型不够丰富，数组、映射不支持；
columns不超多300个，类型不可更改
每个数据不超过64KB
组件不可变（不可更新）
表创建后，Partition分区后不可变（包括分区反思，和分区的拆封合并）

Kudu和HDFS的比较

HDFS为分布式文件系统， Kudu 为非文件件系统，数据必须按表的形式结构化存储;
Kudu为原生的Hadoop存储引擎，通常也需要和HDFS并肩同部署;

Kudu和HBase的比较

相同点

内存部分差别不大，使 MemStore，MVCC等;
基本思想同样基于LSM架构，但Kudu的实现复杂;
一条记录只在一个RowSet中;
Kudu的事务性和HBase 样，只保证行级事务;

不同点

Kudu预先定义数据Schema，主要面对结构化数据，HBase主要面向半结构化数据，可能有万以上的稀疏矩阵。因此Kudu能很好的支持SQL。据Cloudera说，Kudu变更为Schema，如改变column的效率还不错。
Kudu除 partition还持bucket，因此可以均衡查询并 (parallelism)和并发 (concurrency)。
Kudu使列式存储，分析性能好于HBase;
4.存储和处理效率更高

由于有schema，因此需要存储名;
update等使 offset表示位置，不是rowkey。

性能: Kudu的flush和compact更为复杂，因此write的性能(尤其是update) HBase差; 同时由于采列式存储，读取单条记录的性能(尤其是有很多新时)也 HBase差。
compaction:Kudu没有minor和major的区别，没有长时间stop-all的compaction，后台使用低IO级别的线程一直不停地compact;
副本一致性:每个数据块副本使 leader-follower 式服务，使用Raft(类似Zookeeper、 Paxos)consensus协议，能定义一致性，秒级MTTR(Mean Time To Recovery，平均恢复时间)，每个follower都有WAL，能持(n-1)/2台服务器的宕机。同于HBase的单Region服务模式，HDFS能持n-1台机宕机，服务可靠性 ;
Kudu中的Master 像是一个旁观者，提出建议，而HBase中Master直接管哪块数据在哪被服务;
底层存储结构HBase使 HDFS， Kudu有自己的存储架构，直接存储本地磁盘，备份基于日志数据，适合跨数据中的部署。

Kudu 和 Spark SQL集成后，能带来的好处:

带来和 Parquet 相似的扫描性能，但却不存在数据新/插的延迟，也就是说，对数据的实时更新/插入，对分析应用来说是即时可见的，无延迟。
Spark对数据的过滤条件(基于判定的过滤条件，即 predicate)可以下推到 Kudu 这个存储层，能提高数据读取/扫描的性能
相对于Parquet，kudu基于主键索引的查询，性能更好

最后编辑于：2022.04.29 09:13:08

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 205,132评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,802评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,566评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,858评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,867评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,695评论 1赞 282
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,064评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,705评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 42,915评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,677评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,796评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,432评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,041评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,992评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,223评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,185评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,535评论 2赞 343

Kudu基本介绍

kudu提纲

使用场景

Schema的设计

PrimaryKey

Partition

Comparison

MutiLevel Partition

限制因素

Kudu和HDFS的比较

Kudu和HBase的比较

相同点

不同点

Kudu 和 Spark SQL集成后，能带来的好处:

推荐阅读更多精彩内容