分布式存储系统可靠性如何估算？

常规情况下，我们一般使用多副本技术来提高存储系统的可靠性，无论是结构化数据库存储 (如典型的 mysql)、文档型 Nosql 数据库存储 (mongodb ) 或者是常规的 blob 存储系统 (GFS、Hadoop) 等，无不如此。

因为数据几乎可以称得上是企业生命力的核心，保障数据存储系统的可靠性对于任何企业来说都不是一件小事。

那么，如何较为准确地去衡量集群数据的可靠性？如何进行系统设计使得集群数据达到更高的可靠性？本文将试着去解答这些问题。

数据丢失与 copyset（复制组）

“在由 999 块磁盘组成的 3 副本存储系统中，同时坏三块盘的情况下数据丢失的概率是多大？ ”，这个跟存储系统的设计息息相关，我们先考虑两个极端设计下的情况。

设计一：把 999 块磁盘组成 333 块磁盘对。

在这种设计下，只有选中其中一个磁盘对才会发生数据丢失。这种设计中，丢失数据的概率为 333/C(999,3) = 5.025095326058336*e-07。

设计二：数据随机打散到 999 块盘中。

极端情况下，随机一块盘上的逻辑数据的副本数据打散在所有集群中的 998 块盘中。这种设计下，丢失数据的概率为 C(999,3)/C(999,3)=1，也就是必然存在。

通过这两种极端的例子我们可以看到，数据的丢失概率跟数据的打散程度息息相关。为了方便后续阅读，这里我们引入一个新的概念 copyset (复制组)。

CopySet：包含一个数据的所有副本数据的设备组合，比如一份数据写入 1，2，3 三块盘，那么 {1,2,3} 就是一个复制组。

9 个磁盘的集群中，最小情况下的 copyset 的组合数为 3，copysets = {1,2,3}、{4,5,6}、{7,8,9}，即一份数据的写入只能选择其中一个复制组，那么只有 {1,2,3}、{4,5,6} 或者 {7,8,9} 同时坏的情况下才会出现数据丢失。即最小 copyset 数量为 N/R。

系统中最大的 copyset 的数目为 C(N,R) ，其中 R 为副本数，N 为磁盘的数量。在完全随机选择节点写入副本数据的情况下，系统中的 copyset 数目会达到最大值 C(N,R)。即任意选择 R 个磁盘都会发生一部分数据的三个副本都在这 R 个盘上的情况。

磁盘数量 N，副本为 R 的存储系统中，copyset 数量 S, N/R < S < C(N, R)

磁盘故障与存储系统可靠性估算

1. 磁盘故障与柏松分布

在正式估算相关概率之前还需要科普一个基础的概率学分布：柏松分布。柏松分布主要描述在一个系统中随机事件发生的概率，譬如描述汽车站台候客人数为某个值的概率，某个医院 1 小时内出生 N 个新生儿的概率等等，对泊松分布做的更为形象的介绍可参阅阮一峰的《泊松分布和指数分布： 10 分钟教程》。

![Uploading 分布式存储1_993514.png . . .]

如上为泊松分布的公式。其中，P 表示概率，N 表示某种函数关系，t 表示时间，n 表示数量，λ 表示事件的频率。

举个例子：1000 块磁盘在 1 年内出现 10 块故障的概率为 P (N(365) = 10) [注：t 的平均单位为天]。λ 为 1000 块磁盘 1 天内发生故障磁盘的数量，按照 google 的统计，年故障率在 8%，那么 λ = 1000*8%/365 。

如上只是损坏 N 块磁盘概率的统计，那么怎么利用这个公式计算分布式系统中数据可靠性 (即数据丢失概率) 的近似值呢？

2. 分布式存储系统中丢失率的估算

2.1 T 时间内的故障率

对于分布式存储系统中如何进行年故障率的估算，我们先假定一种情况：T 为 1 年的情况下，系统存满数据，坏盘不处理，这种情况下统计一下数据的年故障率。

这里我们先定义一些值

N：磁盘数量
T：统计时间
K：坏盘数量
S：系统中 copyset 数量 (复制组的个数)
R：备份数量

如何计算 T（1年）时间内数据丢失的概率，从概率统计角度来说就是把 T (1 年) 时间内所有可能出现数据丢失的事件全部考虑进去。包含 N 个磁盘 R 副本冗余的系统中，在 T 时间内可能出现数据丢失的事件，即坏盘大于等于 R 的事件，即 R，R+1，R+2，… N ( 即为 K∈[R,N] 区间所有的事件 )。这些随机事件发生时，什么情况下会造成数据丢失？没错，就是命中复制组的情况下。

K 个损坏情况下 (随机选择 K 个盘情况下) 命中复制组的概率为：

p = X/C(N,K) 其中 X 为随机选择 K 个磁盘过程中命中复制组的组合数

那么系统出现 K 个磁盘损坏造成数据丢失的概率为：

Pa(T,K) = p * P(N(T)=K)

最后系统中 T 时间内出现数据丢失的概率为所有可能出现数据丢失的事件的概率总和。

Pb(T) = Σ Pa(T,K) ; K∈[R,N]

2.2 分布式系统衡量年故障率

以上我们假设在一年中，不对任何硬件故障做恢复措施，那么 t 用一年代入即可算出此种系统状态下的年故障率。但是在大规模存储系统中，数据丢失情况下往往会启动恢复程序，恢复完了之后理论上又算是从初始状态的随机事件，加入这个因素之后计算可靠性会变得比较复杂。

理论上大规模存储系统中坏盘、恢复是极其复杂的连续事件，这里我们把这个概率模型简化为不同个单位时间 T 内的离散事件来进行统计计算。只要两个 T 之间连续事件发生的概率极小，并且 T 时间内绝大部份坏盘情况能够恢复，那么下个时间 T 就是重新从新的状态开始，则这种估算能够保证近似正确性。T 的单位定义为小时，那么 1 年可以划分为 365*24/T 个时间段，那么系统的年故障率可以理解为 100% 减去所有单位 T 时间内都不发生故障的概率。

分布式存储2.jpg

即系统整体丢失数据的概率为:Pc = 1 - (1-Pb(T))*(36524/T)

网易云对象存储服务

网易云对象存储服务 NOS（Netease Object Storage）是高性能、高可用、高可靠的云端存储服务。NOS 支持标准 RESTful API 接口，并提供丰富的数据在线处理服务，一站式解决互联网时代非结构化数据管理难题。

其中，网易云采取多重备份机制，为用户文件提供多重备份保障，在任何一台服务器或硬盘故障时，将立即进行数据恢复，确保数据安全无隐患。欢迎广大用户试用和体验。

最后，如想对本文内容（即分布式存储系统可靠性估算）作进一步学习和探究的，可参阅作者的另一篇文章：https://work-jlsun.github.io/2017/02/18/storage-durablity-2.html 。

参考文献：

Google’s Disk Failure Experience
柏松分布
泊松分布和指数分布：10 分钟教程
概率论，二项分布和 Poisson 分布
磁盘故障与存储系统的年失效率估算

最后编辑于：2017.12.07 15:05:55

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,456评论 5赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,370评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,337评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,583评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,596评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,572评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,936评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,595评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,850评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,601评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,685评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,371评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,951评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,934评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,167评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,636评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,411评论 2赞 342