解析腾讯云硬盘故障,什么是静默错误?

image.png

上图是腾讯云官方回应云盘故障致用户数据丢失事件,指出该故障系物理硬盘固件版本bug导致的“静默错误”引起。那么什么是“静默错误”呢,为什么该错误能带来如此严重的后果?

一、什么是静默错误

静默错误在英文中被称为:Silent Data Corruption,我们知道硬盘最核心的使命是正确的存入数据、正确的读出数据,在出错时及时抛出异常告警。磁盘出现异常的情形可能包括硬件错误、固件 BUG 或者软件 BUG、供电问题、介质损坏等,常规的这些问题都能够正常被捕获抛出异常,而最可怕的事情是,数据处理都是正常的,直到你使用的时候才发现数据是错误的、损坏的。这就是静默错误。

有些类型的存储错误在一些存储系统中完全未报告和未检测到。 它们会导致向应用程序提供损坏的数据,而不会发出警告、记录、错误消息或任何类型的通知。 虽然问题经常被识别为静默读取失败,但根本原因可能是写入失败,因此我们将此类错误称为“静默数据损坏”。这些错误很难检测和诊断,更糟糕的是 它们实际上在没有扩展数据完整性检测功能的系统中相当普遍

在某些情况下,当数据写入硬盘时,应该写入一个位置的数据实际上最终写入另一个位置。 因为某些故障(如所谓固件bug),磁盘不会将此识别为错误,并将返回成功代码。 结果,RAID系统未检测到“错误写入”,因为它仅在硬盘发出错误信号时才采取措施。此时,不仅发生了未检测到的错误,而且还存在数据丢失。
在下图中,数据块C本应该覆盖数据块A,却意外覆盖数据块B,因此数据块B丢失;数据块A保留旧的数据。
数据块A : 应该更新为C,未更新,保留了旧的、错误的数据;
数据块B : 被C覆盖,B数据丢失。

结果,RAID系统和HDD都未检测到此错误而不发出任何警告。 检索B或C的访问却导致返回不正确的数据。

image.png

二、静默错误发生的概率

那么“静默损坏”发生的概率有多少呢?文献提供了一组数据:

...一项针对NetApp数据库的150万个硬盘驱动器的为期32个月的学术研究发现,8.5%的SATA磁盘会产生静默损坏。 某些磁盘阵列运行会后台进程验证数据和RAID奇偶校验是否匹配,可以捕获这种类型的错误。 然而,该研究还发现,有13%的错误,后台验证过程未能捕获到。

那些未被发现的错误,就会成为企业的灾难。虽然我们不知道腾讯云所称的“静默错误”是否与此相关,但是静默错误的确值得大家去了解,并基于此优化企业的备份策略,将核心数据丢失的风险降到最低。

备份建议请参考:https://www.jianshu.com/p/5bc6f342eb86
参考文献:https://jtyjs.oss-cn-shanghai.aliyuncs.com/Whitepaper-Silent-Data-Corruption.pdf(点击可直接查看)
参考文章:https://mp.weixin.qq.com/s/ra8TP9kfsPPbY8A3Ayopjg

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,530评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 86,403评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,120评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,770评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,758评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,649评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,021评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,675评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,931评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,659评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,751评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,410评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,004评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,969评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,042评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,493评论 2 343

推荐阅读更多精彩内容

  • feisky云计算、虚拟化与Linux技术笔记posts - 1014, comments - 298, trac...
    不排版阅读 3,813评论 0 5
  • 独立磁盘冗余数组(RAID, Redundant Array of Independent Disks)简称硬盘阵...
    yekai阅读 4,823评论 0 14
  • RAID 上一章介绍了磁盘的基本原理,我们知道一块磁盘的容量和速度是有限的,对于一些应用来说,可能需要几个TB的大...
    dy2903阅读 1,795评论 0 1
  • 一、 春夏交际的时候,在南方的天空中总感觉到会传来几声雷,随之而来的就是一阵绵雨。夏昀和大本就在这种湿润的环境中处...
    SherlockZeng阅读 457评论 4 12
  • 十二、 回到学校里没几天,果然不出她所料,萧艾接连接到了好几个电话,父母见劝她放弃考研回老家工作有些困难,还说动了...
    桑暮阅读 157评论 0 0