数据架构的三大纠缠趋势:数据网格、数据编织和混合架构

<p data-mpa-powered-by="yiban.io" style="visibility: visible;"><strong style="font-family: mp-quote, -apple-system-font, BlinkMacSystemFont, "Helvetica Neue", "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif; visibility: visible;">一本关于如何调和看似相似但不同的趋势的入门书,这些趋势使数据团队难以解决棘手的“一次无处不在”的问题。</strong></p><p style="visibility: visible;">数据团队有一项不可能完成的任务,即一次在任何地方(在本地和所有云中)交付所有内容(数据和工作负载)(几乎没有延迟)。他们在处理必须使用混合架构的现实时,被关于看似独立的新趋势(如数据网格和数据编织)的文献轰炸。这些趋势中的每一个都声称是其数据架构的完整模型,以解决“一次无处不在”的问题。数据团队对于他们是否应该只追随这些趋势之一或选择一个组合感到困惑。从他们现在的数据架构到“理想状态”似乎也没有一条连贯的道路, 这将使他们最终实现成为“数据驱动型组织”的梦想。</p><p style="visibility: visible;">在本文中,我们试图展示这些概念如何相互关联,甚至建议同时考虑所有这些概念(喘气!)。我们还将建议客户可以采取的一条路径,从他们所在的地方到他们想要使用他们的数据架构的地方。</p><p style="visibility: visible;">首先,我们描述了数据网格和数据编织如何相关联。然后,我们将混合架构添加到组合中,因为它们会一直存在,并且不会只是“在我们都迁移到云端之前的临时状态”。</p><section data-mpa-template="t" mpa-from-tpl="t" style="visibility: visible;"><h2 mpa-is-content="t" style="margin: 5px; padding-right: 10px; padding-left: 10px; font-weight: bold; max-width: 100%; font-family: -apple-system-font, BlinkMacSystemFont, "Helvetica Neue", "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif; font-variant-numeric: normal; font-variant-east-asian: normal; letter-spacing: 0.544px; text-align: justify; white-space: normal; widows: 1; border-left: 5px solid rgb(2, 30, 170); line-height: 32px; background-color: rgb(255, 255, 255); border-top-color: rgb(2, 30, 170); border-bottom-color: rgb(2, 30, 170); border-right-color: rgb(2, 30, 170); box-sizing: border-box !important; overflow-wrap: break-word !important; visibility: visible;"><span style="color: rgb(136, 136, 136); border-color: rgb(2, 30, 170); visibility: visible;"><span style="color: rgb(2, 30, 170); border-color: rgb(2, 30, 170); visibility: visible;" mpa-is-content="t">数据网格(Data Mesh)定义</span></span></h2></section><p style="visibility: visible;"><span style="font-family: mp-quote, -apple-system-font, BlinkMacSystemFont, "Helvetica Neue", "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif; visibility: visible;">数据网格是一个概念,用于帮助以可管理的方式扩展公司的数据足迹。它是一组围绕人员、流程和技术 选择的准则,允许公司扩展其数据系统。 </span></p><p style="margin-bottom: 0em; visibility: visible;"><img class="rich_pages wxw-img" data-backh="584" data-backw="578" data-ratio="1.0098846787479407" data-src="https://mmbiz.qpic.cn/mmbiz_png/9IZsf6icv8GqHaoVZT34A8VKiag5x1aO6OqLcvChOdoBfZAUxEaztDgskqupicCcdVjwVOOwRWkuSAonjAjwGK6GQ/640?wx_fmt=png" data-type="png" data-w="607" style="width: 100% !important; height: auto !important; display: initial; visibility: visible !important;" data-index="1" data-origin-display="" _width="100%" crossorigin="anonymous" alt="图片" src="https://upload-images.jianshu.io/upload_images/13265002-a52aff101791b642.png" data-fail="0"></p><p style="visibility: visible;">图 1. 数据网格概念层次结构</p><p style="visibility: visible;"><em style="visibility: visible;">Miro:https ://miro.com/app/board/uXjVO_mem4k=/</em></p><p style="visibility: visible;">与其拥有一个管理公司所有数据的中央团队,不如说应该根据最适合生产和拥有的团队在整个公司范围内分配生成、策划、记录、更新和管理数据的责任那个数据。公司中的每个团队都是该团队拥有的产品或业务功能产生的数据领域的领域专家。该团队或领域专家将对团队产生的数据负责。然后将数据本身视为产品。数据产品不仅仅是数据本身,而是围绕它的一堆元数据——像模式这样简单的东西是给定的。但是更多的动态信息,如新鲜度、统计数据、访问控制、所有者、文档、数据的最佳用途和沿袭,也需要被视为数据产品和数据接口的一部分。 </p><p style="margin-bottom: 0em;"><img class="rich_pages wxw-img" data-backh="376" data-backw="578" data-ratio="0.6507413509060955" data-src="https://mmbiz.qpic.cn/mmbiz_png/9IZsf6icv8GqHaoVZT34A8VKiag5x1aO6OdKguqzmGicpCAgv5muuEsQSZribnmdClqFVmEhpnpF3orodibTncY3IfA/640?wx_fmt=png" data-type="png" data-w="607" style="width: 100%; height: auto; display: none;" data-index="2" data-origin-display="" _width="100%" crossorigin="anonymous" alt="图片" src="https://upload-images.jianshu.io/upload_images/13265002-09b1a7c437f4bdd6.png"><span class="js_img_placeholder wx_widget_placeholder" data-src="https://mmbiz.qpic.cn/mmbiz_png/9IZsf6icv8GqHaoVZT34A8VKiag5x1aO6OdKguqzmGicpCAgv5muuEsQSZribnmdClqFVmEhpnpF3orodibTncY3IfA/640?wx_fmt=png" data-index="2" style="width: 677px !important; height: 440.552px !important;"><span class="weui-primary-loading"><span class=""></span></span></span></p><p>图 2. 数据网格示例</p><p>上图中显示了一个数据网格示例,其中包含数据应用程序、数据产品和数据订阅。 </p><ol class="list-paddingleft-1" style="list-style-type: decimal;"><li><p>A1、A2 是数据应用</p></li><li><p>D1、D2等都是数据产品</p></li><li><p>应用订阅数据产品并生产数据产品</p></li></ol><p>请注意,用于生成、存储和查询实际数据的实际技术可能会有所不同——数据网格甚至没有规定。它也与托管不同域的位置无关。一些域可以在本地,而其他域可以在云中。</p><section data-mpa-template="t" mpa-from-tpl="t"><h2 mpa-is-content="t" style="margin: 5px;padding-right: 10px;padding-left: 10px;font-weight: bold;max-width: 100%;font-family: -apple-system-font, BlinkMacSystemFont, "Helvetica Neue", "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-variant-numeric: normal;font-variant-east-asian: normal;letter-spacing: 0.544px;text-align: justify;white-space: normal;widows: 1;border-left: 5px solid rgb(2, 30, 170);line-height: 32px;background-color: rgb(255, 255, 255);border-top-color: rgb(2, 30, 170);border-bottom-color: rgb(2, 30, 170);border-right-color: rgb(2, 30, 170);box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="color:#888888;border-color: rgb(2, 30, 170);"><span style="color: rgb(2, 30, 170);border-color: rgb(2, 30, 170);" mpa-is-content="t">数据编织的定义</span></span></h2></section><p><span style="font-family: mp-quote, -apple-system-font, BlinkMacSystemFont, "Helvetica Neue", "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;">实现数据网格的一种方法是在数据编织框架内进行技术选择。Data Fabric 是一组技术,用于随时随地(在本地或云中)摄取、存储、处理和管理数据。数据网格是关于人、流程和技术的。数据编织可以看作是数据网格的技术部分。数据网格中的概念映射到数据编织实现中的真实世界工件。</span></p><p style="margin-bottom: 0em;"><img class="rich_pages wxw-img" data-backh="258" data-backw="578" data-ratio="0.4464579901153213" data-src="https://mmbiz.qpic.cn/mmbiz_png/9IZsf6icv8GqHaoVZT34A8VKiag5x1aO6OHKoL7UFPicnx8r7sxkQ1kbuuMkE3wLlXZHIx3ljn2cpiaz8u12HO5MAg/640?wx_fmt=png" data-type="png" data-w="607" style="width: 100%; height: auto; display: none;" data-index="3" data-origin-display="" _width="100%" crossorigin="anonymous" alt="图片" src="https://upload-images.jianshu.io/upload_images/13265002-a3ee4d68e1c7a03f.png"><span class="js_img_placeholder wx_widget_placeholder" data-src="https://mmbiz.qpic.cn/mmbiz_png/9IZsf6icv8GqHaoVZT34A8VKiag5x1aO6OHKoL7UFPicnx8r7sxkQ1kbuuMkE3wLlXZHIx3ljn2cpiaz8u12HO5MAg/640?wx_fmt=png" data-index="3" style="width: 677px !important; height: 302.252px !important;"><span class="weui-primary-loading"><span class=""></span></span></span></p><p>图 3. 映射到数据编织实体的数据网格概念</p><p>图 2 中数据网格实现的相应数据编织示例如图 4 所示。 </p><p style="margin-bottom: 0em;"><img class="rich_pages wxw-img" data-backh="371" data-backw="578" data-ratio="0.642504118616145" data-src="https://mmbiz.qpic.cn/mmbiz_png/9IZsf6icv8GqHaoVZT34A8VKiag5x1aO6OrdgNZNkujcbzJqq8emBYic4KZrhibHQ8ib8nQDC0gfX5M9nsq30WQrwLg/640?wx_fmt=png" data-type="png" data-w="607" style="width: 100%; height: auto; display: none;" data-index="4" data-origin-display="" _width="100%" crossorigin="anonymous" alt="图片" src="https://upload-images.jianshu.io/upload_images/13265002-b1a2166a6704908f.png"><span class="js_img_placeholder wx_widget_placeholder" data-src="https://mmbiz.qpic.cn/mmbiz_png/9IZsf6icv8GqHaoVZT34A8VKiag5x1aO6OrdgNZNkujcbzJqq8emBYic4KZrhibHQ8ib8nQDC0gfX5M9nsq30WQrwLg/640?wx_fmt=png" data-index="4" style="width: 677px !important; height: 434.975px !important;"><span class="weui-primary-loading"><span class=""></span></span></span></p><p>图 4. 对应于图 2 中数据网格示例的数据编织实现</p><p>在数据编织实现中,数据网格中的概念映射到数据架构中的真实世界工件。对应于图 4 中的数据网格示例,</p><ol class="list-paddingleft-1" style="list-style-type: decimal;"><li><p>D1、D2 是数据仓库中的表</p></li><li><p>A1 是一个具有摄取和 SQL 语句管道的应用程序,经过精心编排以按特定计划运行</p></li><li><p>A2 是作为 Spark 作业构建的应用程序,经过精心编排,可在某些数据出现时运行</p></li></ol><p>仅当订阅跨形态或区域时,订阅才能实现为相反方向的复制。透明复制是数据编织中的一项关键功能,它允许在将要使用数据的位置提供数据。底层复制引擎可以将源(生成和更新时)表的更改复制到所有消费者(订阅了数据)。 </p><section data-mpa-template="t" mpa-from-tpl="t"><h2 mpa-is-content="t" style="margin: 5px;padding-right: 10px;padding-left: 10px;font-weight: bold;max-width: 100%;font-family: -apple-system-font, BlinkMacSystemFont, "Helvetica Neue", "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-variant-numeric: normal;font-variant-east-asian: normal;letter-spacing: 0.544px;text-align: justify;white-space: normal;widows: 1;border-left: 5px solid rgb(2, 30, 170);line-height: 32px;background-color: rgb(255, 255, 255);border-top-color: rgb(2, 30, 170);border-bottom-color: rgb(2, 30, 170);border-right-color: rgb(2, 30, 170);box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="color:#888888;border-color: rgb(2, 30, 170);"><span style="color: rgb(2, 30, 170);border-color: rgb(2, 30, 170);" mpa-is-content="t">定义的混合数据架构</span></span></h2></section><p><span style="font-family: mp-quote, -apple-system-font, BlinkMacSystemFont, "Helvetica Neue", "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;">“现代数据”的想法是,那些不是在云中诞生或无法完全迁移到云的公司都是在吹捧混合架构的公司。但即使所有计算和存储资源的最终目的地是云,也将有一个不平凡的过渡期。公司将不得不花时间将数据和工作负载迁移到云端。在此期间,根据定义,它们将具有混合架构。因此,业界的要求很明确:</span><strong style="font-family: mp-quote, -apple-system-font, BlinkMacSystemFont, "Helvetica Neue", "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;">必须使混合数据架构变得可行——并且它们将继续存在(在可预见的未来)。</strong></p><p>例如,销售团队可能正在犹他州本地数据中心的 teradata 仓库中生成销售数据。然后,研发团队希望将销售数据与他们在 Azure 的 us-west-2 区域的 Snowflake 数据仓库中可能拥有的其他数据集相结合。混合架构应允许研发团队订阅销售数据,并在源数据更改时自动复制数据。</p><p>混合架构是用于摄取、存储、处理、管理和可视化不同形式因素的数据的技术选择——在本地以及多个云中,可能会根据需要复制数据。因此,混合架构可以被认为是跨多种形式因素的数据编织的实现。</p><p>混合架构可以允许数据生产者在数据中心的本地数据仓库中生成数据和表,并允许云中的数据消费者订阅这些表。对于在云中生成并在本地数据中心使用的数据集,也会发生同样的情况。</p><p>Cloudera 一直致力于混合数据架构。您可以在https://blog.cloudera.com/the-future-is-hybrid-data-embrace-it/阅读更多相关信息。通过 Innovation_feedback@cloudera.com 与我们联系,了解我们如何帮助您利用数据架构之旅中的最新数据趋势,成为数据驱动型组织。</p><section data-mpa-template="t" mpa-from-tpl="t"><h2 mpa-is-content="t" style="margin: 5px;padding-right: 10px;padding-left: 10px;font-weight: bold;max-width: 100%;font-family: -apple-system-font, BlinkMacSystemFont, "Helvetica Neue", "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-variant-numeric: normal;font-variant-east-asian: normal;letter-spacing: 0.544px;text-align: justify;white-space: normal;widows: 1;border-left: 5px solid rgb(2, 30, 170);line-height: 32px;background-color: rgb(255, 255, 255);border-top-color: rgb(2, 30, 170);border-bottom-color: rgb(2, 30, 170);border-right-color: rgb(2, 30, 170);box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="color:#888888;border-color: rgb(2, 30, 170);"><span style="color: rgb(2, 30, 170);border-color: rgb(2, 30, 170);" mpa-is-content="t">资源</span></span></h2></section><p><strong style="color: rgb(0, 122, 170);font-size: 18px;font-family: mp-quote, -apple-system-font, BlinkMacSystemFont, "Helvetica Neue", "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;">什么是数据网格合约?</strong></p><p>我们相信<strong>元数据——无论是静态的还是动态的——必须在所有数据产品中保持一致,</strong>即元数据的数据模型必须是一致的,而与使用的底层技术无关。该数据模型也是在数据的生产者和消费者之间定义的<strong>合约结构。</strong> 消费者订阅数据生产者生产的数据产品。</p><p style=""><span style="font-size: 18px;font-size: 18px;color: rgb(0, 122, 170);"><strong>混合架构的不同定义是什么?</strong></span></p><p>混合数据架构有很多定义。混合有严格的定义,能够在不同位置之间自动无缝迁移数据工作负载,例如从本地部署到任何云,或从一个云到另一个云。但目前尚不清楚该定义是否真的是市场所需要的。肯定需要更多的客户开发,但公司更有可能想要一个可能更简单的定义,其中混合允许公司不受特定技术或数据生产和消费地点的限制。</p><h2><span style="font-size: 18px;"><strong><span style="font-size: 18px;color: rgb(0, 122, 170);">还有什么类似于数据网格的?</span></strong></span></h2><p>数据网格和目前正在构建的数据交换之间存在一些思想重叠——如Snowflake数据交换、亚马逊数据交换等。这些交易所纯粹被视为生产者/消费者市场,通常没有与之关联的查询功能。目前尚不清楚这将如何在未来发挥作用。</p><p>数据网格也与数据虚拟化有关,因为通过数据虚拟化,人们可以在他们自己的查询引擎中无缝地查询其他人生成的数据。Starburst with Trino 现在正在这样做。Denodo 是数据虚拟化领域较为成熟的参与者之一。具有 Spectrum 和 Athena 的 Amazon Redshift 以及能够从 RDS 进行查询的其他示例。</p><p>早在 2011 年,Facebook 在构建足够大的集群以容纳所有数据时遇到了问题。解决这个问题的项目不仅解决了规模问题,还为数据的生产者/消费者模型提供了蓝图。团队将拥有一个“命名空间/数据库”(域)以及该命名空间中的所有数据。然后,团队将在其命名空间中“发布”特定表作为可公开引用的。然后其他团队可以订阅这些表,并获得一个近乎实时的复制表,该表可与他们自己的表一起查询。Hive 表链接( EP2767913A1)是该项目的成果之一。</p><p>原文作者:Raghotham Murthy</p><p>原文链接:https://blog.cloudera.com/the-top-three-entangled-trends-in-data-architectures-data-mesh-data-fabric-and-hybrid-architectures/</p><blockquote><p>本文使用 <a href="https://www.jianshu.com/p/5709df6fb58d" class="internal">文章同步助手</a> 同步</p></blockquote>

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,839评论 6 482
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,543评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 153,116评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,371评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,384评论 5 374
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,111评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,416评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,053评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,558评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,007评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,117评论 1 334
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,756评论 4 324
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,324评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,315评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,539评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,578评论 2 355
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,877评论 2 345

推荐阅读更多精彩内容