2、GB/T 35589-2017 信息技术 大数据技术参考模型
(1)了解本标准的范围、术语和定义,熟悉大数据参考架构的目的、目标,熟悉大数据参考架构及其各组成部分。
1.范围
本标准描述了大数据的参考架构,包括角色、活动和功能组件以及它们之间的关系。
本标准适用于对大数据复杂操作的理解,可为大数据系列标准的制定提供基础。
2.规范性引用文件
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版木适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T 35295 信息技术 大数据 术语
3.术语和定义
GB/T 35295 界定的以及下列术语和定义适用于本文件。
3.1大数据参考架构 big data reference architecture
一种用作工具以便于对大数据内在的要求、设计结构和运行进行开放性探讨的高层概念模型。
注:比较普遍认同的大数据参考架构一般包含系统协调者、数据提供者、大数据应用提供者、大数据框架提供者和
数据消费者等5个逻辑功能构件。
3.2 系统协调者 system orchestrator
大数据参考架构中的一种逻辑功能构件,定义所需的数据应用活动并将它们整合到可运行的垂直系统中。
注:系统协调者可以是人、软件或这二者。
3.3 数据提供者 data provider
大数据参考架构中的一种逻辑功能构件,将新的数据或信息引人大数据系统。
3.4 大数据应用提供者 big data application provider
大数据参考架构中的一种逻辑功能构件,执行数据生命周期操作,以满足系统协调者定义的需求以及安全和隐私保护需求。
3.5 大数据框架提供者 bis data framework provider
大数据参考架构中的一种逻辑功能构件,建立一种计算框架,在此框架中执行转换应用,同时保护数据完整性和隐私。
3.6 数据消费者 data consumer
大数据参考架构中的一种逻辑功能构件,是使用大数据应用提供者提供的应用的末端用户或其他系统。
3.7 数据科学家 data scientist
数据科学专业人员;他们具有足够的业务需求管理机制方面的知识、领城知识、分析技能以及用于管理数据生命周期中每个阶段的端到端数据过程的软件和系统工程知识。
4.缩略语
下列缩略语适用于本文件。
BDRA:大数据参考架构(Big Data Reference Architecture)
POSIX:可移植操作系统接口 (Portable Operating System Interface)
5.大数据参考架构的目的和目标
本标准中的 BDRA提供了一个体系架构。用于有效描述大数据角色、活动和功能组件。
BDRA 目的包括:
- 为各种利益相关者提供一种交流大数据技术的通用语言;
- 鼓励大数据实践者遵守通用标准、规范和模式;
- 为解决相似的问题集提供一致的技术实现方法。
BDRA 的目的是为了方便对大数据复杂性操作的认识。它不代表一个特定的大数据系统的系统架构;相反,它是一种工具,使用通用的架构来描述、讨论和开发特定系统的架构。
BDRA 是一个通用的大数据系统概念模型,对于讨论大数据需求、结构和操作,它是一种有效的工具。该模型不依赖于任何特定的产品和服务供应商,也不定义规范的解决方案。
BDRA 支持以下标准化目标:
- 在一个与供应商和技术无关的大数据高层概念模型语境下,增进对大数据构件、处理过程及系统的理解;
- 为政府部门、相关机构和其他用户在理解、讨论、分类和比较大数据解决方案的过程中提供技术参考;
- 促进对大数据互操作性、可移植性、可重用性和可扩展性的备选标准的分析。
6.大数据参考架构概述
本标准定义的 BDRA 为大数据标准化提供了基本参考点,为大数据系统的基本概念和原理提供了
一个总体架构,见图1。
BDRA 围绕代表大数据价值链的两个维度组织展开:信息价值链(水平轴)和信息技术价值链(垂直轴)。信息价值链表现大数据作为一种数据科学方法对从数据到知识的处理过程中所实现的信息流价值。信息价值链的校心价值通过数据收集、预处理、分析、可视化和访问等活动实现。信息技术价值链表现大数据作为一种新兴的数据应用范式对信息技术产生的新需求所带来的价值。信息技术价值链的核心价值通过为大数据应用提供存放和运行大数据的网络 、基础设施、平台、应用工具以及其他信息技术服务实现。大数据应用提供者位于两个价值链的交叉点上,大数据分析及其实现为两个价值链上的大数据利益相关者提供特定价值。
BDRA提供了一个构件层级分类体系,用于描述BDRA 中的逻辑构件以及定义逻辑构件的分类。
BDRA 中的逻辑构件被划分为 3个层级,从高到低依次为角色、活动和组件。最顶层级的逻辑构件是代表大数据系统中存在的5个角色,包括系统协调者、数据提供者、大数据应用提供者、大数据框架提供者、数据消费者5个角色。另外两个非常重要的逻辑构件是安全和隐私以及管理,它们为大数据系统的5个角色提供服务和功能。第二层级的逻辑构件是每个角色执行的活动。第三层级的逻辑构件是执行每个活动需要的功能组件。
该架构可以用于表示由多个大数据系统组成的堆叠式或链式系统,其中一个系统的数据消费者可以作为后面一个系统的数据提供者。
该架构持各种商业环境,包括紧密集成的企业系统和松散耦合的垂直行业,有助于理解大数据系统如何补充并有别于已有的分析、商业智能、数据库等传统的数据应用系统。
7. 大数据参考架构的组成
7.1 系统协调者
系统协调者职责在于规范和集成各类所需的数据应用活动,以构建一个可运行的垂直系统。
系统协调者具体功能包括:配置和管理 BDRA 中其他组件执行一个或多个工作负载,以确保各工作项能正常运行。负责为其他组件分配对应的物理或虛拟节点并对各组件的运行情况进行监控,并通过动态调配资源等方式来确保各组件的服务质量水平达到所需要求。
系统协调者的功能可由管理员、软件或二者的组合以集中式或分布式的形式实现。
7.2 数据提供者
数据提供者的职责是将数据和信息引人到大数据系统中,供大数据系统发现、访问和转换。
其具体活动包括:
- 收集、固化数据。
- 创建描述数据源的元数据。
- 发布信息的可用性和访问方法。
- 确保数据传输质量。
数据提供者和大数据应用提供者的接口涉及3个阶段:开始、数据传输和终止。
7.3 大数据应用提供者
7.3.1 概述
大数据应用提供者的职责是通过在数据生命周期中执行的一组特定操作,来满足由系统协调者规定的要求,以及安全性、隐私性要求。
大数据应用提供者包括收集、预处理、分析、可视化和访问5个活动。
7.3.2 收集
负责处理与数据提供者的接口和数据引人。
7.3.3 预处理
包括数据验证、清洗、标准化、格式化和存储。
7.3.4 分析
基于数据科学家的需求或垂直应用的需求,确定处理数据的算法水产生新的分析,解决技术目标,从而实现从数据中提取知识的技术。
7.3.5 可视化
提供给最终的数据消费者处理中的数据元素和呈现分析功能的输出。
7.3.6 访问
与可视化和分析功能交互,响应应用程序请求,通过使用处理和平台框架来检索数据,并响应数据消费者请求。
7.4 大数据框架提供者
7.4.1 概述
大数据框架提供者的职责是为大数据应用提供者在创建具体应用时提供使用的资源和服务。
大数据框架提供者包括基础设施、平台、处理框架、信息交互/通信和资源管理5个活动。
7.4.2 基础设施
为大数据系统中的所有其他要素提供必要的资源,这些资源是由一些物理资源的组合构成,这些物理资源可以控制/支持相似的虛拟资源。这些资源分为下面几类:
- 网络:从一个资源向另一个资源传输数据的资源。
- 计算:用于执行和保持其他组件的软件的实际处理器和存储器。
- 存储:大数据系统中保存数据的资源。
- 环境:在建立大数据实例的时候必须考虑的物理厂房资源(电力、制冷等)。
7.4.3 平台
包含逻辑数据的组织和分布,支持文件系统方式存储和素引存储方法:
- 文件系统:实施某种级别的 POSIX 标准以获取权限,进行相关的文件操作。
- 素引存储:无需扫描整个数据集,便可以迅速定位数据的具体要素。
7.4.4 处理框架
提供必要的基础设施软件以支持实现应用程序能够满足数据数量、速度和多样性的处理。包括批处理、流处理,以及两者的数据交换与数据操作。
7.4.5 信息交互/通信
包含点对点传输和存储转发两种通信模型。在点对点传输模型中,发送者通过信道直接将所传输的信息发送给接收者;而在后者中,发送者会将信息先发送给中间实体,然后中间实体再逐条转发给接收者。点对点传输模型还包括多播这种特殊的通信模式,在多播中,一个发送者可将信息发送给多个而不是一个接收者。
7.4.6 资源管理
计算、存储及实现两者互联互通的网络连接管理。主要日标是实现分布式的、弹性的资源调配,具体包括对存储资源的管理和对计算资源的管理。
7.5 数据消费者
通过调用大数据应用提供者提供的接口按需访问信息,与其产生可视的,事后可查的交互。
7.6 安全和隐私
在安全和隐私管理模块。通过不同的技术手段和安全措施,构建大数据平台安全防护体系,实现覆盖硬件、软件和上层应用的安全保护,从网络安全、主机安全、应用安全、数据安全四个方面来保证大数据平台的安全性:
- 网络安全:通过网络安全技术,保证数据处理、存储安全和维护正常运行。
- 主机安全:通过对集群内节点的操作系统安全加固等手段保证节点正常运行。
- 应用安全:具有身份签别和认证、用户和权限管理、数据库加固、用户口令管理、审计控制等安全措施,实施合法用户合理访问资源的安全策略。
- 数据安全:从集群容灾、备份、数据完整性、数据分角色存储、数据访问控制等方面保证用户数据的安全。
同时应提供一个合理的灾备框架,提升灾备恢复能力,实现数据的实时异地容灾功能,跨数据中心数据备份。
隐私保护主要是在不暴露用户敏感信息的前提下进行有效的数据挖掘;根据需要保护的内容不同,可分为位置隐私保护、标识符匿名保护和连接关系匿名保护等。
7.7 管理
提供大规模集群统一的运维管理系统,能够对包括数据中心、基础硬件、平台软件和应用软件进行集中运维、统一管理,实现安装部署、参数配置、监控、告警、用户管理、权限管理、审计、服务管理、健康检查、问题定位、升级和补丁等功能。
具有自动化运维的能力,通过对名个数据中心的资源进行统一管理,合理的分配和调度业务所需要的资源,做到自动化按需分配。同时提供对多个数据中心的信息技术基础设施进行集中运维的能力,自动化监控数据中心内各种信息技术设备的事件、告警、性能,实现从业务纬度来进行运维的能力。
对主管理系统节点及所有业务组件中心管理节点实现高可靠性的双机机制,采用主备或负荷分担配置,避免单点故障场景对系统可靠性的影响。