本节概要
数据工程是信息系统的基础工程。围绕数据的生命周期,规范数据从产生到应用的全过程,目标是为信息系统的运行提供可靠的数据保障和服务,为信息系统之间的数据共享提供安全、高效的支撑环境,为信息系统实现互连、互通、互操作提供有力的数据支撑。它是实现这些目标的一系列技术、方法和工程建设活动的总称。
数据建模
数据建模是对现实世界中具体的人、物、活动和概念进行抽象、表示和处理,变成计算机可处理的数据,也就是把现实世界中的数据从现实世界抽象到信息世界和计算机世界。数据建模主要研究如何运用关系数据库设计理论,利用数据建模工具,建立既能正确反映客观世界,又便于计算机处理的数据模型。
数据模型
根据模型的应用目的不同,数据模型分为三类:
- 概念模型
也称信息模型,它是按用户的观点来对数据和信息建模,也就是说,把现实世界中的客观对象抽象为某一种信息结构,这种信息结构不依赖于具体的计算机系统,也不对应某个具体的 DBMS(数据库管理系统),它是概念级别的模型。
- 逻辑模型
逻辑模型是在概念模型的基础上确定模型的数据结构,目前主要的数据结构有层次模型、网状模型、关系模型、面向对象模型和对象关系模型。其中,关系模型成为目前最重要的一种逻辑数据模型。
主键是能确定一条记录的唯一标识,外键用于与另一张表的关联。是能确定另一张表记录的字段,用于保持数据的一致性。比如,A 表中的一个字段,是 B 表的主键,那他就可以是 A 表的外键。
关系数据模型的数据操作主要包括查询、插入、删除和更新数据,这些操作必须满足关系的完整性约束条件。关系的完整性约束包括三大类型:实体完整性、参照完整性和用户定义的完整性。其中,实体完整性、参照完整性是关系模型必须满足的完整性约束条件,用户定义的完整性是应用领域需要遵照的约束条件,体现了具体领域中的语义约束。
- 物理模型
物理数据模型是在逻辑数据模型的基础上,考虑各种具体的技术实现因素,进行数据库体系结构设计,真正实现数据在数据库中的存放。物理数据模型的内容包括确定所有的表和列,定义外键用于确定表之间的关系,基于性能的需求可能进行反规范化处理等内容。物理模型的基本元素包括表、字段、视图、索引、存储过程、触发器等。
数据建模过程
- 数据需求分析
分析用户对数据的需求与需要。 - 概念模型设计
把现实世界的具体需求抽象为信息世界的结构,将需求分析的结构抽象为概念模型的过程就是概念模型设计,其任务是确定实体和数据及其关联。 - 逻辑模型设计
逻辑模型设计的任务就是将概念模型中实体、属性和关联转换为关系模型结构中的关系模式。 - 物理模型设计
将数据模型转换为真正的数据库结构,考虑的主要问题包括命名、确定字段类型和编写必要的存储过程与触发器等。
数据标准化
数据标准化是实现数据共享的基础。数据标准化主要为复杂的信息表达、分类和定位建立相应的原则和规范,使其简单化、结构化和标准化,从而实现信息的可理解、可比较和可共享,为信息在异构系统之间实现语义互操作提供基础支撑。
元数据标准化
元数据是关于数据的数据(Data About Data)
在信息界,元数据被定义为提供关于信息资源或数据的一种结构化数据,是对信息资源的结构化描述。其实质是
用于描述信息资源或数据的内容、覆盖范围、质量、管理方式、数据的所有者、数据的提供方式等有关的信息。
信息对象
元数据描述的对象可以是单一的全文、目录、图像、数值型数据以及多媒体(声音、动态图像)等,也可以是多个单一资源组成的资源集合,或是这些资源的生产、加工、使用、管理、技术处理、保存等过程及其过程中产生的参数的描述。元数据体系
根据信息对象从产生到服务的生命周期、元数据描述和管理内容的不同以及元数据作用的不同,元数据可以分为多种类型。
数据元标准化
要求按共同约定的规则进行统一组织、分类和标识数据,规范统一数据的含义、表示方法和取值范围等,保证数据从产生的源头就具备一致性。
数据元
数据元是数据库、文件和数据交换的基本数据单元。数据库或文件由记录或元组等组成,而记录或元组则由数据元组成。数据元是在数据库或文件之间进行数据交换时的基本组成。由三部分组成:① 对象。② 特性。③ 表示。(单位)数据元提取
常用的数据元提取方法有两种:自上而下(Top-Down)提取法和自下而上(Down-Top)提取法。对于新建系统的数据元提取,一般适用“自上而下”的提取法。对于已建系统的数据元提取,一般适用这种自下而上提取法。-
数据元标准
数据模式标准化
数据模式是数据的概念、组成、结构和相互关系的总称。本质上,数据模式反映的是人类对客观世界的主观认知,而不同的人群对相同的客观世界的主观认知会有所不同,这就造成了在相同领域有不同的数据模式存在。数据模式的描述方式主要有图描述方法和数据字典方法。图描述方法常用的有 IDEFIX 方法和 UML 图,主要用来描述数据集中的实体和实体之间的相互关系;数据字典形式用来描述模型中的数据集、单个实体、属性的摘要信息。
数据分类与编码标准化
数据分类是根据内容的属性或特征,将数据按一定的原则和方法进行区分和归类,并建立起一定的分类体系和排列顺序。数据分类有分类对象和分类依据两个要素。数据编码是将事物或概念(编码对象)赋予具有一定规律和易于计算机、人识别处理的符号,形成代码元素集合。数据分类与编码标准化是简化信息交换、实现信息处理和信息资源共享的重要前提,是建
立各种信息管理系统的重要技术基础和信息保障依据。
数据标准化管理
- 确定数据需求。
本阶段将产生数据需求及相关的元数据、域值等文件。在确定数据需时应考虑现行的法规、政策,以及现行的数据标准。 - 制定数据标准。
本阶段要处理“确定数据需求”阶段提出的数据需求。如果现有的数据标准不能满足该数据需求,可以建议制定新的数据标准,也可建议修改或者封存已有数据标准。推荐的、新的或修改的数据标准记录于数据字典中。这个阶段将产生供审查和批准的成套建议。 - 批准数据标准。
本阶段的数据管理机构对提交的数据标准建议、现行数据标准的修改或封存建议进行审查。一经批准,该数据标准将扩充或修改数据模型。 - 实施数据标准。
本阶段涉及在各信息系统中实施和改进已批准的数据标准。
数据运维
数据开发利用的前提是通过合适的方式将数据保存到存储介质上,并能保证有效的访问,还要通过数据备份和容灾手段,保证数据的高可用性。数据质量管理是在数据产品的生产过程中,确定质量方针、目标和职责,并通过质量策划、质量控制、质量保证和质量改进,来实现所有管理职能的全部活动。
数据存储
- 数据临时或长期驻留的物理媒介;
- 保证数据完整安全存放和访问而采取的方式或行为。
数据备份
当前最常见的数据备份结构可以分为四种:
- DAS 备份结构
- 基于 LAN 的备份结构
- LAN-FREE 备份结构
- SERVER-FREE 备份结构
常见的备份策略主要有三种:
- 完全备份
- 差分备份
- 增量备份
数据容灾
容灾系统分为应用容灾和数据容灾两类。
- 应用容灾用于克服灾难对系统的影响,保证应用服务的完整、可靠和安全等一系列要求,使得用户在任何情况下都能得到正常的服务;
- 数据容灾则关注于保证用户数据的高可用性,在灾难发生时能够保证应用系统中的数据尽量少丢失或不丢失,使得应用系统能不间断地运行或尽快地恢复正常运行。
数据备份是数据容灾的基础。数据备份是数据高可用的最后一道防线,其目的是为了在系统数据崩溃时能够快速恢复数据。
衡量容灾系统有两个主要指标:RPO(Recovery Point Object)和 RTO(Recovery Time Object),其中 RPO 代表了当灾难发生时允许丢失的数据量;而 RTO 则代表了系统恢复的时间。
数据质量评价与控制
数据质量描述
分为数据质量定量元素和数据质量非定量元素。-
数据质量评价过程
数据质量评价方法
分为直接发与间接发。-
数据质量控制
- 前期控制:是在提交成果(即数据入库)之前对所获得的原始数据与完成的工作进行检查,进一步发现和改正错误。
- 过程控制:实施减少和消除误差和错误的实用技术和步骤,主要应用在建库过程中,用来对获得的数据在录入过程中进行属性的数据质量控制。
- 系统检测:在数据入库后进行系统检测,设计检测模板,利用检测程序进行系统自检。
- 精度评价:对入库属性数据用各种精度评价方法进行精度分析,为用户提供可靠的属性数据。
数据清理
数据清理也称数据清洗。从广义上讲,是将数据库精简以除去重复记录,并使剩余部分转换成符合标准的过程。而狭义上的数据清理是特指在构建数据仓库和实现数据挖掘前对数据源进行处理,使数据实现准确性、完整性、一致性、唯一性、适时性、有效性以适应后续操作的过程。从提高数据质量的角度出发,凡是有助于提高数据质量的处理过程,都可以认为是数据清理。
数据开发利用
数据只有得到充分的开发利用才能发挥出它的作用。通过数据集成、数据挖掘和数据服务(目录服务、查询服务、浏览和下载服务、数据分发服务)、数据可视化、信息检索等技术手段,帮助数据用户从数据资源中找到所需要的数据,并将数据以一定的方式展现出来,实现对数据的开发利用。
数据集成
数据集成就是将驻留在不同数据源中的数据进行整合,向用户提供统一的数据视图(一般称为全局模式),使得用户能以透明的方式访问数据。
数据挖掘
指从大量数据中提取或“挖掘”知识,与传统的数据分析不同:
- 两者分析对象的数据量有差异
- 两者运用的分析方法有差异
- 两者分析侧重有差异
- 两者成熟度不同
数据服务
- 数据目录服务
- 数据查询与浏览器下载服务
- 数据分发服务
数据可视化
信息检索
信息检索(Information Retrieval)有广义和狭义之分。广义的信息检索是指将信息按一定的方式组织和存储起来,然后根据用户需求查找出特定信息的技术,所以全称是信息存储与检索(Information Storage and Retrieval)。狭义的信息检索仅指用户查找特定信息这部分,即按照用户的检索需求,利用已有的检索工具或数据库,从中找出特定信息的过程。
主要方法:
- 全文检索
- 字段检索
- 基于内容的多媒体检索
- 数据挖掘
主要技术:
- 布尔逻辑检索技术
- 截词检索技术
- 临近检索技术
- 限定字段检索技术
- 限制检索技术
数据库安全
数据库安全是指保护数据库,防止不合法的使用所造成的数据泄露、更改或破坏。
数据库安全威胁
数据库安全对策
安全对策 | 说明 |
---|---|
防止非法的数据访问 | 这是数据库安全关键的需求之一 |
防止推导 | 推导指的是用户通过授权访问的数据,经过推导得出机密信息 |
保证数据库的完整性 | 保护数据不受非授权的修改 |
保证数据库的操作完整性 | 在并发事物中保证数据库中数据的逻辑一致性 |
保证数据的语义完整性 | 对数据值的约束通过完整性约束来描述 |
审计和日志 | 审计和日志需要面对颗粒度的问题 |
标识和认证 | 是授权、审计等的前提条件 |
机密数据管理 | -- |
多级保护 | 表示一个安全需求的集合 |
界限 | 防止程序之间出现非授权的信息传递 |
数据库安全机制
数据库安全机制是用于实现数据库的各种安全策略的功能集合,正是由这些安全机制来实现安全模型,进而实现保护数据库系统安全的目标。数据库安全机制包括用户的身份认证、存取控制、数据库加密、数据审计、推理控制等内容。