笔记内容参考自《Database System Concept 6th Edition》(数据库系统概念 第六版)
数据库笔记(数据基本概念)
1. 数据抽象(Data Abstract)
数据抽象分为三种不同的抽象,它们分别是:
- 物理层级(Physical Level):最底层的数据抽象,该级别的抽象描述数据是如何实际被存储的。
- 逻辑层级(Logical Level):该层抽象描述了什么数据被存储以及这些数据之间的关系。它包含了少许简单的关系性结构,但外部用户无需了解该结构。
- 视图层级(View Level):最高层的抽象,它简化了逻辑层级,用于与用户进行交流。同一个数据库可以有多个视图层级。
2. 实例(Instance)
数据库实例是数据库在特定事件中存储的数据集合。
3. 模式(Schema)
数据库的模式是数据库的总体设计,以数据抽象作为分类,数据库模式可分为:物理模式(Physical Schema)、逻辑模式(Logical Schema)、子模式(Subschemas)。这三种模式对应的数据抽象层级分别为物理层级、逻辑层级、视图层级。
4. 数据模型(Data Model)
数据模型是一系列用于描述数据概念工具,包括数据关系、数据语意和一致性约束。数据模型提供一种描述物理层级、逻辑层级、视图层级的数据库设计的方法。数据模型主要有一下几种:
- 关系数据模型(Relational Data Model):该模型使用一系列表格来描述数据,每一个表格都有数个唯一表示的列。这些表格被称为关系(Relation)。大多数的数据库系统都是基于关系模型。
- 实体关系数据模型(Entity-Relationship Data Model):简称E-R模型。该模型通过描述现实中的实体对象及其关系来描述数据。该模型多用于数据库的设计。
- 基于对象的数据模型(Object-Based Data Model):面向对象编程语言的流行导致该数据模型的出现。它可被视为E-R模型加以面向对象特性的数据模型。
- 半结构化数据模型(Semistructured Data Model):该模型与关系数据模型不同,它允许同类数据拥有不同的属性。其典型应用就是XML(Extensible Markup Language)。
5. 数据操纵语言(Data-Manipulation Language)
数据操纵语言(DML)是一种允许用户在一种适当的数据模型的组织下访问并操纵数据的语言。访问的操作包括以下内容:
- 数据库存储的信息的查询
- 新的数据库信息的插入
- 删除数据库信息
- 数据库存储信息的修改
这些操作可以大致分为两类:
- 过程化DML(Procedual DML):它要求用户描述获取什么数据和怎样获取这些数据。
- 声明性DML(Declarative DML):又称非过程化DML,与过程化DML一样,它要求用户描述获取什么数据但它不要求描述其获取方式。
请求获取数据库信息的语句被称为查询(Query),一些包含信息查询操作的DDL被称为查询语言(Query Language)。虽然有一些不正确,一般来说DML和查询语言可被视为同义词。
6. 数据定义语言(Data-definition Language)
使用一组定义语句来确定数据库模式的语言被称为数据定义语言(DDL)。其中一种特殊的用于确定存储结构以及访问方法的DDL被称为数据存储与定义语言(Data Storage and Definition Language)。它定义了数据库模式的实现细节,但它一般是隐藏的,不被用户所看见的。
在定义数据时,必须同时定义数据的一致性约束(Consistency Constrain)。存储的数据必须满足定义的一致性约束。一致性约束分为以下几类:
- 域约束(Domain Constraints):域约束要求存储的信息的属性的值必须是约束定义的数据类型的值。域约束是最主要的完整性约束,每当新的数据项被添加进数据库时该约束会被系统检查。
- 参照完整性(Referential Integrity):参照完整性要求两个存在关联的关系(表)中存在一个关系的一组属性与另一个关系的对应的一组关系中存在满射关系(数学解释)。即数据库中两个有关联关系的表中,一个表中的一组属性的值必须要在另一个表中的对应的一组属性中出现。该关系用于确定每个关系(表)的关联性。若两个关系的对应属性不满足参照完整性,两个关系之间的关联性不成立。
- 断言(Assertion):断言是任意数据库必须满足的条件。可以说域约束与参照性完整性都是特殊的断言。断言要求约束的描述必须要明确。在断言被创建时,数据库要进行验证操作,创建的断言不能违反已经创建的断言。
- 权限(Authorization):在多用户的数据库系统中,每一个用户对于不同数据的操作的权限不同。权限用于控制每一个用户对于特定数据的每一种操作的进行的权力。一般权限包括读权限(Read Authorization)、插入权限(Insert Authorization)、更新权限(Update Authorization)、删除权限(Delete Authorization)。这些权限也可以被组合赋予不同的用户。
另外,DDL执行的输出被称为数据字典(Data Dictionary),它包含数据的数据,即属性的列表——元数据(Metadata)。数据字典是一种特殊类型的表,只能被数据库系统本身访问和更新。当数据库读取或修改实际的数据时会首先查询数据字典。