1. 概念
关系模式的表示
在关系数据库中已经讲过,一个关系模式应当是一个五元组——R(U, D, DOM, F)
这里:
•关系名R是符号化的元组语义。
•U为一组属性。
•D为属性组中的属性所来自的域。
•DOM为属性到域的映射。
•F为属性组上的一组数据依赖。
由于D、DOM与模式设计关系不大,因此在本章中把关系模式看作一个三元组:R<U,F>
当且仅当U上的一个关系r满足F时,r称为关系模式R<U,F>的一个关系。
数据依赖
数据依赖是一个关系内部属性与属性之间的一种约束关系。这种约束关系是通过属性 间值的相等与否体现出来的数据间相关联系
-
函数依赖(FD)
定义:R(U)是属性集U上的关系模式,X、Y 是U 的子集。若对于R(U)的任意 一个可能的关系r,r中不可能存在两个元组在X上的属性值相等,而在Y上的属性值不等, 则称X函数确定Y或Y函数依赖于X,记作X→Y。
比如描述一个学生的关系,可以有学号 (Sno)、姓名(Sname)、系名(Sdept)等几个属性。由于一个学号只对应一个学生,一个学生只在一个系学习。因而当“学号”值确定之后,学生的姓名及所在系的值也就被唯一 地确定了。属性间的这种依赖关系类似于数学中的函数 f(x),自变量x确定之后,相应的函数值也就唯一地确定了。
非平凡的函数依赖:X→Y,但Y∉X,则称X→Y是非平凡的函数依赖。
平凡的函数依赖:X→Y,但Y∈X则称X→Y是平凡的函数依赖。
完全函数依赖:在R(U)中,如果X→Y,并且对于X的任何真子集X’都有
X’-/->Y,则称Y完全依赖于X;
部分函数依赖:如果X→Y,且X中存在一个真子集X’,使得X’→Y成立,则称Y部分依赖于X。
-
多值依赖(MVD)
在关系模式中,函数依赖不能表示属性值之间的一对多联系,这些属性之间有些虽然没有直接关系,但存在间接的关系,把没有直接联系、但有间接的联系称为多值依赖的数据依赖。
定义:设R(U)是属性集U上的一个关系模式。X,Y,Z是U的子集,并且Z=U-X-Y。关系模式R(U)中多值依赖X→→Y成立,当且仅当对R(U)的任一关系r,给定的一对(x,z)值有一组Y的值,这组值仅仅决定于x值而与z值无关。
多值依赖的性质
(1)多值依赖具有对称性。若X→→Y,则X→→Z,其中Z=U-X-Y。
(2)多值依赖具有传递性。即若X→→Y,Y→→Z,则X→→Z-Y。
(3)函数依赖可以看作是多值依赖的特殊情况。即若X→Y,则X→→Y,这是因为当X→Y时,对X的每一个值x,Y有一个确定的值y与之对应,所以X→→Y。
多值依赖与函数依赖的区别
(1) 多值依赖的有效性与属性集的范围有关。若X→→Y在U 上成立,则在W(XY⊆W⊆U) 上一定成立;反之则不然。
(2) 若函数依赖X→Y在R(U)上成立,则对于任何Y'⊂Y均有X→Y'成立。而多值依赖X→→Y若在R(U)上成立,却不能断言对于任何Y'⊂Y有X→→Y'成立。
X→→Y , 而Z=U-X-Y=φ,即Z 为空,则称X→→Y为平凡的多值依赖。即对于R(X, Y), 如果有成立,则X→→Y为平凡的多值依赖。
码
设K为R<U, F>中的属性或属性组合,若U完全函数依赖于K,则K为R的候选码。
如果U部分函数依赖于K,则K称为超码(Surpkey)。候选码是最小的超码,即K的任意一个真子集都不是候选码。
其他内容见关系数据库
2. 范式
一个低一级范式的关系模式通过模式分解(schema decomposition)可以转换为若干个高一级范式的关系模式 的集合,这种过程就叫规范化(normalization)。
1NF
作为一个二维表,关系要符合一个最基本的条件:每一个分量必须是不可分的数据项。 满足了这个条件的关系模式就属于第一范式。
不满足第一范式(1NF)的数据库就不是关系数据库。
2NF
若R∈1NF,且每一个非主属性完全函数依赖于任何一个候选码,则R∈2NF。
一个关系模式R不属于2NF,就会产生一下几个问题:
(1)插入异常。
(2)删除异常。
(3)修改复杂。
3NF
若R∈3NF,则每一个非主属性既不传递依赖于码,也不部分依赖于码。也就是说,如果属于3NF,则必有属于2NF。
BCNF
关系模式R<U,F>中,若每一个决定因素都包含码,则R∈BCNF。
一个满足BCNF的关系模式有:
•所有非主属性对每一个码都是完全函数依赖。
•所有主属性对每一个不包含它的码也是完全函数依赖。
•没有任何属性完全函数依赖于非码的任何一组属性。
4NF
关系模式R<U, F>∈1NF,如果对于R的每个非平凡多值依赖X→→Y(Y∉X),义都含有码,则称R<U, F>∈4NF。
4NF就是限制关系模式的属性之间不允许有非平凡且非函数依赖的多值依赖。因为根据定义,对于每一个非平凡的多值依赖X→→Y,X都含有候选码,于是就有X→Y,所以 4NF所允许的非平凡的多值依赖实际上是函数依赖。
规范化的基本思想是逐步消除数据依赖中不合适的部分,使模式中的各关系模式达到 某种程度的“分离”,即“一事一地”的模式设计原则。