E-R模型又叫实体-关系图。
简单属性:不可再分的属性;
复合属性:还可以再分的属性;
派生属性:通过计算可以得出的属性。
关系有1对1,1对多,多对多。
带下划线的代表主键。
扩展知识:弱实体和特殊化,这两种都是实体,表现形式如下图左侧所示。
表示多的一端尽量用*表示,如果要用M表示,当表示多对多的时候两端的字母不能一样,如:M:M这种是不合法的,应该写成M:N。
最终得到的逻辑设计就是E-R模型。
命名冲突不一定要解决,如异名同义这种情况,同时存在经理编号和员工编号,他们都表示编号,但可以不进行统一,因为进行统一后,有时反而不太好用。
U代表属性集合,R代表关系模式的名字。体现在库表中,R代表表名,U代表列名。
1:1关系可以写在任意一端;1:n关系需要放在n这边的表中;n:m,只能单独做关系模式。
差:以左边的为主,减去右边的内容。比如下图中S1-S2,就是从S1表中减去S2的内容。
1=2和1=‘2’意义不一样,1=2代表第一列和第二列做对比,1=‘2’代表第一列和‘2’这个值做对比。
select语句:select Sno,Sname from S1 where Sno = ‘No0001’;其中Sno,Sname相当于对S1做投影,where之后的内容相当于对S1做选择。
先做选择再进行笛卡尔积然后再投影效率会比较高,因为如果先用笛卡尔积选择范围会很大。
数据冗余:下图中后三列就存在数据冗余。
更新异常:如对下图更新计算机系的名称时,会有遗漏就是更新异常。
插入异常:下图中想插入一个学生但因为不知道系的信息或者想插入一个系但没有学生的信息都会导致插入异常。
删除异常:比如删下图中的赵六,但会把信息系这个信息也会删掉,就会导致删除异常。
X是决定因子。
下图中A→B,AC→B,C就是冗余键;客户编号和身份证号都是候选键,但(客户编号,身份证号)这个组合键就存在冗余,不是候选键。
下图中A的入度为0,出度为2;B入度为1,出度为0;C入度为1,出度为0.
AD或者(A,D)这两种形式代表的是A,D组合键;A和B代表的是A,B两个候选键。
主属性:候选键都是主属性。
非主属性:主属性之外的所有属性都是非主属性。
对于规范化问题一般是通过拆表来解决。
下图中T->J中没有包含候选键所以不满足BC范式。
答案是C,D,A
有冗余依赖先去掉冗余依赖再判断。
下图两个都保持了函数依赖。
只要出现一行全部✔的就说明是无损分解。
第一个是无损分解,第二个是有损分解。
原子性:事务要么就做要么就不做,不能只做一半。
一致性:事务完成之后要保持一致性的结果。
隔离性:事务之间不能相互影响,不论谁先做都不能相互影响,比如A事务的结果不能影响B事务。
持续性:事务一旦完成会在数据库中持续保存。
加锁的对象要尽量小,加锁的时间要尽量短,因为加完锁之后这个对象就停了。
没有直接写释放对A的写锁,因为ROLLBACK就有释放锁的功能。
读锁是3级封锁协议,事务完成之后才会释放。
审计相当于日志的功能。
备份的时候,差备的效率比增备低。
还原的时候,差备的效率比增备高。以增备还原,还原顺序是A0》A1》A2;以差备还原,还原顺序是A0》A1+A2+A3。
日志文件中要记录所有操作及修改前和修改后的数据,commit之后才算正式提交,要及时commit。
所有的恢复都是根据日志来,具体是撤销还是重做看日志,做完的就重做,没有做完的就撤销。
数据库备份非常重要!!!
集中式数据库放在一台服务器上,分布式数据库存放在多台服务机。
关系数据库模式:提高性能的扩展方式主要以加内存,更换CPU这些向上扩展的方式。(向上垂直扩展)
NoSQL模式:提高性能的扩展方式主要以集群,向外扩展的方式。(水平扩展)
反规范化用牺牲空间的方式,提高查询效率。
分割表:把经常查询的部分当作一个表,是一个新表。提高查询效率
表分区:把一张表分成多块放到一台服务器的不同磁盘上
内存数据库缺点:
1、对内存要求比较高,一般要求1TB;
2、要将数据定期放到外存,要定期备份,因为一旦重启,内存上的数据就会被清掉,造成数据丢失。
如果用内存数据库进行集群,出错概率会提高,维护成本比较高。
数据库性能优化:
1、对于常用的查询可以规划成一个表。
2、索引也不能过多,过多会出现索引冲突和空值的情况下会导致索引失效。
3、SQL优化:尽量用连接不用笛卡尔积;尽量把子表缩小,把条件放在前面。
大数据深度分析结果用于决策。
对于数据库的问题主要是针对存储的空间和查询的时间。