数据存储的基本概念
传统的存储数据方式,是把数据放到一个文件中,存放在磁盘上。当程序要用时,cpu会把数据加载到内核内存,然后内核内存将数据复制到程序内存。程序进行调用
当数据文件很大时,几百个G。此时硬件资源不足以支持调用整个数据文件。而且我们的程序可能就调用整个数据中的一行数据。此时我们就需要一个特定的数据存储系统,才帮助我们的应用程序来取得它调用的一条数据。即数据存储系统
MySQL 结构
MySQL是一个关系型的数据存储系统。主要存储关系型数据,有主键,外键,唯一键的约束,有事务
MySQL是一整套的系统。需要给前端提供一个socket远程连接的端口,
当要存储或者查询数据时,它需要给外界提供一个接口。供其查询和修改,即就是SQL语句。MySQL的数据也要以文件的方式存储在磁盘上,它需要个中间件。即把磁盘上的文件可以以最快和最节省资源,最优的方式提供给前端程序。也要把前端程序,要存储的数据,存储到磁盘上。因此,此中间件称为存储引擎
Socket: 提供远程连接
SQL语句查询接口: 跟linux的bash差不多,它是一个解释器来识别我们输入的SQL语句,是否符合语法,并调用MySQL的函数来进行执行。如果写了一堆SQL语句,MySQL称为存储过程。而在bash中称为脚本
存储引擎: 相当于中间件,把程序要存储的数据进行转换,并写到磁盘上。把磁盘上的数据,进行转换展示给前端程序
MySQL 如何工作
如果MySQL中存在大量数据,如何高效的提供服务?
MySQL采用索引方式来提供服务。索引就是,把MySQL中的每一行数据,提取一部分,单独的放到一张表中。当程序查询时,首先查询索引。找到索引,然后去找对应的数据。几次查询即可找到数据。无需遍历整个表。它采用的是Btree数索引,一般会有2次索引头遍历。根据实际情况去。索引上面再加索引
MySQL索引相当于字典前面的笔画查询
优点: 能够加速查询,增加查询效率
缺点:每进行数据的一次修改,就相当于修改了索引和数据两块区域。即增加了IO,MySQL索引是按照顺序排序。如果修改的数据,打乱了索引的顺序,还需要对索引进行重新排序
如果数据量庞大,我们还要对数据库进行垂直分库和水平分表
因为MySQL是关系型数据库,有主键,外键,唯一键等各种约束。如果插入一条数据,MySQL首先会进行查询。看插入的数据,存不存在主键冲突,如果不存在则插入。相对应的修改和删除也是如此。从广义来说,无论MySQL做
垂直分库: 拆分数据库实例,把一个实例上的多个数据库,分别部署到多个实例上
水平分表: 把一张大表,进行分片(shards)。
一般水平分表后,数据库前面会有一个路由机器,来调度前面的请求,进行修改数据库。如果查询的话,水平分片后表不会满足。因为查询会查询每一个分片,然后对每一个分片查询的结果再次进行聚合查询。非常浪费性能和时间。一般此时,系统中会有专门的大数据系统来处理查询操作。
水平分表,一般是前端路由器,跟据某一个字段,对分片的数量进行hash计算,然后确定在哪一个分片上进行修改操作。水平分表,是直接把表的数据,进行分片。插入不是按照后端服务器的数量进行hash计算取模,因为后端服务器的数量的增加和修改,都会直接造hash 取模的结果不一样,从而要重新进行数据分布。所以直接按照分片数量进行取模,当增加或者减少后端数据库服务器时,只需要动态把分片复制到相对应的服务器上即可(即就是排干模式)。冗余的话,也是对分片进行冗余。此功能MySQL需要借助第三方插件完成,而NoSQL则原生支持