4 数据库
关系型数据库
关系型数据库,或称为 SQL 数据库,是结构化的,具有预定义的模式,类似于存储电话号码和地址的电话簿。SQL 数据库以行和列的形式存储数据。每一行包含关于单个实体的所有信息,每一列则保存所有分开的数据点。常见的 SQL 数据库包括:
- MySQL
- Oracle
- MS SQL Server
- SQLite
- PostgreSQL
- MariaDB
MySQL
开源关系型数据库管理系统(RDBMS),通过表格和行存储数据。它使用 SQL(结构化查询语言)来传输和访问数据,并通过[SQL 联接]简化查询和数据关联。它遵循客户端-服务器架构,并支持[多线程]。
PostgreSQL
也称为 Postgres,开源 RDBMS,以扩展性和 SQL 合规性为重点。Postgres 使用 SQL 来访问和操作数据库,并采用自己的 SQL 版本——PL/pgSQL,能够执行比 SQL 更复杂的查询。Postgres 的事务遵循 ACID 原则。由于它具有关系型结构,因此整个模式需要在创建时设计和配置。Postgres 数据库使用外键,从而实现数据规范化。
SQL 联接
使我们可以同时访问两个或更多表中的信息。它们还能保持数据库的规范化,从而确保数据冗余较低。当数据冗余较低时,我们在删除或更新记录时可以减少应用程序中的数据异常。
非关系型数据库
非关系型数据库,或称为 NoSQL 数据库,是非结构化的,具有动态模式,类似于文件夹,存储从地址和电话号码到 Facebook 点赞和在线购物偏好的信息。NoSQL 的类型多种多样,最常见的包括:
- 键值存储,例如 [Redis]和 DynamoDB
- 文档型数据库,例如 MongoDB 和 CouchDB
- 宽列型数据库,例如 Cassandra 和 HBase
- 图数据库,例如 Neo4J 和 InfiniteGraph
MongoDB
MongoDB 是一种 NoSQL、非关系型数据库管理系统(DBMS),使用文档而非表格或行来存储数据。这种数据模型使得在单次数据库操作中操纵相关数据成为可能。MongoDB 文档采用 JSON 类似的格式和受 JavaScript 支持的文件。文档字段可以变化,使得结构能够随着时间的推移轻松改变。
如何选择数据库
数据库是软件开发的基本组成部分,在构建各种规模和类型的项目时起到至关重要的作用。选择数据库结构时,需要考虑速度、可靠性和准确性。我们既可以选择保证数据有效性的关系型数据库,也可以选择保证最终一致性的非关系型数据库。在选择数据库结构时,应重点考虑以下数据库基础知识:
- ACID
- BASE
- SQL 联接
- 规范化
- 持久性
- 等等
数据库选择是[系统设计面试]重要组成部分,因此需要熟悉根据具体用例进行决策的过程。您选择的数据库将取决于项目需求。
数据库模式
表示数据库中数据存储的抽象设计。它描述了数据的组织形式以及表格之间的关系。数据库模式需要提前规划,以便明确所需的组件及其相互连接方式。数据库模式本身不包含数据,而是描述数据的形状及其与其他表或模型的关系。数据库中的一个条目是数据库模式的一个实例。
数据库模式主要分为两种类型,分别定义模式的不同部分:逻辑模式和物理模式。
数据库模式包括:
- 所有重要或相关的数据
- 对所有数据条目的一致格式化
- 所有条目和数据库对象的唯一键
- 表中每一列都有名称和数据类型
数据库模式的规模和复杂性取决于项目的大小。数据库模式的可视化样式使您可以在编写代码之前适当地构建数据库及其关系。规划[数据库设计]的过程称为数据建模。数据库模式对于 DBMS 和 RDBMS 的设计至关重要。
数据库查询
访问数据库以操纵或检索数据的请求。它与[CRUD 操作]密切相关。通过数据库查询,我们可以对获取的信息进行逻辑处理。查询的方式多种多样,包括使用查询字符串、使用查询语言或通过类似 GraphQL 的示例查询(QBE,Query by Example)等方法。
ACID 属性
为了维护数据库的完整性,所有事务必须遵守[ACID 属性]。ACID 是原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)和持久性(Durability)的缩写。
- 原子性:事务是一个原子单位,事务中的所有指令要么全部成功执行,要么完全不执行。
- 一致性:数据库初始处于一致状态,经过每次事务后应保持一致状态。
- 隔离性:如果多个事务并发运行,它们不应互相影响,即运行的结果应与顺序执行的结果相同。
- 持久性:已提交到数据库的更改应该在软件或系统故障情况下仍然保留。
数据库分片与分区
在[分片数据库]时,数据被划分成不同的小块,称为分片(shards)。每个分片可以是一个表、一个 Postgres 模式,或者一个存储在独立数据库服务器实例中的物理数据库。一些数据在所有分片中都存在,而另一些数据则只出现在单个分片中。这种情况分别称为垂直分片和水平分片。
为了分片数据,需要确定分片键以对数据进行划分。分片键可以是集合中每个文档中存在的索引字段或复合索引字段。选择分片键没有通用规则,具体取决于您的应用程序。
分片使应用程序能够减少查询次数。当收到请求时,应用程序知道将请求路由到何处。这意味着它需要查看的数据量更少,而不必遍历整个数据库。分片可以提高应用程序的整体性能和可扩展性。
数据分区是一种将大型数据库拆分为较小部分的技术。此过程允许我们将数据库分布在多个机器上,从而提升应用程序的性能、可用性、负载均衡和可管理性。
数据库索引
数据库索引可以更快速、更轻松地搜索表格中的行或列,从而找到您需要的数据。索引可以通过一个或多个表格列创建,为快速随机查找和有序信息的高效访问提供基础。虽然索引极大地加快了数据检索速度,但由于索引占用空间,它通常会减慢数据插入和更新的速度。
关注我,紧跟本系列专栏文章,咱们下篇再续!
作者简介:魔都架构师,多家大厂后端一线研发经验,在分布式系统设计、数据平台架构和AI应用开发等领域都有丰富实践经验。
各大技术社区头部专家博主。具有丰富的引领团队经验,深厚业务架构和解决方案的积累。
负责:
- 中央/分销预订系统性能优化
- 活动&券等营销中台建设
- 交易平台及数据中台等架构和开发设计
- 车联网核心平台-物联网连接平台、大数据平台架构设计及优化
- LLM Agent应用开发
- 区块链应用开发
- 大数据开发挖掘经验
- 推荐系统项目
目前主攻市级软件项目设计、构建服务全社会的应用系统。
参考:
本文由博客一文多发平台 OpenWrite 发布!