BSON 是一种二进制序列化格式,用于在 MongoDB 中存储文档和进行远程过程调用。 详细参考:https://bsonspec.org/
每个 BSON 类型都有整数和字符串标识符,如下表所示
数据类型
类型 | 整数标识 | 别称 | 备注 |
---|---|---|---|
Double | 1 | double | |
String | 2 | string | |
Object | 3 | object | |
Array | 4 | array | |
Binary data | 5 | binData | |
Undefined | 6 | undefined | 丢弃 |
ObjectId | 7 | objectId | |
Boolean | 8 | bool | |
Date | 9 | date | |
Null | 10 | null | |
Regular Expression | 11 | regex | |
DBPointer | 12 | dbPointer | 丢弃 |
JavaScript | 13 | javascript | |
Symbol | 14 | symbol | 丢弃 |
JavaScript code with scope | 15 | javascriptWithScope | 在mongodb 4.4 版本丢弃 |
32-bit integer | 16 | int | |
Timestamp | 17 | timestamp | |
64-bit integer | 18 | long | |
Decimal128 | 19 | decimal | 在mongodb 3.4 版本新增 |
Min key | -1 | minKey | |
Max key | 127 | maxKey |
-
$type
运算符支持使用这些值按 BSON 类型查询字段。$type
还支持匹配 等类型集合,称为number
-
$type
聚合运算符返回其参数的 BSON 类型 -
$isNumber
聚合运算符: 如果其参数是 整数(32-bit integer),长整形(64-bit integer)、小数(double)、浮点型(decimal),则返回true
。在mongodb 4.4版本新增
常用类型详解
1. ObjectId
全局唯一,自动有序递增。总共占12个字节,由三部分组成:
- 4字节的时间戳,表示ObjectId 创建的时间,以unix 秒为单位
- 每个进程单独生成的5字节的随机值
- 3字节的递增计数器,初始值为随机值
如果使用整数值来创建 ObjectId,则此时该整数值将替换时间戳
在 MongoDB 中,存储在集合中的每个文档都需要一个唯一的 _id 字段作为主键。如果插入的文档省略了 _id 字段,MongoDB 驱动程序会自动为 _id 字段生成一个 ObjectId。 这也适用于通过带有 upsert: true 的更新操作插入的文档。 MongoDB 客户端应添加具有唯一 ObjectId 的 _id 字段。将 ObjectIds 用于 _id 字段可提供以下额外好处:
- 在 mongosh 中,您可以使用
ObjectId.getTimestamp()
方法访问 ObjectId 的创建时间。
$ ObjectId("6278c6085f51ccd692ec9a10").getTimestamp()
ISODate("2022-05-09T07:43:04.000Z")
- 对存储 ObjectId 值的 _id 字段进行排序大致相当于按创建时间排序
注意:虽然 ObjectId 值应随时间增加,但它们不一定是单调的。
这是因为他们: 秒级别的时间分辨率,因此在同一秒内创建的 ObjectId 值没有保证顺序,并且 时间戳可能是具有不同系统时钟的客户端生成的
2. String
BSON 字符串是 UTF-8编码的。通常,在序列化和反序列化 BSON 时,每种编程语言的驱动程序都会从语言的字符串格式转换为 UTF-8。这使得可以轻松地将大多数国际字符存储在 BSON 字符串中。
此外,MongoDB $regex
查询在正则表达式字符串中支持 UTF-8
Timestamp
BSON 提供了特殊的时间戳类型供内部 MongoDB 使用,占64位(8字节), 该时间戳与常规的 Date 类型无关。其中:
- 最高有效 32 位是 time_t 值(自 Unix 纪元以来的秒数)
- 最低有效 32 位是给定秒内操作的递增计数
在单个mongod实例中,时间戳值始终是唯一的。BSON 时间戳类型供内部 MongoDB 使用。在大多数情况下,在应用程序开发中,请使用 BSON 日期类型(Date)
Date
BSON Date 是一个 64 位整数,表示自 Unix 纪元(1970 年 1 月 1 日)以来的毫秒数。这导致过去和未来大约 2.9 亿年的可表示日期范围
// 获取时间 方法一
var mydate1 = new Date()
// 方法二
var mydate2 = ISODate()
// 将日期转化为字符串类型
mydate1.toString()
// 获取对应时间的月份, 注意 月份是从0开始的, 1到12月 由 0~11 代表
mydate1.getMonth()
比较和排序
比较不同BSON类型的值时,MongoDB使用以下从小到大的顺序比较:
1 MinKey (内部类型)
2 Null
3 Numbers (ints, longs, doubles, decimals)
4 Symbol, String
5 Object
6 Array
7 BinData
8 ObjectId
9 Boolean
10 Date
11 Timestamp
12 Regular Expression
13 MaxKey (内部类型)
1. 数值类型
对于ints, longs, doubles, decimals 这些数值类型,MongoDB 将这些类型视为等效类型,比较之前进行转换
2. 字符串
默认情况下,MongoDB将字符串转换成二进制来进行比较
Collation(mongodb 3.3 版本新增)允许用户为字符串比较指定特定的语言规则,例如字母大写和重音符号的规则, 关于collation 详见https://www.jianshu.com/p/4bcd86cd9103
3. Arrays
对于数组,小于比较或升序排序比较的是数组中的最小元素,大于比较或降序排序比较的是数组中的最大元素。
当字段是单元素数组与非数组字段进行比较时,比较的是数组的元素和非数组字段的值。空数组参与比较的话,会将空数组视为小于null或缺少此字段。
4. Objects
MongoDB对BSON对象的比较使用以下顺序:
1.按照键值对在BSON对象中出现的顺序递归比较它们。
- 比较字段类型, 按照如下的从小到大的顺序
MinKey (internal type)
Null
Numbers (ints, longs, doubles, decimals)
Symbol, String
Object
Array
BinData
ObjectId
Boolean
Date
Timestamp
Regular Expression
MaxKey (internal type)
3.比较关键字段名称。
4.如果关键字段名称相等,则比较字段值。
5.如果字段值相等,则比较下一个键/值对(返回步骤1)。没有下一个字段的对象小于有下一个字段的对象。
5. 日期和时间戳
在3.0.0版本中进行了更改,将日期对象放在时间戳对象之前排序。
在早期的版本中是将两种对象放在一起进行比较的。
6. 不存在的字段
MongoDB将不存在的字段视为是空的BSON对象。
例如:{}和{a : null}进行比较,那么在比较的时候,a字段和空文档将视为等价的。
7. BinData
MongoDB按BinData以下顺序排序:
首先,比较数据的长度或大小。
然后,按BSON的一字节子类型进行比较(one-byte subtype)。
最后,根据数据执行逐字节比较。
参考:https://www.mongodb.com/docs/manual/reference/bson-types/