一般将NoSQL数据库分为四大类:键值(Key-Value)存储数据库、列存储数据库、文档型数据库和图形(Graph)数据库。它们的数据模型、优缺点、典型应用场景如下表所示。
分类 | 数据模型 | 优点 | 缺点 | 典型应用场景 |
---|---|---|---|---|
键值(Key-Value)存储数据库 | Key指向Value的键值对,通常用hash表来实现 | 查找速度快 | 数据无结构化(通常只被当作字符串或者二进制数据) | 内容缓存,主要用于处理大量数据的高访问负载,也用于一些日志系统等 |
列存储数据库 | 以列簇式存储,将同一列数据存在一起 | 查找速度快,可扩展性强,更容易进行分布式扩展 | 功能相对局限 | 分布式的文件系统 |
文档型数据库 | Key-Value对应的键值对,Value为结构化数据 | 数据结构要求不严格,表结构可变(不需要像关系型数据库一样需预先定义表结构) | 查询性能不高,而且缺乏统一的查询语法 | Web应用 |
图形(Graph)数据库 | 图结构 | 利用图结构相关算法(如最短路径寻址,N度关系查找等) | 很多时候需要对整个图做计算才能得出需要的信息,而且这种结构不太好做分布式的集群方案 | 社交网络,推荐系统等 |
1、键值(Key-Value)存储数据库
这一类数据库主要会使用到一个哈希表,这个表中有一个特定的键和一个指针指向特定的数据。Key/value模型对于IT系统来说的优势在于简单、易部署。但是如果DBA只对部分值进行查询或更新的时候,Key/value就显得效率低下了。举例如:Tokyo Cabinet/Tyrant, Redis, Voldemort, Oracle BDB.
Redis
最佳应用场景:适用于数据变化快且数据库大小可遇见(适合内存容量)的应用程序。
例如:股票价格、数据分析、实时数据搜集、实时通讯。
2、列存储数据库
这部分数据库通常是用来应对分布式存储的海量数据。键仍然存在,但它们的特点是指向了多个列。这些列是由列家族来安排的。如:Cassandra, HBase, Riak.
HBase
最佳应用场景:适用于偏好BigTable并且需要对大数据进行随机、实时访问的场合。
例如: Facebook消息数据库
Cassandra
最佳应用场景:当使用写操作多过读操作(记录日志)时
例如:银行业,金融业(要求写比读更快)
Riak
最佳应用场景:适用于想使用类似 Cassandra(类似Dynamo)数据库但无法处理 bloat及复杂性的情况。适用于你打算做多站点复制,但又需要对单个站点的扩展性,可用性及出错处理有要求的情况。
例如:销售数据搜集,工厂控制系统;对宕机时间有严格要求;可以作为易于更新的 web服务器使用。
3、文档型数据库
文档型数据库的灵感是来自于Lotus Notes办公软件的,而且它同第一种键值存储相类似。该类型的数据模型是版本化的文档,半结构化的文档以特定的格式存储,比如JSON。文档型数据库可 以看作是键值数据库的升级版,允许之间嵌套键值。而且文档型数据库比键值数据库的查询效率更高。如:CouchDB, MongoDb。国内也有文档型数据库SequoiaDB,已经开源。
CouchDB
最佳应用场景:适用于数据变化较少,执行预定义查询,进行数据统计的应用程序。适用于需要提供数据版本支持的应用程序。
例如: CRM、CMS系统
MongoDB
最佳应用场景:适用于需要动态查询支持;需要使用索引而不是 map/reduce功能;需要对大数据库有性能要求;需要使用 CouchDB但因为数据改变太频繁而占满内存的应用程序。
4、图形(Graph)数据库
图形结构的数据库同其他行列以及刚性结构的SQL数据库不同,它是使用灵活的图形模型,并且能够扩展到多个服务器上。NoSQL数据库没有标准的查询语言(SQL),因此进行数据库查询需要制定数据模型。许多NoSQL数据库都有REST式的数据接口或者查询API。如:Neo4J,InfoGrid,OrientDB,HypherGraphDB,GraphBase,InfiniteGraph,AllegroGraph。
Neo4j
最佳应用场景:适用于图形一类数据。这是 Neo4j与其他nosql数据库的最显著区别
例如:社会关系,公共交通网络,地图及网络拓谱
附:常见的NoSQL数据库
分类 | 实例 |
---|---|
键值(Key-Value)存储数据库 | * Riak:一个开源、分布式键值数据库,支持数据复制和容错 * Redis:一个开源的键值存储数据库,支持主从式复制、事务,Pub/Sub、Lua脚本,还支持给Key添加时限 * Dynamo:一个键值分布式存储数据库,直接由亚马逊Dynamo数据库实现 * Oracle NoSQL Database:来自Oracle的键值NoSQL数据库,支持事务ACID和JSON * Oracle NoSQL Database:具备数据备份和分布式键值存储系统 * Voldemort:具备数据备份和分布式键值存储系统 * Aerospike:一个键值存储数据库,支持混合内存架构,通过强一致性和可调一致性保证数据的完整性 |
列存储数据库 | * Cassandra:支持跨数据中心的数据复制,提供列索引 * HBase:一个开源、分布式、面向列存储的模型 * Amazon SimpleDB:一个非关系型数据存储 * Apache Accumulo:有序的、分布式键值数据存储,基于Google的BigTable设计 * Hypertable:一个开源、可扩展的数据库,模仿Bigtable,支持分片 * Azure Tables:为要求大量非结构化数据存储的应用提供NoSQL性能 |
文档型数据库 | * MongoDB:开源、面向文档 * CounchDB:一个使用JSON的文档数据库,使用Javascript做MapReduce查询,也是一个使用HTTP的API * Couchbase:基于JSON模型 * RavenDB:一个基于.net语言的面向文档数据库 * MarkLogic:用来存储基于XML和以文档为中心的信息,支持灵活的模式 |
图形(Graph)数据库 | * Neo4j:一个图数据库,支持ACID事务 * InfiniteGraph:用来维持和遍历对象间的关系,支持分布式数据存储 * AllegroGraph:结合使用了内存和磁盘,提供了高可扩展性,支持SPARQ、RDFS++和Prolog推理 |