您的当前位置:首页正文

键值对数据库综述

2023-04-20 来源:步旅网


键值对数据库综述与典型KV数据库介绍

一、键值数据库概述

键值数据库是一种非关系数据库,它使用简单的键值方法来存储数据。键值数据库将数据存储为键值对集合,其中键作为唯一标识符。键和值都可以是从简单对象到复杂复合对象的任何内容。键值数据库是高度可分区的,并且允许以其他类型的数据库无法实现的规模进行水平扩展。

Key-Value 键值对数据模型实际上是一个映射,即key是查找每条数据地址的唯一关键字,value是该数据实际存储的内容。例如键值对:(“20091234”,“张三”),其key:“20091234”是该数据的唯一入口,而value:“张三”是该数据实际存储的内容.Key-Value 数据模型典型的是采用哈希函数实现关键字到值的映射,查询时,基于key 的hash值直接定位到数据所在的点,实现快速查询,并支持大数据量和高并发查询。

二、基本原理

从API的角度来看,键值数据库是最简单的NoSQL数据库。客户端可以根据键查询值,设置键所对应的值,或从数据库中删除键。“值”只是数据库存储的一块数据而已,它并不关心也无需知道其中的内容;应用程序负责理解所存数据的含义。由于键值数据库总是通过主键访问,所以它们一般性能较高,且易于扩展。基本上所有的编程语言都带有应用在内存中的键值对存储。C++STL的映射容器(map container)和Java的HashMap以及Python的字典类型都是键值对存储。键值对存储通常都有如下接口:

- Get( key ): 获取之前存储于某标示符“key”之下的一些数据,或者“key”下没有

数据时报错。

- Set( key, value ): 将“value”存储到存储空间中某标示符“key”下,使得我们可以通过调用相同的“key”来访问它。如果“key”下已经有了一些数据,旧的数据将被替换。

- Delete( key ): 删除存储在“key”下的数据。

三、基本特性

键值数据库具有以下几个特性:

- 容错性

- 可扩展性

- 有效性

四、读写方式

分析已有key-value 数据库,其读写方式可分为面向磁盘的读写方式和面向内存的读写方式两种.后者适合于不要求存储海量的数据但需要对特定的数据进行高速并发访问的场景.采用哪一种读写方式,通常由数据量的大小和对访问速度的要求决定的。

1) 面向磁盘的读写方式

通常情况下,NoSQL 系统中都存储着海量的数据,且无法全部维持在内存中,所以一般都采用面向磁盘的读写方式,下图描述了NoSQL 系统中采用的典型的面向磁盘读写的一般过程。

图4-1 面向磁盘的读写过程

通常,当写入数据时,数据首先会被写到一个内存结构中,系统返回写入成功.当内存中的数据达到指定大小或存放超过指定时限时,会被批量写入磁盘.当需要读取数据时,首先访问内存结构,如果未命中则需要访问磁盘上的实例化文件.当系统发生意外宕机时,内存结构中的数据将丢失,因此,一般采用日志的方式来帮助进行数据恢复.为了进一步提高写入效率和并发能力,许多系统都采用了Append 的方式,即将修改和删除操作都追加写到文件末尾,而读数据时利用时间戳过滤掉旧信息,返回给用户最新版本的数据.因此,数据库需要进行定期的数据合并,将过期的冗余数据删除。

2)面向内存的读写方式

内存数据库将所有数据存放在内存中。每次访问记录时,无需将数据从磁盘读到内存中,避免了磁盘操作造成的延迟。在几十年前,由于内存容量的限制,在数据库中,内存

只能充当磁盘的缓存。但随着存储技术的迅猛发展,单台机器的内存容量不断增长。目前,高端的服务器已经能提供几太字节的内存容量。这使得将所有数据存在内存中成为可能。磁盘读写操作不再是性能瓶颈后,数据库系统由IO 受限(IO-bound)转向CPU 受限(CPU-bound)。

五、键值数据库的优缺点

- KV存储非常适合不涉及过多数据关系业务关系的业务数据,同时能有效减少读写磁盘的次数,比SQL数据库存储拥有更好的读写性能

- 由于需要根据键值查询,所以可以根据时间戳等数据库之外的值来生成键名,所以键值数据库非常适合保存会话(会话ID为主键)、购物车数据、用户配置等信息。还可以使用expiry_secs属性指定关键字的过期时间,这对会话或购物车对象特别有用。

- 这同时表示像SQL那样用WHERE语句或者通过任何形式的过滤来请求数据中的一部分是无法做到的。如果你不知道去哪找,你必须遍历所有的键,获取它们对应的值,应用某种你需要的过滤,然后保留你想要的东西。这将会需要大量的运算,也即表示只有当键已知的时候才能体现出最佳性能,否则键值对存储将无法胜任

- 不像关系型数据库,键值对存储不需要了解值中的数据,也没有像MySQL或者PostgreSQL中那样的任何结构。它不关心键值对里的值,可以是二进制块、文本、JSON、XML等。

六、典型的键值数据库

键值数据库主要可以分为两种:面向内存的key-value存储和面向磁盘的key-value存储,前者的典型应用是Redis和Memcached,后者是RocksDB和LevelDB。

(一)Redis简介

Redis 是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。Redis 是一个开源(BSD许可)的,内存中的数据结构存储系统,它可以用作数据库、缓存和消息中间件。 它支持多种类型的数据结构,如 字符串(strings), 散列(hashes), 列表(lists), 集合(sets), 有序集合(sorted sets) 与范围查询, bitmaps, hyperloglogs 和 地理空间(geospatial) 索引半径查询。目前由VMware主持开发工作。

它具有以下几个特点:

- 使用C/C++编写,运行异常快

- 有硬盘存储支持的内存数据库,

- Master-slave复制

- 支持多种类型的数据结构

- 支持事务

- 支持将数据设置成过期数据(类似快速缓冲区设计)

- Pub/Sub允许用户实现消息机制

注:但自2.0版本以后可以将数据交换到硬盘(注意, 2.4以后版本不支持该特性!) Redis具有以下几点优势:

1)非常丰富的数据结构;

2.)Redis提供了事务的功能,可以保证一串 命令的原子性,中间不会被任何操作打断;

3.)数据存在内存中,读写非常的高速,可以达到10w/s的频率。

当然,Redis 也有一些缺点:

1) Redis3.0后才出来官方的集群方案,但仍存在一些架构上的问题;

2.)持久化功能体验不佳——通过快照方法实现的话,需要每隔一段时间将整个数据库的数据写到磁盘上,代价非常高;而aof方法只追踪变化的数据,类似于mysql的binlog方法,但追加log可能过大,同时所有操作均要重新执行一遍,恢复速度慢;

3)由于是内存数据库,所以,单台机器,存储的数据量,跟机器本身的内存大小。虽然redis本身有key过期策略,但是还是需要提前预估和节约内存。如果内存增长过快,需要定期删除数据。

Redis 并不是能应付所有的应用场景,它适用于数据变化快且数据库大小可遇见(适

合内存容量)的应用程序,例如:微博、数据分析、实时数据搜集、实时通讯等。

(二)Memcached简介

Memcached是一个自由开源的,高性能,分布式内存对象缓存系统。Memcached是以LiveJournal旗下Danga Interactive公司的Brad Fitzpatric为首开发的一款软件。现在已成为mixi、hatena、Facebook、Vox、LiveJournal等众多服务中提高Web应用扩展性的重要因素。它是一种基于内存的key-value存储,用来存储小块的任意数据(字符串、对象)。这些数据可以是数据库调用、API调用或者是页面渲染的结果。

Memcached简洁而强大。它的简洁设计便于快速开发,减轻开发难度,解决了大数据量缓存的很多问题。它的API兼容大部分流行的开发语言。

本质上,它是一个简洁的key-value存储系统。一般的使用目的是,通过缓存数据库查询结果,减少数据库访问次数,以提高动态Web应用的速度、提高可扩展性。

图6-1 Memcached的基本原理

Memcached作为高速运行的分布式缓存服务器,具有以下的特点。

- 协议简单

- 基于libevent的事件处理

- 内置内存存储方式

- memcached不互相通信的分布式

许多语言都实现了连接memcached的客户端,其中以Perl、PHP为主。仅仅memcached网站上列出的有:Perl、PHP、Python、Ruby、C#、C/C++、Lua等等。除此之外,Memcached 用户十分广泛,如LiveJournal、Wikipedia、Flickr、Bebo、Twitter、Typepad、Yellowbot、Youtube、WordPress.com等等。

(三)LevelDB简介

LevelDB是google实现后现已开源的高效持久化的KV数据库,对于随机写有着 对于随机写有着良好的性能,适用于查询少、写入多的系统。在billion数量级下 LevelDBLevelDB 仍保持着高速的响应 ,这主要由于它采用了LSM算法,对索引变更先延时暂时保存,达到一定程度在统一处理,在通过合并更新至硬盘,减少系统的开销。

LevelDB 具有以下特点:

(1) LevelDB 将大部分数据存储 在磁盘上,减轻内存负担提高响应速度;

(2) 插入记录 时键值 默认按照字典顺序存储,也可自定义排函数 ;

(3) 提供 了基本操作接口,可以批量也单独执行 ,可移植性好 ;

(4) 自动使用 Snappy 压缩数据,全景的 snapshot( 快照 )使读写 分离, 保持 数据 在读操作时的一致性 。

(四)RocksDB简介

RocksDB 是一个来自 facebook 的可嵌入式的支持持久化的 key-value 存储系统,也可作为 C/S 模式下的存储数据库,但主要目的还是嵌入式。RocksDB 基于 LevelDB 构建,因此实际上是LevelDB的优化。

下面是RocksDB 对LevelDB的优化:

1) 增加了column family,这样有利于多个不相关的数据集存储在同一个db中,因为不同column family的数据是存储在不同的sst和memtable中,所以一定程度上起到了隔离的作用。

2) 采用了多线程同时进行compaction的方法,优化了compact的速度。

3) 增加了merge operator,优化了modify的效率。

4) 将flush和compaction分开不同的线程池,能有效的加快flush,防止stall。

5) 增加了对write ahead log(WAL)的特殊管理机制,这样就能方便管理WAL文件,因为WAL是binlog文件。

五、参考资料

1. Implementing a Key-Value Store – Part 1: What are key-value stores, and why implement one?:http://codecapsule.com/2012/11/07/implementing-a-key-value-store-part-1-what-are-key-value-stores-and-why-implement-one/

2. CSDN博客-键值存储:

https://blog.csdn.net/l740450789/article/details/46459053

3. NoSQL:键值数据库:

https://blog.csdn.net/qq_39384184/article/details/83048857

4. 什么是键值数据库:https://aws.amazon.com/cn/nosql/key-value/

5. Redis真的那么好用吗:http://www.redis.cn/articles/20181020002.html

6. MongoDB、Hbase、Redis等NoSQL优劣势、应用场景:http://www.redis.cn/articles/ 20181020003.html

7. Memcached 教程:http://www.runoob.com/memcached/memcached-tutorial.html

8. Memcached 官网:http://memcached.org/

9. RocksDB介绍:

https://blog.csdn.net/weixin_36145588/article/details/78539328

10. LSM-Tree 与 RocksDB :http://www.importnew.com/28083.html

11. RocksDB使用场景和特性:https://www.jianshu.com/p/3302be5542c7

12. RocksDB介绍:一个比LevelDB更彪悍的引擎:https://www.cnblogs.com/zoucaitou /p/4183468.html

13. memcache、redis原理对比:

https://www.cnblogs.com/work115/p/5584646.html

因篇幅问题不能全部显示,请点此查看更多更全内容