NoSQL的诞生
在90年代,一个网站的访问量一般都不大,用单个数据库完全可以轻松应付。在那个时候,更多的都是静态网页,动态交互类型的网站不多。
上述这种架构下,数据库存在哪些瓶颈呢?
DAL : Data Access Layer(数据访问层 – Hibernate,MyBatis)
- 数据量的总大小一个机器放不下时。
- 数据的索引(B+ Tree)一个机器的内存放不下时。
- 访问量(读写混合)一个实例不能承受。
- 如果满足了上述1 or 3个时,只能对数据库的整体架构进行重构。
随着互联网web2.0网站的兴起,传统的关系数据库在处理web2.0网站,特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心,出现了很多难以克服的问题,而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。经过了一段时间技术进步NoSQL的概念被提出了。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战,尤其是大数据应用难题。
NoSQL最常见的解释是“non-relational”, “Not Only SQL”也被很多人接受。NoSQL仅仅是一个概念,泛指非关系型的数据库,区别于关系数据库,它们不保证关系数据的ACID特性。NoSQL是一项全新的数据库革命性运动,其拥护者们提倡运用非关系型的数据存储,相对于铺天盖地的关系型数据库运用,这一概念无疑是一种全新的思维的注入。
NoSQL有如下优点:易扩展,NoSQL数据库种类繁多,但是一个共同的特点都是去掉关系数据库的关系型特性。数据之间无关系,这样就非常容易扩展。无形之间也在架构的层面上带来了可扩展的能力。大数据量,高性能,NoSQL数据库都具有非常高的读写性能,尤其在大数据量下,同样表现优秀。这得益于它的无关系性,数据库的结构简单。
NoSQL主要分为:键值数据库、列族数据库、文档数据库、图数据库,其部分代表作及简介如下所示:
正文-Redis初体验
Redis(全称:Remote Dictionary Server 远程字典服务)是一个高性能的key-value数据库。是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、键值数据库,并提供多种语言的API。
Redis是一个简单的,高效的,分布式的,基于内存的缓存工具。架设好服务器后,通过网络连接(类似数据库),提供Key-Value式缓存服务。简单,是Redis突出的特色。 简单可以保证核心功能的稳定和优异。
Redis 与其他 key - value 缓存产品相比有以下三个特点:
- Redis支持数据的持久化,可以将内存中的数据保存在磁盘中,重启的时候可以再次加载进行使用。
- Redis不仅仅支持简单的key-value类型的数据,同时还提供list,set,zset,hash等数据结构的存储。
- Redis支持数据的备份,集群等高可用功能。
特点:
- 性能极高 – Redis能读的速度是110000次/s,写的速度是81000次/s 。
- 丰富的数据类型 – Redis支持的类型 String, List, Hash, Set 及 Ordered Set 数据类型操作。
- 原子 – Redis的所有操作都是原子性的,意思就是要么成功执行要么失败完全不执行。单个操作是原子性的。多个操作也支持事务,即原子性,通过MULTI和EXEC指令包起来。
- 丰富的特性 – Redis还支持 publish/subscribe, 通知, key 过期等等特性。
Redis总结:
- Redis单个key 存入512M大小。
- Redis支持多种类型的数据结构(string,list,hash.set.zset)。
- Redis 是单线程 原子性。
- Redis可以持久化 因为使用了 RDB和AOF机制。
- Redis支持集群 而且redis 支持库(0-15) 16个库。
- Redis 还可以做消息队列。
企业级开发中:Redis可以用作数据库、缓存(热点数据,经常会被查询,但是不经常被修改或者删除的数据)和消息中间件等大部分功能。
缺点:
- 持久化,Redis直接将数据存储到内存中,要将数据保存到磁盘上,Redis可以使用两种方式实现持久化过程。定时快照(snapshot):每隔一段时间将整个数据库写到磁盘上,每次均是写全部数据,代价非常高。第二种方式基于语句追加(aof):只追踪变化的数据,但是追加的log可能过大,同时所有的操作均重新执行一遍,回复速度慢。
- 耗内存,占用内存过高。
安装:
可以安装一个图形管理软件,我用的是RedisDesktopManager9.3
redis.conf配置文件参数:
redis.conf 配置项说明如下:
Redis默认不是以守护进程的方式运行,可以通过该配置项修改,使用yes启用守护进程
daemonize no
当Redis以守护进程方式运行时,Redis默认会把pid写入/var/run/redis.pid文件,可以通过pidfile指定
pidfile /var/run/redis.pid
指定Redis监听端口,默认端口为6379,为什么选用6379作为默认端口,因为6379在手机按键上MERZ对应的号码,而MERZ取自意大利歌女Alessia Merz的名字
port 6379
绑定的主机地址
bind 127.0.0.1
当 客户端闲置多长时间后关闭连接,如果指定为0,表示关闭该功能
timeout 300
指定日志记录级别,Redis总共支持四个级别:debug、verbose、notice、warning,默认为verbose
loglevel verbose
日志记录方式,默认为标准输出,如果配置Redis为守护进程方式运行,而这里又配置为日志记录方式为标准输出,则日志将会发送给/dev/null
logfile stdout
设置数据库的数量,默认数据库为0,可以使用SELECT <dbid>命令在连接上指定数据库id
databases 16
指定在多长时间内,有多少次更新操作,就将数据同步到数据文件,可以多个条件配合
save <seconds> <changes>
Redis默认配置文件中提供了三个条件:
save 900 1
save 300 10
save 60 10000
分别表示900秒(15分钟)内有1个更改,300秒(5分钟)内有10个更改以及60秒内有10000个更改。
指定存储至本地数据库时是否压缩数据,默认为yes,Redis采用LZF压缩,如果为了节省CPU时间,可以关闭该选项,但会导致数据库文件变的巨大
rdbcompression yes
指定本地数据库文件名,默认值为dump.rdb
dbfilename dump.rdb
指定本地数据库存放目录
dir ./
设置当本机为slav服务时,设置master服务的IP地址及端口,在Redis启动时,它会自动从master进行数据同步
slaveof <masterip> <masterport>
当master服务设置了密码保护时,slav服务连接master的密码
masterauth <master-password>
设置Redis连接密码,如果配置了连接密码,客户端在连接Redis时需要通过AUTH
命令提供密码,默认关闭 requirepass foobared
设置同一时间最大客户端连接数,默认无限制,Redis可以同时打开的客户端连接数为Redis进程可以打开的最大文件描述符数,如果设置 maxclients 0,表示不作限制。当客户端连接数到达限制时,Redis会关闭新的连接并向客户端返回max number of clients reached错误信息
maxclients 128
指定Redis最大内存限制,Redis在启动时会把数据加载到内存中,达到最大内存后,Redis会先尝试清除已到期或即将到期的Key,当此方法处理 后,仍然到达最大内存设置,将无法再进行写入操作,但仍然可以进行读取操作。Redis新的vm机制,会把Key存放内存,Value会存放在swap区
maxmemory <bytes>
指定是否在每次更新操作后进行日志记录,Redis在默认情况下是异步的把数据写入磁盘,如果不开启,可能会在断电时导致一段时间内的数据丢失。因为 redis本身同步数据文件是按上面save条件来同步的,所以有的数据会在一段时间内只存在于内存中。默认为no
appendonly no
指定更新日志文件名,默认为appendonly.aof
appendfilename appendonly.aof
指定更新日志条件,共有3个可选值:
no:表示等操作系统进行数据缓存同步到磁盘(快)
always:表示每次更新操作后手动调用fsync()将数据写到磁盘(慢,安全)
everysec:表示每秒同步一次(折中,默认值)
appendfsync everysec
指定是否启用虚拟内存机制,默认值为no,简单的介绍一下,VM机制将数据分页存放,由Redis将访问量较少的页即冷数据swap到磁盘上,访问多的页面由磁盘自动换出到内存中(在后面的文章我会仔细分析Redis的VM机制)
vm-enabled no
虚拟内存文件路径,默认值为/tmp/redis.swap,不可多个Redis实例共享
vm-swap-file /tmp/redis.swap
将所有大于vm-max-memory的数据存入虚拟内存,无论vm-max-memory设置多小,所有索引数据都是内存存储的(Redis的索引数据 就是keys),也就是说,当vm-max-memory设置为0的时候,其实是所有value都存在于磁盘。默认值为0
vm-max-memory 0
Redis swap文件分成了很多的page,一个对象可以保存在多个page上面,但一个page上不能被多个对象共享,vm-page-size是要根据存储的 数据大小来设定的,作者建议如果存储很多小对象,page大小最好设置为32或者64bytes;如果存储很大大对象,则可以使用更大的page,如果不 确定,就使用默认值
vm-page-size 32
设置swap文件中的page数量,由于页表(一种表示页面空闲或使用的bitmap)是在放在内存中的,,在磁盘上每8个pages将消耗1byte的内存。
vm-pages 134217728
设置访问swap文件的线程数,最好不要超过机器的核数,如果设置为0,那么所有对swap文件的操作都是串行的,可能会造成比较长时间的延迟。默认值为4
vm-max-threads 4
设置在向客户端应答时,是否把较小的包合并为一个包发送,默认为开启
glueoutputbuf yes
指定在超过一定的数量或者最大的元素超过某一临界值时,采用一种特殊的哈希算法
hash-max-zipmap-entries 64
hash-max-zipmap-value 512
指定是否激活重置哈希,默认为开启(后面在介绍Redis的哈希算法时具体介绍)
activerehashing yes
指定包含其它的配置文件,可以在同一主机上多个Redis实例之间使用同一份配置文件,而同时各个实例又拥有自己的特定配置文件
include /path/to/local.conf
Java连接Redis:
就像是Java连接MySQL数据库一样,需要在pom文件中加入jedis依赖,创建jedis对象进行读写:
1 | public class Demo { |
运行上面的代码之后:
还有一种常用的方法是创建连接池对象,从连接池获取连接资源,再进行读写:
1 | public void demo2(){ |
Redis的数据结构:
redis一共有五种数据结构:字符串(String)、哈希(hash)、字符串列表(list)、字符串集合(set)和有序字符串集合(sorted set)。
key的要求:key不要太长,超过1024个字节,也不要使用太短的key。
字符串(String):
redis中最基础也是最重要的数据类型。在redis里是二进制安全的,意味着该数据存入和获取的数据相同。字符串类型的value值最大长度是512M。
字符串类型实际上可以是简单的字符串、复杂的字符串(xml、json)、数字(整数、浮点数)、二进制(图片、音频、视频)。
其中存用set,取用get,删用del,先取再改用getset,数值增减(增用incr,减用decr)还有关于原子性增减incrby和decrby,以及追加字符串。
incr key 可以将指定的key的value原子性的递增1,如果该key不存在,期初值为0,在incr之后其值为1。如果value的值不能转成整形,该操作会执行失败并返回错误信息。(decr同理)
哈希(hash):
Hash类型类似于Java中的map容器,用于存储值对象的信息。如果Hash包含很少的字段,该类型也会占用很少的磁盘空间。每个Hash可以存储4294967295个键值对。结构如下图:
该类型存用hset,取用hget,存多个用hmset,取多个用hmget,取所有用hgetall,hdel可以删除一个或多个字段(返回值是被删除的字段个数),del可以删除整个key,hincrby可以设置key中的filed的值增加量。
字符串列表(list):
在Redis中,它的底层实际上是一个双向链表。List类型是按插入顺序排序的字符串链表。和数据结构中普通的链表一样,我们可以在其头部(Left)和尾部(right)添加新的元素。在插入时,如果该key并不存在,Redis将为该key创建一个新的链表。与此相反,如果链表中所有的元素均被移除,那么该key也将会被从数据库中删除。list中可以包含的最大元素数量是4294967295。
从元素插入和删除的效率视角来看,如果我们是在链表的两头插入或删除元素,这是非常高效的操作,即使链表中已经存储了百万条记录,该操作也可以在常量时间内完成。但是随着元素增多,访问中间数据的速度会变慢。
lpush key value1 value2。。。在指定的key所关联的头部插入所有values,如果key不存在,该命令在插入之前创建一个与该key关联的空链表,之后再向该链表的头部插入数据。插入成功,返回元素的个数。
rpush key value1 value2。。。在该list的尾部添加元素
lrange key start end 获取链表中从start到end的元素的值,start和end可以为负数,若为-1则表示链表尾部的元素,-2则表示倒数第二个,以此类推。。。
lpushx key value 仅当参数中指定的key存在时(如果key管理的list中没有值时,则该key是不存在的)在指定的key所关联的list的头部插入value。
rpushx key value 仅当指定的key存在时,在尾部插入元素。
lpop key 返回并弹出指定的key关联的链表中的第一个元素(头部元素)。
rpop key 从尾部弹出元素。
rpoplpush resource destination 将链表中尾部的元素弹出并添加到头部。
llen key 返回指定的key关联的链表中的元素的数量。
lset key index value 设置链表中的index下标的元素值,0代表链表头元素,-1代表链表的尾元素。
lrem key count value 删除count个值为value的元素,如果count大于0,从头向尾遍历并删除count个值为value的元素,如果count小于0,则从尾向头遍历并删除。如果count等于0,则删除链表中所有等于value的元素。
linsert key before|after pivot value 在pivot元素前或者后插入value这个元素。
rpoplpush的使用场景:
Redis链表经常会被用于消息队列的服务,已完成多程序之间的消息交换。假设一个应用程序正在执行LPUSH操作向链表中添加新的元素,我们通常将这样的程序称之为“生产者(Producer)”,而另外一个应用程序正在执行RPOP操作从链表中取出元素,我们称这样的程序为“消费者(Consumer)”。如果此时,消费者程序在取出消息元素后立刻崩溃,由于该消息已经被取出且没有被正常处理,那么我们就可以认为该消息已经丢失,由此可能会导致业务数据丢失,或业务状态的不一致等现象的发生。然而通过使用RPOPLPUSH命令,消费者程序在从主消息队列中取出消息之后再将其插入到备份队列中,直到消费者程序完成正常的处理逻辑后再将该消息从备份队列中删除。同时我们还可以提供一个守护线程,当发现备份队列中的消息过期时,可以重新将其再放回到主消息队列中,以便其它的消费者程序继续处理。
字符串集合(set):
在Redis中,我们可以将Set类型看作为无序的字符集合,和List类型一样,我们也可以在该类型的数据值上执行添加、删除或判断某一元素是否存在等操作。需要说明的是,这些操作的时间是常量时间。Set可包含的最大元素数是4294967295。
和List类型不同的是:Set集合中不允许出现重复的元素。和List类型相比,Set类型在功能上还存在着一个非常重要的特性,即在服务器端完成多个Set之间的聚合计算操作,如unions、intersections和differences。由于这些操作均在服务端完成,因此效率极高,而且也节省了大量的网络IO开销。
sadd key value1 value2。。。 向set中添加数据,如果该key的值已有则不会重复添加。
smembers key 获取set中所有的成员。
scard key 获取set中成员的数量。
sismember key member 判断member是否在该set中,1表示存在、0表示不存在或者key本身就不存在。
srem key member1 member2 删除set中指定的成员。
srandmember key 随机返回set中的一个成员。
sdiff key1 key2 返回key1和key2中相差的成员,而且与key的顺序有关。即返回差集(key1- key2)。
sdiffstore destination key1 key2 将key1和key2相差的成员存储在destination上。
sinter key1 key2 返回key1和key2的交集。
sinterstore destination key1 key2 将返回的交集存储在destination上。
sunion key1 key2 返回key1和key2的并集。
sunionstore destination key1 key2 将返回的并集存储在destination上。
有序字符串集合(sorted set):
sorted-set和set类型极为相似,它们都是字符串的集合,都不允许重复的成员出现在一个set中。它们之间的主要差别是sorted-set中的每一个成员都会有一个分数(score)与之关联,Redis正是通过分数来为集合中的成员进行从小到大排序。然而需要额外指出的是:尽管sorted-set中的成员必须是唯一的,但是分数(score)却是可以重复的。
有序集合使用散列表实现,相较于列表类型来说有序集合更耗内存,但是在sorted-set中添加、删除或更新一个成员都是非常快速的操作,其时间复杂度为集合中成员数量的对数。由于sorted-set中的成员在集合中的位置是有序的,因此,即便是访问位于集合中部的成员也仍然是非常高效的。事实上,Redis所具有的这一特征在很多其它类型的数据库中是很难实现的,换句话说,在该点上要想达到和Redis同样的高效,在其它数据库中进行建模是非常困难的。
例如:游戏排名、微博热点话题等使用场景。
zadd key score1 member1 score2 member2。。。 将所有成员以及该成员的分数存放到sorted-set中。
zcard key 获取集合中的成员数量。
zcount key min max 获取分数在[min,max]之间的成员数量。
zincrby key increment member 增加指定成员的分数。
zrange key start end [withscores] 获取集合中下标为start至end的成员,[withscores]参数表明返回的成员包含其分数。
zrangebyscore key min max [withscores] [limit offset count] 返回分数在[min,max]的成员并按照分数从低到高排序。[withscores]显示分数,[limit offset count]offset表示从下标为offset的元素开始并返回count个成员。
zrank key member 返回成员在集合中的位置。
zrem key member1 member2 。。。 移除集合中指定的成员。
zscores key meber 返回指定成员的分数。
键(key)的相关操作:
keys * 获取所有key。
exists key 判断key是否存在,1表示存在,0表示不存在。
move key db 将当前数据库key移动到给定数据库中。
expire key 秒钟 为给定的key设置过期时间。
ttl key 查看还有多少秒过期,-1表示永不过期,-2表示已过期,即已被删除。
type key 查看key是什么类型的。