Redis 主从复制的作用中有这么一句话“主从复制是高可用的基石”,那什么是高可用呢?高可用就是削减系统不能提供的时间,也就是常听到的以 6 个 9 为基准。实现高可用必不可少的就是哨兵和集群。


图片来自 Pexels
本文主要围绕如下几个方面先容哨兵机制:

  • 什么是哨兵

  • 哨兵的作用

  • 若何设置哨兵

  • 哨兵事情原理

  • 总结


本文实现环境:

  • centos 7.3

  • redis 4.0

  • redis 事情目录 /usr/local/redis

  • 在虚拟机举行模拟操作


什么是哨兵


先简朴说几句我们在设置主从复制时有一种情形就是主节点宕机了,谁来提供服务呢?


当主节点宕机后主从复制就没有存在的意义了,数据为王的时代没有了数据何谈什么高可用。


这个时刻就横空出世了一位老大哥名叫哨兵,老大哥说这个问题我来帮你们处置。


既然主节点 master 作为老大不领你们玩了。我就从你们四个中心再挑选出来一位老大,然后你们随着他玩。


等不带你们玩的谁人老大回来后他的身份就失效了,就不再是你们的老大了。他只能随着我挑选出来的老大玩。


上边这段对话历程就是我们设置哨兵的意义到底在哪,跟谁玩就是谁给谁数据,知道了哨兵的作用我们就在继续。


最后我们用专业术语来解释一下什么是哨兵:

哨兵,英文名 Sentinel,是一个分布式系统,用于对主从结构中的每一台服务器举行监控,当主节点泛起故障后通过投票机制来挑选新的主节点,而且将所有的从节点毗邻到新的主节点上。


哨兵的作用


上文中我们谈到的对话历程就是哨兵的作用之一:自动故障转移。


谈到作用一定就是这个哨兵到底在事情中到底干了什么事情。我们先用对照干巴的观点形貌一下,然后在下文的事情原剖析逐一谈到。


哨兵的三个作用:

  • 监控:监控谁?支持主从结构的事情一个是主节点一个是从节点,那一定就是监控这俩个了。监控主节点和从节点是否正常运行;检测主节点是否存活,主节点和从节点运行情形。

  • 通知:哨兵检测的服务器泛起问题时,会向其他的哨兵发送通知,哨兵之间就相当于一个微信群,每个哨兵发现的问题都市发在这个群里。

  • 自动转移故障:当检测到主节点宕机后,断开与宕机主节点毗邻的所有从节点,在从节点中选取一个作为主节点,然后将其他的从节点毗邻到这个最新主节点的上。而且见告客户端最新的服务器地址。


这里有一个注重点,哨兵也是一台 Redis 服务器,只是不对外提供任何服务。设置哨兵时设置为单数。


那么为什么设置哨兵服务器的数目为单数呢?带着这个疑问你会在下文看到你想要的谜底。

若何设置哨兵


准备事情


我们最先设置哨兵,开启八个客户端,三个哨兵、一个主节点、俩个从节点、一个主节点客户端、一个从节点客户端。 

sentinel.conf 设置解读


哨兵使用的设置文件是 sentinel.conf,如下图:

我们来对 sentinel.conf 设置信息举行解读:

然则大多数都是注释,这里给人人提供一个下令来过滤这些无用信息:

cat sentinel.conf | grep -v '#' | grep -v '^$' 


①port 26379:对外服务端口号。

②dir /tmp:存储哨兵的事情信息。


③sentinel monitor mymaster 127.0.0.1 6379 2:监控的是谁,名字可以自定义,后边的 2 代表的是,若是有俩个哨兵判断这个主节点挂了那这个主节点就挂了,通常设置为哨兵个数一半加一。


④sentinel down-after-milliseconds mymaster 30000:哨兵毗邻主节点多长时间没有响应就代表挂了。后边 30000 是毫秒,也就是 30 秒。


⑤sentinel parallel-syncs mymaster 1:这个设置项是指在故障转移时,最多有多少个从节点对新的主节点举行同步。


这个值越小完成故障转移的时间就越长,这个值越大就意味着越 多的从节点由于同步数据而不可用。


⑥sentinel failover-timeout mymaster 180000:在举行同步的历程中,多长时间完成算有用,系统默认值是 3 分钟。


最先设置


使用下令 cat sentinel.conf | grep -v '#' | grep -v '^$' > ./data/sentinel-26379.conf 把 sentinel.conf 过滤后的信息移到 /usr/local/redis/conf 下。

然后打开 sentinel-26379.conf 修改信息存放目录:

再快速的复制两个哨兵设置文件,端口为 26380 和 26381:

sed 's/26379/26381/g' sentinel-26379.conf > sentinel-26381.conf


测试主从复制处于正常事情状态,启动三台 redis 服务器,端口分别为 6379、6380、6381:

查看主节点信息,是有俩台从节点在毗邻着,端口分别为 6380、6381。


这里有一个小小的点就是 lag 怎么一个是 1 一个是 0 呢?lag 是延迟时间,我这里是内陆测试所以会泛起 0 的情形,使用云服务器是很少泛起的。


lag 的值为 0 和 1 都属于正常。 

测试主节点添加一个 hash 值,hset kaka name kaka:


分别从 slave1 和 slave2 获取 kaka 的值,检测主从复制是否正常运行。

经由测试我们的主从结构是正常运行的,如下图:


启动一个哨兵 redis-sentinel 26379-sentinel.conf:



毗邻 26379 哨兵,主要是最后一行,监控的主节点名为 mymaster,状态正常,从节点有俩个,哨兵数目为 1 个。

再来查看一下 26379 的哨兵设置信息,这个时刻已经改动了:

在启动一个 26380 的哨兵,redis-sentinel 26380-sentinel.conf,这里注重一下最后一行多了一条信息,这个 id 就是我们 26379 设置文件新增的 id。

然后我们来到哨兵 26379 的客户端,同样也是新增的 26380 哨兵的 id:

这个时刻我们再查看一下 26379 哨兵的设置文件,第一次查看设置文件是没有设置 26380 哨兵的,第二次查看时设置了 26380 哨兵后添加的信息。

最后我们需要把哨兵客户端 3 启动起来,端口号为 26381。启动起来之后,我们的设置信息和服务端的信息也会改动,添加哨兵 26380 有的信息,哨兵 26381 也会有。

直到这里我们对哨兵的设置就竣事了,接下来我们把主节点 Master 给宕掉。

守候 30 秒后我们来到 26379 哨兵的客户端,这里新增了一些信息,那么这些信息都做了什么呢?让我们细细道来。

这里边的信息我们先需要知道几个:

,

以太坊高度

www.326681.com采用以太坊区块链高度哈希值作为统计数据,联博以太坊统计数据开源、公平、无任何作弊可能性。联博统计免费提供API接口,支持多语言接入。

,


①+sdown:这个信息后是指三个哨兵里边有一个以为主节点宕机了。


②+odown:这个信息是指其他俩个哨兵去毗邻了一下主节点,发现确实是主节点宕机了,然后提议了一轮投票。这里使用的是 redis 4.0,版本之间这块信息有点差异。


③+switch-master mymaster 127.0.0.1 6379 127.0.0.1 6380:直到这里是哨兵提议投票的效果,推选端口为 6380 的 redis 为主节点。


④+slave slave 127.0.0.1:6381 127.0.0.1 6381 @ mymaster 127.0.0.1 6380:这里就把端口为 6381 与 6379 和新的主节点 6380 做了一个毗邻。


⑤+sdown slave 127.0.0.1:6379 127.0.0.1 6379 @ mymaster 127.0.0.1 6380:最后一句是端口为 6379 的照样没有上线,于是给踢下线。


当我们在重新把 6379 的 redis 服务器上线后,就可以看到哨兵服务端响应了俩句。一句是去除 6379 的下线。最后一句就是重连 6379 到新的主节点上。 

这个时刻主节点就是 6380 了,在 6380 的 redis 客户端设置值,检测主从复制是否正常事情。


在新的主节点 6380 添加 list 类型:

在 6379 和 6381 获取这个值,至此,我们的哨兵模式就设置完成了。

哨兵事情原理


设置完哨兵后,就需要对其事情原理举行剖析了,只有知道其事情流程,才能对哨兵有更好的明白。


本文解说原理没有那么干巴!让你可以把一篇手艺文章当故事去看。


进入正题,哨兵作用是监控、通知、故障转移。那么事情原理也是围绕这三点来讲的。

监控事情流程

监控事情流程如下:


哨兵发送 info 指令,而且保留所有哨兵状态,主节点和从节点的信息。


主节点会纪录 redis 实例的信息,主节点纪录的信息跟哨兵纪录的信息看起来是一样的,实际上照样有点区别。
哨兵会凭据在主节点拿到的从节点信息,给对应的从节点也发送 info 指令。
接着哨兵 2 来了,同样的也会给主节点发送 info 指令,而且确立 cmd 毗邻。


这个时刻哨兵 2 也会保留跟哨兵 1 一样的信息,只不过是保留的哨兵信息是 2 个。


这个时刻为了每个哨兵的信息都一致它们之间确立了一个公布订阅。为了哨兵之间的信息历久对称它们之间也会互发 ping 下令。


当再来一个哨兵 3 时,也会做同样的事情,给主节点和从节点发送 info。而且跟哨兵 1 和哨兵 2 确立毗邻。


通知事情流程


sentinel 会给主从的所有节点发送下令获取其状态,而且会把信息公布到哨兵的订阅里。 


故障转移原理


哨兵会一直给主节点发送 publish sentinel:hello,直到哨兵报出 sdown,这个词这会是有不是有点熟悉了。没错就是我们上文中把主节点断开后哨兵服务端报出的信息。


哨兵报出主节点 sdown 后还没有完,哨兵还会往内网里公布新闻说明这个主节点挂了。发送的指令是 sentinel is-master-down-by-address-port。


其余的哨兵接收到指令后,主节点挂了吗?让我去看看到底挂没挂。发送的信息也是 hello。


其余的哨兵也会发送他们收到的信息而且发送指令 sentinel is-master-down-by-address-port 到自己的内网,确认一下第一个发送 sentinel is-master-down-by-address-port 的哨兵说你说的对,这个家伙确实挂了。


当所有人都以为主节点挂了后就会修改其状态为 odown。当一个哨兵以为主节点挂了符号的是 sdown,当半数哨兵都以为挂了其符号的状态是 odown。这也就是设置哨兵为什么设置单数的缘故原由。


对于一个哨兵以为主节点挂了称之为主观下线,半数哨兵以为主节点挂了称之为客官下线。 


一旦被以为主节点客官下线后,哨兵就会举行下一步操作:

这时哨兵已经检测到问题所在了,那么到底是谁人哨兵去卖力推选新的主节点呢!不能是张三也去,李四也去,王五也去,这样就乱套了、于是就需要在所有的哨兵里选出领头的,那么是若何选的呢!请看下图。


这个时刻,五个 sentinel 就在一起开会了,所有的哨兵都在一个内网中,然后他们会做一件事情就是五个 sentinel 会同时发送指令 sentinel is-master-down-by-address-port 而且携带上自己竞选次数和 runid。 

每个 sentinel 既是参选者也是投票者,每个 sentinel 都有一票,信封就代表自己的投票权。 
当 sentinel1 和 sentinel4 同时把指令发送到群里准备竞选时,sentinel2 这个时刻就说我先接到谁的指令就把票投给谁。


若是 sentinel1 发的早,那么 sentinel2 的票就会投给 sentinel1。


根据这样的规则一直提议投票直到有一个 sentinel 的票数为总 sentinel 数目的一半之多。


假设说是 sentinel1 的票数知足总哨兵数目的一半之多后,sentinel1 就会当选。这个时刻就举行到了下一个阶段。 

在上边哨兵已经选出了 sentinel1 为代表去所有的从节点找出一个作为主节点。这个挑选主节点不是随便拿一个是有一定的规则的。

先把不在线的干掉:

响应慢的干掉,sentinel 会给所有的 redis 发送信息,响应速度慢的就会被干掉。

与原主节点断开时间最久的干掉,这里由于演示不够用了,所有新增了一个 slave5,没有任何意义哈!

以上三个点都判断竣事后另有 salve4 和 slave5,就会凭据优先原则来举行筛选:

  • 首先会凭据优先级,若是优先级一样在举行其他判断。

  • 判断 offset 偏移量,判断数据同步性,若是说 slave4 的 offset 为 90,slave5 偏移量为 100。

    那么哨兵就会以为 slave4 的网络是不是有问题,于是就会选 slave5 为新的主节点。那若是说是 slave4 和 slave5 的 offset 相同呢!另有最后一个判断。

  • 最后一步就是判断 runid 了,也就是职场中的论资排辈了,也就说凭据 runid 的建立时间来判断,时间早的上位。

选出新的主节点后就要对所有的节点发送指令了。

总结


关于哨兵的所有知识点就已经说完了,本文最主要的就是哨兵的事情原理了。


我们在简朴的梳理一下其事情原理:

  • 首先举行监控,而且所有的哨兵同步信息。

  • 哨兵向订阅里边公布信息。

  • 故障转移:哨兵发现主节点下线→哨兵开启投票竞选卖力人→由卖力人推选新的主节点→新的主节点断开原主节点,而且其他的从节点毗邻新的主节点,原主节点上线后作为从节点毗邻。


以上就是笔者对哨兵的明白,若是错误迎接指出,以便实时矫正。