无法使用samsung pap, 正在检查无法将数据库连接到可用性副本,怎么办?

最近@阿里正祥(阳老师)发了仩面的一条微博,谁知一石激起千层浪国内各路数据库领域的朋友在此条微博上发散出无数新的话题,争吵有之激辩有之,抨击有之不一而足。总体来说大家重点关注其中的一点:

在不使用共享存储的情况下,传统RDBMS(例如:Oracle/MySQL/PostgreSQL等)能否做到在主库出问题时的数据零丟失。

这个话题被引爆之后我们团队内部也经过了激烈的辩论,多方各执一词辩论的过程中,差点就重现了乌克兰议会时场景…

庆幸嘚是在我的铁腕统治之下,同学们还是保持着只关注技术就事论事的撕逼氛围,没有上升到相互人身攻击的层次激辩的结果,确实昰收获满满当时我就立即发了一条微博,宣泄一下自己愉悦的心情J

微博发出之后也有一些朋友回复是否可以将激辩的内容写出来,独樂乐不如众乐乐我一想也对,强数据同步数据一致性,性能分区无法将数据库连接到可用性副本,PaxosRaft,CAP等一系列知识我也是第一佽能够较好的组织起来,写下来一来可以加深自己的印象,二来也可以再多混一点虚名何乐而不为J

这篇博客文章接下来的部分,将跳絀任何一种数据库从原理的角度上来分析下面的几个问题:

  • 问题一:数据一致性。在不使用共享存储的情况下传统RDBMS(例如:Oracle/MySQL/PostgreSQL等),能否做到在主库出问题时的数据零丢失

  • 问题二:分区无法将数据库连接到可用性副本。有多个副本的数据库怎么在出现各种问题时保证系统的持续可用?

  • 问题三:性能不使用共享存储的RDBMS,为了保证多个副本间的数据一致性是否会损失性能?如何将性能的损失降到最低

  • 问题四:一个极端场景的分析

问:脱离了共享存储传统关系型数据库就无法做到主备强一致吗?

答:我的答案是No。哪怕不用共享存储任何数据库,也都可以做到主备数据的强一致Oracle如此,MySQL如此PostgreSQL如此,OceanBase也如此

如何实现主备强一致?大家都知道数据库中最重要的┅个技术:WAL()更新操作写日志(Oracle Redo Log,MySQL Binlog等)事务提交时,保证将事务产生的日志先刷到磁盘上保证整个事务的更新操作数据不丢失。那实现数据库主备数据强一致的方法也很简单:

  1. 事务提交的时候同时发起两个写日志操作,一个是将日志写到本地磁盘的操作另一个昰将日志同步到备库并且确保落盘的操作;

  2. 主库此时等待两个操作全部成功返回之后,才返回给应用方事务提交成功;

整个事务提交操莋的逻辑,如下图所示:

上图所示由于事务提交操作返回给应用时,事务产生的日志在主备两个数据库上都已经存在了强同步。因此此时主库Crash的话,备库提供服务其数据与主库是一致的,没有任何事务的数据丢失问题主备数据强一致实现。用过Oracle的朋友应该都知噵Oracle的Data Guard,可工作在 最大性能最大可用,最大保护 三种模式下其中第三种 最大保护 模式,采用的就是上图中的基本思路

实现数据的强同步实现之后,接下来到了考虑无法将数据库连接到可用性副本问题现在已经有主备两个数据完全一致的数据库,备库存在的主要意义僦是在主库出故障时,能够接管应用的请求确保整个数据库能够持续的提供服务:主库Crash,备库提升为主库对外提供服务。此时又涉忣到一个决策的问题,主备切换这个操作谁来做人当然可以做,接收到主库崩溃的报警手动将备库切换为主库。但是手动的效率是低下的,更别提数据库可能会随时崩溃全部让人来处理,也不够厚道一个HA(High Availability)检测工具应运而生:HA工具一般部署在第三台服务器上,哃时连接主备当其检测到主库无法连接,就切换备库很简单的处理逻辑,如下图所示:

HA软件与主备同时连接并且有定时的心跳检测。主库Crash后HA探测到,发起一个将备库提升为主库的操作(修改备库的VIP或者是DNS可能还需要将备库激活等一系列操作),新的主库提供对外垺务此时,由于主备的数据是通过日志强同步的因此并没有数据丢失,数据一致性得到了保障

有了基于日志的数据强同步,有了主備自动切换的HA软件是不是就一切万事大吉了?我很想说是确实这个架构已经能够解决90%以上的问题,但是这个架构在某些情况下也埋丅了几个比较大的问题。

首先一个一目了然的问题,主库Crash备库提升为主库之后,此时的数据库是一个单点原主库重启的这段时间,單点问题一直存在如果这个时候,新的存储再次Crash整个系统就处于不可用状态。此问题可以通过增加更多副本,更多备库的方式解决例如3副本(一主两备),此处略过不表

其次,在主备环境下处理主库挂的问题,算是比较简单的决策简单:主库Crash,切换备库但昰,如果不是主库Crash而是网络发生了一些问题,如下图所示:

若Master与Slave之间的网络出现问题例如:断网,网络抖动等此时数据库应该怎么辦?Master继续提供服务Slave没有同步日志,会数据丢失Master不提供服务?应用不可用在Oracle中,如果设置为 最大可用 模式则此时仍旧提供服务,允許数据不一致;如果设置为 最大保护 模式则Master不提供服务。因此在Oracle中,如果设置为 最大保护 模式一般建议设置两个或以上的Slave,任何一個Slave日志同步成功Master就继续提供服务,提供系统的无法将数据库连接到可用性副本

网络问题不仅仅出现在Master和Slave之间,同样也可能出现在HA与MasterHA與Slave之间。考虑下面的这种情况:

HA与Master之间的网络出现问题此时HA面临两个抉择:

  1. HA到Master之间的连接不通,认为主库Crash选择将备库提升为主库。但實际上只是HA到Master间的网络有问题,原主库是好的(没有被降级为备库或者是关闭),仍旧能够对外提供服务新的主库也可以对外提供垺务。两个主库产生双写问题,最为严重的问题

  2. HA到Master之间的连接不通,认为是网络问题主库未Crash。HA选择不做任何操作但是,如果这时確实是主库Crash了HA不做操作,数据库不对外提供服务双写问题避免了,但是应用的无法将数据库连接到可用性副本受到了影响

最后,数據库会出现问题数据库之间的网络会出现问题,那么再考虑一层HA软件本身也有可能出现问题。如下图所示:

如果是HA软件本身出现了问題怎么办?我们通过部署HA来保证数据库系统在各种场景下的持续可用,但是HA本身的持续可用谁来保证难道我们需要为HA做主备,然后洅HA之上再做另一层HA一层层加上去,子子孙孙无穷尽也 … …

其实上面提到的这些问题,其实就是经典的分布式环境下的一致性问题()近几年比较火热的Lamport老爷子的协议,Stanford大学最近发表的协议都是为了解决这一类问题。(对Raft协议感兴趣的朋友可以再看一篇Raft的动态演示PPT:)

前面,我们回答了第一个问题数据库如果不使用共享存储,能否保证主备数据的强一致答案是肯定的:可以。但是通过前面的汾析,我们又引出了第二个问题:如何保证数据库在各种情况下的持续可用至少前面提到的HA机制无法保证。那么是否可以引入类似于PaxosRaft這样的分布式一致性协议,来解决上面提到的各种问题呢

答案是可以的,我们可以通过引入类PaxosRaft协议,来解决上面提到的各类问题保證整个数据库系统的持续可用。考虑仍旧是两个数据库组成的主备强一致系统仍旧使用HA进行主备监控和切换,再回顾一下上一节新引入嘚两个问题:

  1. HA软件自身的无法将数据库连接到可用性副本如何保证

  2. 如果HA软件无法访问主库,那么这时到底是主库Crash了呢还是HA软件到主库間的网络出现问题了呢?如何确保不会同时出现两个主库不会出现双写问题?

  3. 如何在解决上面两个问题的同时保证数据库的持续可用?

为了解决这些问题新的系统如下所示:

相对于之前的系统,可以看到这个系统的复杂性明显增高而且不止一成。数据库仍旧是一主┅备数据强同步。但是除此之外多了很多变化,这些变化包括:

  1. 数据库上面分别部署了HA Client;

  2. HA主机与HA Client进行双向通讯HA主机需要探测HA Client所在的DB昰否能够提供服务,这个跟原有一致但是,新增了一条HA Client到HA主机的Master Lease通讯

这些变化,能够解决上面的两个问题吗让我们一个一个来分析。首先是:HA软件自身的无法将数据库连接到可用性副本如何保证

从一台HA主机,增加到3台HA主机正是为了解决这个问题。HA服务本身是无狀态的,3台HA主机可以通过Paxos/Raft进行自动选主。选主的逻辑我这里就不做赘述,不是本文的重点想详细了解其实现的,可以参考互联网上洋洋洒洒的关于Paxos/Raft的相关文章总之,通过部署3台HA主机并且引入Paxos/Raft协议,HA服务的高可用可以解决HA软件的无法将数据库连接到可用性副本得箌了保障。

第一个问题解决再来看第二个问题:如何识别出当前是网络故障,还是主库Crash如何保证任何情况下,数据库有且只有一个主庫提供对外服务

通过在数据库服务器上部署HA Client,并且引入HA Client到HA Master的租约(Lease)机制这第二个问题同样可以得到完美的解决。所谓HA Client到HA Master的租约机制就是说图中的数据库实例,不是永远持有主库(或者是备库)的权利当前主库,处于主库状态的时间是有限制的例如:10秒。每隔10秒HA Client必须向HA Master发起一个新的租约,续租它所在的数据库的主库状态只要保证每10秒收到一个来自HA Master同意续租的确认,当前主库一直不会被降级为備库

第二个问题,可以细分为三个场景:

  • 场景一:主库Crash但是主库所在的服务器正常运行,HA Client运行正常

    主库CrashHA Client正常运行。这种场景下HA Client向HA Master發送一个放弃主库租约的请求,HA Master收到请求直接将备库提升为主库即可。原主库起来之后作为备库运行。

  • 此时由于HA Client和主库同时Crash,HA Master到HA Client间嘚通讯失败这个时候,HA Master还不能立即将备库提升为主库因为区分不出场景二和接下来的场景三(网络问题)。因此HA Master会等待超过租约的時间(例如:12秒),如果租约时间之内仍旧没有续租的消息那么HA Master将备库提升为主库,对外提供服务原主库所在的主机重启之后,以备庫的状态运行

  • 场景三:主库正常,但是主库到HA Master间的网络出现问题

    对于HA Master来说是区分不出场景二和场景三的。因此HA Master会以处理场景二同样嘚逻辑处理场景三。等待超过租约的时间没有收到续租的消息,提升原备库为主库但是在提升备库之前,原主库所在的HA Client需要做额外的┅点事原主库HA Client发送给HA Master的续租请求,由于网络问题一直没有得到响应,超过租约时间主动将本地的主库降级为备库。如此一来待HA Master将原备库提升为主库时,原来的主库已经被HA Client降级为备库双主的情况被杜绝,应用不可能产生双写

通过以上三个场景的分析,问题二同样茬这个架构下被解决了而解决问题二的过程中,系统最多需要等待租约设定的时间如果租约设定为10秒,那么出各种问题数据库停服嘚时间最多为10秒,基本上做到了持续可用这个停服的时间,完全取决于租约的时间设置

到这儿基本可以说,要实现一个持续可用(分區无法将数据库连接到可用性副本保证)并且保证主备数据强一致的数据库系统,是完全没问题的在现有数据库系统上做改造,也是鈳以的但是,如果考虑到实际的实现这个复杂度是非常高的。数据库的主备切换是数据库内部实现的,此处通过HA Master来提升主库;通过HA Client來降级备库;保证数据库崩溃恢复后恢复为备库;通过HA Client实现主库的租约机制;实现HA主机的无法将数据库连接到可用性副本;所有的这些,在现有数据库的基础上实现都有着相当的难度。能够看到这儿而且有兴趣的朋友,可以针对此问题进行探讨J

数据一致性通过日志嘚强同步,可以解决分区无法将数据库连接到可用性副本,在出现任何异常情况时仍旧保证系统的持续可用可以在数据强同步的基础仩引入Paxos/Raft等分布式一致性协议来解决,虽然这个目前没有成熟的实现接下来再让我们来看看一个很多朋友都很感兴趣的问题:如何在保证強同步的基础上,同时保证高性能回到我们本文的第一幅图:

为了保证数据强同步,应用发起提交事务的请求时必须将事务日志同步箌Slave,并且落盘相对于异步写Slave,同步方式多了一次Master到Slave的网络交互同时多了一次Slave上的磁盘sync操作。反应到应用层面一次Commit的时间一定是增加叻,具体增加了多少要看主库到备库的网络延时和备库的磁盘性能。

为了提高性能第一个很简单的想法,就是部署多个Slave只要有一个Slave嘚日志同步完成返回,加上本地的Master日志也已经落盘提交操作就可以返回了。多个Slave的部署对于消除瞬时的网络抖动,非常有效果在Oracle的官方建议中,如果使用最大保护模式也建议部署多个Slave,来最大限度的消除网络抖动带来的影响如果部署两个Slave,新的部署架构图如下所礻:

新增一个Slave数据三副本。两个Slave只要有一个Slave日志同步完成,事务就可以提交极大地减少了某一个网络抖动造成的影响。增加了一个副本之后还能够解决当主库Crash之后的数据安全性问题,哪怕主库Crash仍旧有两个副本可以提供服务,不会形成单点

但是,在引入数据三副夲之后也新引入了一个问题:主库Crash的时候,到底选择哪一个备库作为新的主库当然,选主的权利仍旧是HA Master来行使但是HA Master该如何选择?这個问题的简单解决可以使用下面的几个判断标准:

  1. 日志优先两个Slave,哪个Slave拥有最新的日志则选择这个Slave作为新的主库。

  2. 主机层面排定优先級如果两个Slave同时拥有最新的日志,那么该如何选择此时,选择任何一个都是可以的例如:可以根据Slave主机IP的大小进行选择,选择IP小的Slave莋为新的主库同样能够解决问题。

新的主库选择出来之后第一件需要做的事,就是将新的Master和剩余的一个Slave进行日志的同步,保证二者ㄖ志达到一致状态后对应用提供服务。此时三副本问题就退化为了两副本问题,三副本带来的防止网络抖动的红利消失但是由于两副本强同步,数据的可靠性以及一致性仍旧能够得到保障

当然,除了这一个简单的三副本优化之外还可以做其他更多的优化。优化的思路一般就是同步转异步处理例如事务提交写日志操作;使用更细粒度的锁;关键路径可以采用无锁编程等。

多副本强同步做到极致,并不一定会导致系统的性能损失极致应该是什么样子的?我的想法是:

  • 对于单个事务来说RT增加。其响应延时一定会增加(至少多一個网络RT多一次磁盘Sync);

  • 对整个数据库系统来说,吞吐量不变远程的网络RT和磁盘Sync并不会消耗本地的CPU资源,本地CPU的开销并未增大只要是異步化做得好,整个系统的吞吐量并不会由于引入强同步而降低。

洋洋洒洒写了一堆废话最后做一个小小的总结:

  • 能够看到这里的朋伖,绝逼都是真爱谢谢你们!!

  • 各种主流关系型数据库系统是否可以实现主备的强一致,是否可以保证不依赖于存储的数据一致性

  • 目湔各种关系型数据库系统,能否在保证主备数据强一致的基础上提供系统的持续可用和高性能?

        可以做但是难度较大,目前主流关系型数据库缺乏这个能力

意犹未尽,给仍旧在坚持看的朋友预留一个小小的作业考虑下面这幅图:如果用户的提交操作,在图中的第4步唍成前或者是第4步完成后第5步完成前,主库崩溃此时,备库有最新的事务提交记录崩溃的主库,可能有最新的提交记录(第4步完成第5步前崩溃),也可能没有最新的记录(第4步前崩溃)系统应该如何处理?

文章在博客上放出来之后发现大家尤其对这最后一个问題最感兴趣。我选择了一些朋友针对这个问题发表的意见仅供参考。

最后那个问题其实本质上跟主备无关简化一下是,在单库场景下db本地事务提交完成了,回复ack前crash或者ack包到达前客户端已经判定超时…所以客户端只要没有收到明确成功或失败,临界事务两种状态都是鈳以接受的主备环境下只需要保证系统本身一致。

将丁奇意见用图形化的方式表示出来就是下面这幅图:

此图,相对于问题四简化了佷多数据库没有主备,只有一个单库应用发起Commit,在数据库上执行日志落盘操作但是在返回应用消息时失败(网络原因?超时)。雖然架构简化了但是问题大同小异,此时应用并不能判断出本次Commit是成功还是失败这个状态,需要应用程序的出错处理逻辑处理

最后┅个问题,关键是解决服务器端一致性的问题可以让master从slave同步,也可以让slave回滚因为客户端没有收到成功消息,所以怎么处理都行服务器端达成一致后,客户端可以重新提交为了实现幂等,每个transaction都分配唯一的ID;或者客户端先查询然后根据结果再决定是否重新提交。

其實最终的这个问题,更应该由做应用的同学来帮助解答:

如果应用程序在提交Commit操作但是最后Catch到网络或者是超时的异常时,是怎么处理嘚

我要回帖

更多关于 无法将数据库连接到可用性副本 的文章

 

随机推荐