发布时间:2019-03-18作者:spider阅读(2472)
SOFAJRaft 是一个基于 Raft 一致性算法的生产级高性能 Java 实现,支持 MULTI-RAFT-GROUP,适用于高负载低延迟的场景。
SOFAJRaft 是一个基于 Raft 一致性算法的生产级高性能 Java 实现,支持 MULTI-RAFT-GROUP,适用于高负载低延迟的场景。 使用 SOFAJRaft 你可以专注于自己的业务领域,由 SOFAJRaft 负责处理所有与 Raft 相关的技术难题,并且 SOFAJRaft 非常易于使用,你可以通过几个示例在很短的时间内掌握它。
https://raft.github.io
SOFAJRaft 是从百度的 braft 移植而来,做了一些优化和改进,感谢百度 braft 团队开源了如此优秀的 C++ Raft 实现。
https://github.com/brpc/braft
如何理解分布式共识?
多个参与者某一件事一致 :一件事,一个结论
已达成一致的结论,不可推翻
有哪些分布式共识算法?
Paxos:被认为是分布式共识算法的根本,其他都是其变种,但是 Paxos 论文中只给出了单个提案的过程,并没有给出复制状态机中需要的 multi-paxos 的相关细节的描述,实现 Paxos 具有很高的工程复杂度(如多点可写,允许日志空洞等)。
Zab:被应用在 Zookeeper 中,业界使用广泛,但没有抽象成通用的 library。
Raft:以容易理解著称,业界也涌现出很多 Raft 实现,比如大名鼎鼎的 etcd, braft, tikv 等。
Raft 是一种更易于理解的分布式共识算法,核心协议本质上还是师承 Paxos 的精髓,不同的是依靠 Raft 模块化的拆分以及更加简化的设计,Raft 协议相对更容易实现。
https://raft.github.io/
模块化的拆分主要体现在:Raft 把一致性协议划分为 Leader 选举、MemberShip 变更、日志复制、Snapshot 等几个几乎完全解耦的模块。
更加简化的设计则体现在:Raft 不允许类似 Paxos 中的乱序提交、简化系统中的角色状态(只有 Leader、Follower、Candidate 三种角色)、限制仅 Leader 可写入、使用随机化的超时时间来设计 Leader Election 等等。
特点:Strong Leader
一句话总结 Strong Leader: "你们不要 BB! 按我说的做,做完了向我汇报!"。
另外,身为 Leader 必须保持一直 BB(heartbeat) 的状态,否则就会有别人跳出来想要 BB 。
Raft 中的基本概念
篇幅有限,这里只对 Raft 中的几个概念做一个简单介绍,详细请参考 Raft paper。
https://raft.github.io/raft.pdf
Raft-node 的 3 种角色/状态
Message 的 3 种类型
任期逻辑时钟
本图出自《Raft: A Consensus Algorithm for Replicated Logs》
SOFAJRaft 是一个基于 Raft 一致性算法的生产级高性能 Java 实现,支持 MULTI-RAFT-GROUP,适用于高负载低延迟的场景。 使用 SOFAJRaft 你可以专注于自己的业务领域,由 SOFAJRaft 负责处理所有与 Raft 相关的技术难题,并且 SOFAJRaft 非常易于使用,你可以通过几个示例在很短的时间内掌握它。
https://github.com/brpc/braft
SOFAJRaft 是从百度的 braft 移植而来,做了一些优化和改进,感谢百度 braft 团队开源了如此优秀的 C++ Raft 实现。
功能支持
1.Leader election:Leader 选举,这个不多说,上面已介绍过 Raft 中的 Leader 机制。
2.Log replication and recovery:日志复制和日志恢复。
1)Log replication 就是要保证已经被 commit 的数据一定不会丢失,即一定要成功复制到多数派。
2)Log recovery 包含两个方面:
3)Current term 日志恢复:主要针对一些 Follower 节点重启加入集群或者是新增 Follower 节点后如何追日志;
4)Prev term 日志恢复:主要针对 Leader 切换前后的日志一致性。
3.Snapshot and log compaction:定时生成 snapshot,实现 log compaction 加速启动和恢复,以及 InstallSnapshot 给 Followers 拷贝数据,如下图:
本图出自《In Search of an Understandable Consensus Algorithm》
4.Membership change:用于集群线上配置变更,比如增加节点、删除节点、替换节点等。
5.Transfer leader:主动变更 leader,用于重启维护,leader 负载平衡等。
6.Symmetric network partition tolerance:对称网络分区容忍性。
如上图 S1 为当前 leader,网络分区造成 S2 不断增加本地 term,为了避免网络恢复后 S2 发起选举导致正在良心 工作的 leader step-down,从而导致整个集群重新发起选举,SOFAJRaft 中增加了 pre-vote 来避免这个问题的发生。
SOFAJRaft 中在 request-vote 之前会先进行 pre-vote(currentTerm + 1, lastLogIndex, lastLogTerm),多数派成功后才会转换状态为 candidate 发起真正的 request-vote,所以分区后的节点,pre-vote 不会成功,也就不会导致集群一段时间内无法正常提供服务。
7.Asymmetric network partition tolerance:非对称网络分区容忍性。
如上图 S1 为当前 leader,S2 不断超时触发选主,S3 提升 term 打断当前 lease,从而拒绝 leader 的更新。
8.Fault tolerance:容错性,少数派故障不影响系统整体可用性,包括但不限于:
1)机器掉电
2)强杀应用
3)慢节点(GC, OOM 等)
4)网络故障
5)其他各种奇葩原因导致 raft 节点无法正常工作
9.Workaround when quorate peers are dead:多数派故障时,整个 grop 已不具备可用性,安全的做法是等待多数节点恢复,只有这样才能保证数据安全;但是如果业务更加追求系统可用性,可以放弃数据一致性的话,SOFAJRaft 提供了手动触发 reset_peers 的指令以迅速重建整个集群,恢复集群可用。
10.Metrics:SOFAJRaft 内置了基于 Metrics 类库的性能指标统计,具有丰富的性能统计指标,利用这些指标数据可以帮助用户更容易找出系统性能瓶颈。
11.Jepsen:除了几百个单元测试以及部分 chaos 测试之外, SOFAJRaft 还使用 jepsen 这个分布式验证和故障注入测试框架模拟了很多种情况,都已验证通过:
1)随机分区,一大一小两个网络分区
2)随机增加和移除节点
3)随机停止和启动节点
4)随机 kill -9 和启动节点
5)随机划分为两组,互通一个中间节点,模拟分区情况
6)随机划分为不同的 majority 分组
性能优化
除了功能上的完整性,SOFAJRaft 还做了很多性能方面的优化,这里有一份 KV 场景(get/put)的 Benchmark 数据, 在小数据包,读写比例为 9:1,保证线性一致读的场景下,三副本最高可以达到 40w+ 的 ops。
这里挑重点介绍几个优化点:
SOFAJRaft 设计
SOFAJRaft Group
单个节点的 SOFAJRaft-node 是没什么实际意义的,下面是三副本的 SOFAJRaft 架构图:
单个 Raft group 是无法解决大流量的读写瓶颈的,SOFAJRaft 自然也要支持 multi-raft-group。
什么是线性一致读? 所谓线性一致读,一个简单的例子就是在 t1 的时刻我们写入了一个值,那么在 t1 之后,我们一定能读到这个值,不可能读到 t1 之前的旧值 (想想 Java 中的 volatile 关键字,说白了线性一致读就是在分布式系统中实现 Java volatile 语义)。
如上图 Client A、B、C、D 均符合线性一致读,其中 D 看起来是 stale read,其实并不是,D 请求横跨了 3 个阶段,而读可能发生在任意时刻,所以读到 1 或 2 都行。
重要:接下来的讨论均基于一个大前提,就是业务状态机的实现必须是满足线性一致性的,简单说就是也要具有 Java volatile 的语义。
本图出自《Raft: A Consensus Algorithm for Replicated Logs》
这一定是可以的,但性能上显然不会太出色,走 Raft Log 不仅仅有日志落盘的开销,还有日志复制的网络开销,另外还有一堆的 Raft “读日志” 造成的磁盘占用开销,这在读比重很大的系统中通常是无法被接受的。
在 SOFAJRaft 中发起一次线性一致读请求的代码展示:
// KV 存储实现线性一致读 public void readFromQuorum(String key, AsyncContext asyncContext) { // 请求 ID 作为请求上下文传入 byte[] reqContext = new byte[4]; Bits.putInt(reqContext, 0, requestId.incrementAndGet()); // 调用 readIndex 方法, 等待回调执行 this.node.readIndex(reqContext, new ReadIndexClosure() { @Override public void run(Status status, long index, byte[] reqCtx) { if (status.isOk()) { try { // ReadIndexClosure 回调成功,可以从状态机读取最新数据返回 // 如果你的状态实现有版本概念,可以根据传入的日志 index 编号做读取 asyncContext.sendResponse(new ValueCommand(fsm.getValue(key))); } catch (KeyNotFoundException e) { asyncContext.sendResponse(GetCommandProcessor.createKeyNotFoundResponse()); } } else { // 特定情况下,比如发生选举,该读请求将失败 asyncContext.sendResponse(new BooleanCommand(false, status.getErrorMsg())); } } }); }
使用案例
实践
一、基于 SOFAJRaft 设计一个简单的 KV Store
二、基于 SOFAJRaft 的 RheaKV 的设计
功能名词
PD
全局的中心总控节点,负责整个集群的调度,不需要自管理的集群可不启用 PD (一个 PD 可管理多个集群,基于 clusterId 隔离)。
Store
集群中的一个物理存储节点,一个 Store 包含一个或多个 Region。
Region
最小的 KV 数据单元,每个 Region 都有一个左闭右开的区间 [startKey, endKey), 可根据请求流量/负载/数据量大小等指标自动分裂以及自动副本搬迁。
特点
嵌入式
强一致性
自驱动
自诊断, 自优化, 自决策
以上几点(尤其2、3) 基本都是依托于 SOFAJRaft 自身的功能来实现,详细介绍请参考 SOFAJRaft 文档 。
感谢 braft、etcd、tikv 贡献了优秀的 Raft 实现,SOFAJRaft 受益良多。
文章转载自:http://news.51cto.com/art/201903/593496.htm
版权属于: 技术客
原文地址: https://www.sunjs.com/article/detail/edbe91acf6844077ba51a0352e39070f.html
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
本文章为系统自动抓取,如涉及您的版权,请联系博主进行下架处理