拜占庭将军问题

曾经的拜占庭国土辽阔,为了抵御来自各个方向的敌人,军队之间分隔很远,他们之间只能通过信使互相传递消息。一场新的战役即将爆发,有5支拜占庭军队要共同进退,5个将军都是平级的,他们要怎么达成一起进攻或者一起撤退的共识呢?

最简单的办法就是投票,每个将军都派出信使将自己的意见发给其他四个将军。对每个将军来说,算上自己的票数,如果进攻票超过2票就会发起进攻,如果少于或者等于2票就撤退。这是最简单的情况,很合逻辑。那假如是下面的情况呢?

  1. 5个将军中有一个是奸细,其他4个将军有两个赞成进攻,2个反对,这个将军给其中2个发去了进攻的意见,给另外2个却是撤退,结果是2支军队进攻,2支军队撤退,没有达成共识。
  2. 可能有一个或者多个信使被暗杀,或者被策反。

在这两种情况下,投票的结果不能代表大多数将军的意见。

以上,可以总结出拜占庭将军问题:在可能有叛徒的情况下,其余忠诚的将军如何不受其影响达成一致的协议?

拜占庭帝国在还没得出解决方案就亡国了,那现在说这个问题的意义在哪?

卖了个大官子,其实这个故事是对分布式系统要解决问题的模型化。

什么是分布式系统?

随着对计算量和存储量需求的不断增加,制造一台拥有超强计算能力和存储空间的计算机成本高,而且总是会有瓶颈,分布式系统则是由一组普通廉价的计算机通过互相通信来一起完成计算和存储等工作,当需要更高的算量或者储存时,可以增加机器,需求少的情况可以减少机器,整体比单台超级计算机更灵活也更实惠。

从 拜占庭将军问题 到 分布式系统问题

将拜占庭将军的故事映射到分布式系统上,每个将军代表一台计算机,信使代表通信系统,单台计算机可能遭受恶意攻击后向其他计算机发送错误信息,通信网络可能会阻塞、断开,通信内容可能被截取、替换,在这些情况下,正常运行的计算机怎么达成一致执行任务呢?

这是2013年图灵奖得主 Leslie Lamport 在 1980 年的论文 The Byzantine Generals Problem 中提出的分布式领域的容错问题,这是分布式领域最复杂、最严格的容错模型。

许多解决方案,共识算法相继被提出。在日常工作中使用的分布式系统面对的问题不会那么复杂,更多的是计算机故障挂掉了,或者网络通信问题而没法传递信息,这种情况不考虑计算机之间互相发送恶意信息,极大简化了系统对容错的要求,最最主要的是达到一致性。

下一篇文章会介绍在这种简化要求的情况下的一种共识算法:Raft,再之后会讲讲其他的一些能够解决复杂情况的共识算法。