古老的“拜占庭将军问题” 02
接上篇
拜占庭将军问题”并非如传说中那样,源于公元5世纪的东罗马战场,而是产生于1982年一位美国计算机科学家的头脑当中。
因此,我们不会使用任何1982年之前的案例来描述这个问题在古老年代的意义,因为再往前追溯,它并未真正、严肃地被提出并加以审视。 在原始的战争年代,将军与将军、将军与下属间只能采用原始的方式——“出行靠走,通讯靠吼”的口头传输。这对应兰伯特论文提出算法中的第一部分的口头消息算法,简称OM(m)算法。
这种情形,真伪很难辨别,只有当叛徒的总数不超过将军总数的1/3,成为一个特殊的“拜占庭容错系统”时,才能在很大的消息验证代价后,实现最终的一致行动。这个结果非常令人惊讶,如果将军们只能发送口头消息,除非超过2/3的将军是忠诚的,否则该问题无解。尤其是,如果只有三个将军,其中一个是叛变者,那么此时无解。但这样的错误,这样的有意、无意的“叛徒”却可能经常出现。无论是我们把“叛变的将军”替换成以下哪种,该问题都成立。
• 一个出故障的,向其他计算机不停发出不同错误信息的服务器;
• 一份为获取暴利而做出来的金融票据;
• 一份失效的医疗纠纷合同;
• 一份含混不清的保单;
• 一个可以发出消息,做出行动的错误信息节点。
而这里,每一个错误节点可以做任意事情:不响应;发送错误信息;对不同节点发送不同决定;不同错误节点联合起来攻击其他节点等。没准会出现比这更严重、更荒谬的错误。
如果说“叛变的拜占庭将军”是我们社会中各种类型的信息节点的隐喻,那么“拜占庭将军问题”所描述的情景,这样一个进攻/撤退命令极难验证真伪的中世纪战场,则无疑是我们当今越发缺乏中心化的、难以判别信息与产生信任的社会的极度悲观的隐喻。
构造出一个完美的、可以解决问题的“拜占庭容错系统”是一个不小的挑战。而且构造出来以后,其是否真的有效,能否经得起时间的考验与各方的质疑,这些都关乎着这个系统未来的命运与其创造群体的声誉。 2008年冬季,美国MIT(麻省理工学院)的密码学及密码学政策战略的邮件讨论组中,一位澳大利亚的企业家James A Donald(詹姆斯·A. 唐纳德)就对一位声称构造出了一个点对点的、不需要第三方权威认证的e-cash(电子现金)支付系统提出了质疑。
而他的理由就是:对方设计的P2P系统不能够解决“拜占庭将军问题”。 在邮件中他挑剔地说道:“我们的确真的非常非常需要这个系统,但我所担忧的并不是信任的问题,而是如何获取一个全局共享的图景,借由此点而获取一致性的问题。每个人都知道X,这并不足够。
我们需要让每个人都知道‘每个人都知道X’。而每个人都知道‘每个人都知道X’就是‘拜占庭将军问题’中,分布式的数据处理最难解决的问题。尤其是当X是非常庞大的数据时……”言下之意,他并不清楚或不确信这个去中心化的系统,如何解决拜占庭将军的难题。 仅仅在一天之后,他就收到了原作者的回复,一封简洁、优雅的邮件解释了在这个系统中,破解“拜占庭将军问题”的算法。
一群拜占庭将军,人手一台电脑想用字符串模式匹配的方法,暴力破解国王的Wi-Fi密码,当然他们已经事先获取了组成密码的字符串的长度。一旦他们开始模拟网络发送数据包,他们必须在一个限定的时间内完成破解工作,并清除服务器和电脑上的记录,否则他们就会被发现,那就麻烦了。
只有当绝大多数将军在同一时间发起攻击和破解,这样才能有足够的CPU(中央处理器)和计算能力在短时间内完成破解工作。 他们并不特别在乎什么时候开始攻击,只要他们全部同意就好。
一开始的时候,大家决定这样搞:任何人觉得时机到了都可以宣布一个攻击时刻。而且,不论是什么时候,只要是第一个被听到的攻击时刻,就将被确定为官方的攻击时刻。这样的话问题又来了,因为网络传达有延迟和干扰,如果有两个将军差不多同一时间公布了两个不同的攻击时刻,那么有的人会最先听到其中一个将军发布的攻击时刻,而又有些人则会最先听到另外一个将军发布的攻击时刻。
他们使用一个“工作量证明链”来解决这个问题。当每个将军接收到任何表达形式的第一个攻击时刻时,他都会设置他的计算机来求解一个极其困难的“工作量证明”问题,对这个问题的解答是一个哈希(Hash)散列,里面也将包含着这次的攻击时刻。
由于这个“工作量证明”问题,非常难解,一般而言,就算所有人收到这个问题后同时求解,也至少需要10分钟才能产生解答。
一旦一个将军解出了“工作量证明”,他将会把这个算出来的“工作量证明”向整个网络进行传播,每一个接收到的人,将在他们当前正在做的“工作量证明”计算的散列中附加上刚刚被求解出来的那个工作量证明。如果任何人正在计算他收到的其他的一个不同的攻击时刻,他们将会转向新的更新后的“工作量证明”计算当中,因为他现在的“工作量证明链”更长了。
两个小时后,将有一个攻击时刻被散列在一个有12个“工作量证明”的链中。每个将军只要通过验证(这条工作链的)计算难度,就能估算出平均每小时有多少CPU算力耗费在这上面,也就会知道:这一定是在分配的时间段内,绝大多数将军的计算机共同协作才能生成的结果。
如果“工作量证明链”中展示出来的算力足够强大,可以破解国王的Wi-Fi密码,那么他们就可以在一致同意的时间内安全地展开攻击。 同步、分布式数据库和一个一致的、全局性的视野的问题如何解决?“工作量证明链”就是答案。
我们可以看到这封邮件解决了下面几个问题:
(1)引入一个困难的、需要10分钟求解的工作量计算,限制了网络中每个时刻中被提出的进攻时刻数目。
(2)将所有求解出的“工作量证明”都逐一加入,形成一个越来越长的链条,一个记录着所有“参与着攻击时刻哈希计算的将军、计算的‘工作量证明’、关于‘工作量证明’的计算的总体名录”。
(3)基于这条长链得出安全的进攻时刻的答案。