日报标题:既然法官们都判他有罪,那就算他无罪吧……?
古罗马法庭审判有一条奇怪的规定,如果所有法官对被告人的判决均为有罪,那么被告人反而会被无罪释放。
现在假如有 3 个「绝顶聪明」的罗马法官,他们各自独立判决。他们都想让被告人被判有罪,只要判决他有罪的人数比判决他无罪的人数多,且三个人不是同时判有罪,则被告人最终被判有罪。
现在,假如我是其中的一个法官,我想知道最佳的策略是什么?
Part 1 计算部分
一般两个人的时候我们可以画支付矩阵,三个人的话,通常是这么画:G=有罪 N=无罪
红圈圈出的是最优反应,所以可以看出有四个纯策略纳什均衡:( @寨森)
(1)A 选择无罪,BC 选择有罪
(2)B 选择无罪,AC 选择有罪
(3)C 选择无罪,AB 选择有罪
(4)ABC 均选择无罪
再考虑混合策略纳什均衡:
(1)如果只有一个人混合,只可能发生在另两人选 N 的情况下(否则都有唯一的最优反应),此时选择 G 和 N 是 indifferent 的。不妨假设是 A 进行混合(p 概率选 G,1-p 概率选 N),BC 均选择 N,对 B(或者 C 来说),选 N 的期望收益是 0,选 G 的期望收益是 p,只要 p>0 就应该选择 G,矛盾。故不存在一个人混合的混合策略纳什均衡。
(2)如果有两个人混合,一个人不混合。不妨假设是 A 不混合,BC 各自混合。如果 A 选纯策略 N,B 混合,此时 C 的最优反应是 G 而不是混合,所以 A 的纯策略只能是 G。假定 B 进行混合(p 概率选 G,1-p 概率选 N),由对手无差异性,C 选择 G 的收益(1-p)和 C 选择 N 的收益(p)应当相同才会混合,因此 p=1/2。对称的,C 的混合也应当是 1/2 有罪 1/2 无罪。此时 A 选择 G 的收益是 1/2,选择 N 的收益是 1/4,所以 A 选择 G 仍然是最优反应。因此,存在两个人混合的混合策略纳什均衡:有一个人选择有罪,另两个人选择混合策略 1/2 有罪 1/2 无罪。
(3)如果有三个人进行混合,假定 ABC 三个人选择 G 的概率分别是 pA、pB、pC,由对手无差异性:
A:pB(1-pC)+(1-pB)pC=pBpC pB+pC=3pBpC
B:pA(1-pC)+(1-pA)pC=pApC pA+pC=3pApC
C:pB(1-pA)+(1-pB)pA=pBpA pB+pA=3pBpA
pA-pB=3(pA-pB)pC
pA-pC=3(pA-pC)pB
pB-pC=3(pB-pC)pA
这个方程组只有一组解:pA=pB=pC=2/3
所以三个人都混合的混合策略纳什均衡是所有人都选择混合策略 2/3 有罪,1/3 无罪。
这里有一个有趣的地方(虽然和题目无关):这个博弈的纯策略和混合策略纳什均衡总共有 8 个,属于不满足“奇数定理”的那个零测集。关于奇数定理参见 @Manolo 的这个回答:是不是所有 2×2 博弈中,有两个纯策略纳什均衡就一定有一个混合策略纳什均衡? - Manolo 的回答
Part 2 解答部分
求出如上的三人博弈的纳什均衡只解决了部分问题,纳什均衡的一个问题就是:当存在多个纳什均衡时,我们不知道具体会发生哪个纳什均衡。
如果法官可以提前商量的话,那么完全可以约定好一个规则,使得按照规则会有两个人选择有罪另一个人选择无罪;反之,如果法官并不能提前商量,以上所有均衡都可能会发生,因为所有均衡都是每个人在对别人的正确信念(belief)下的最优反应。
注意这里有两点 Remark:
第一,法官在无法沟通的情况下,并不一定会选择最优解。用如下的 Stag Hunt Game 说明更容易一些:
两个人去狩猎,他们只有合作都选择抓鹿才能成功,并得到收益 5;如果不合作,那么抓鹿的人抓不到鹿,收益是 0,而抓兔子可以确保收益 3。
此时的最优解是都去抓鹿(收益 5),但是事实上也可能会发生都去抓兔子(收益 3)。这两个都是纳什均衡(还有一个混合策略纳什均衡,期望收益是 3)。
第二,尽管线性规划解出的结果和三个人混合的混合策略纳什均衡的结果相同,但是在使用线性规划的做法时,背后的想法是错的,因为这相当于认为有人可以告诉这三个人应该做什么,这违背了“各自独立判决”的原则。(而且,如果真的有人可以告诉这三个人应该做什么,为什么不直接命令其中一个人选择无罪呢?)
而混合策略纳什均衡的基础是,每个人都对其他人有一个(rational)belief,根据这个 belief 他们各自选择了行动,而且根据他们的行动,这个 belief 是正确的。注意这里面每个人仍然是各自做决定,同时他们的理性是 common knowledge,因此称他们知道其他人知道他们会这么做决定,也知道其他人知道他们知道其他人知道他们会这么做决定……依此类推。
那么是不是就完全无解了呢?并不是,我在这个回答 有哪些简单但有效的制度设计? - Richard Xu 的回答 中提到过Focal Point的概念,由于某些博弈之外的知识(Knowledge),使得博弈中的某些纳什均衡比其它均衡更有可能被选择。特别注意,Focal Point 并不是(或者说,并不需要)事前商量,它只是依赖于事前的其它信息而已。
几个经典例子:
例 1:两个学生因为出去玩误了考试,他们决定向教授说谎,称是因为车胎爆了所以没能赶回来考试。教授接受了这个理由,并给他们安排了一次补考,补考卷发下来之后,上面只有一道题:哪个车胎爆了?如果这两个学生之前真的有过车胎爆了的经历,那么他们就存在一个 Focal Point,他们都会回答上次爆了的那个车胎。
例 2:就是我提到的那个在纽约碰头的例子,如果我们都只知道纽约有个地标建筑帝国大厦,那么我们在没有交流的情况下也会选择去帝国大厦碰头。
在这个问题中,如果这三个法官不是第一次进行合作,而且以往也发生过这样的事情,那他们在这一次即使不进行交流,也可以按照先前的经历,由某一个人选择无罪。
或者,如果三个法官当中有两个人的性格一直就是坚持有罪就是有罪而不会判无罪,而另一个人则相对灵活一些,那么无需交流,也能达成前两个人判有罪后一个人判无罪这个均衡。
或者,如果大家都认为这个问题当中不应该坚持纯策略,那么所有人都选择混合策略,就会得到 2/3 有罪 1/3 无罪这个混合策略,事实上我个人认为这确实是现实中最有可能出现的纳什均衡。(注意我用了“认为”这个词,因为并不是不能坚持纯策略)
然而,Focal Point 依赖于博弈以外的信息,在问题中没有附加信息的情况下,我们无法知道会发生什么。事实上,博弈中很少存在独立于其他人的选择(或者说对其他人的选择的信念)的最优策略(如果有这样的策略,被称为 Dominant Strategy,即占优策略;囚徒困境当中的“背叛”就是占优策略),绝大多数情况下最优策略都依赖于信念(belief)。
另外一个有趣的地方(和题目有点关系)是,在这个问题当中,如果把“有罪就是有罪,无罪就是无罪”的法官称为“强硬”的,那么:
如果没有法官是“强硬”的,很有可能达成 2/3 有罪 1/3 无罪这个纳什均衡,罪犯有 4/9 的几率被判有罪;
如果有 1 个法官是“强硬”的,很有可能达成该法官判有罪,另两个法官 1/2 有罪 1/2 无罪的纳什均衡,罪犯有 1/2 的几率被判有罪;
如果有 2 个法官是“强硬”的,很有可能达成这两个法官判有罪,另一个法官判无罪的纳什均衡,罪犯一定会被判有罪;
如果有 3 个法官都是“强硬”的,那就没得玩了,罪犯一定会被判无罪。