占优均衡(Dominant Equilibrium)
目录 |
当博弈的所有参与者都不想改换策略时所达到的稳定状态叫做均衡,均衡的结果叫做博弈的解。例如在甲乙两人博弈中,如果达到一种均衡:不管甲如何选择,乙都不会改变策略,同样无论乙如何选择,甲也不会改变策略,这种均衡就叫做占优均衡。这种无论对方如何决策,自己总是会选择的策略叫做占优策略,由双方的占优策略所达成的均衡叫做占优均衡。
在博弈论中,当所有博弈者都有一个占优战略时,其结果将是占优均衡。占优均衡是每一个参与者都处于优势战略时的均衡。例如,在本辞条后的案例中,囚徒A和B均处于一个两难困境中,即无论B如何选择,A的最好战略就是交代,而无论A如何选择,B的最好战略也是交代,在此,囚徒两难困境的均衡就是占优均衡。如果每个囚徒都根据自己的最高利益来进行抉择,那么,这个博弈的最终结果就是每个人都交代。
以上面案例中占优战略里的囚徒困境为例,先从A的观点来看问题,A认识到他的结果取决于B采取的行为,如果B交代则必然使A也选择交代,因为在这种情况下,他宁愿被判刑8年,而不愿被判刑10年。但是如果B不交代,这也会使A选择交代,因为在这种情况下,他可以被立即释放而不是被判刑1年。A的推理是,无论B如何选择,他的最好行为是交代。从B的观点看也和A一样,B知道如果A交代,他不交代将被判刑10年,他交代则只被判刑8年。如果A不交代,他交代将被立即被释放,而不是被判刑1年。因此,无论A如何行动,B最好的选择是交代。每个囚徒都知道无论对方如何做,自己最好的选择是交代。由于每个囚徒的最好选择是交代,每个人也都交代了,所以最终两人都被判刑8年,这个均衡就是占优均衡。
从囚徒的角度看,博弈的均衡是每个人都交代,但这却并不是最好的结果。如果他们都不交代,每个人都只会被判刑1年。有得到这种均衡的可能吗?似乎没有,因为两个囚徒不可能相互联系,每个囚徒都可以把自己放在对方的地位,这样每个囚徒都可以估计到存在一种对每个人都具有决定性意义的战略。囚徒的确处在两难困境之中,每个囚徒都知道,只要他相信对方不交代,就可以只被判刑1年。但是每个囚徒也都知道,不交代显然不符合对方的最高利益,因此,每个囚徒都知道,他必须交代,从而两个人都得到了坏结果。
案例:两个嫌疑犯作案后被警察抓住,分别关在不同的房间里接受审讯。警察知道两人有罪,但缺乏足够的证据定罪,除非两个人中至少有一个人坦白。警察于是告诉每个人:如果两人都不承认,每个人都将会以轻微的犯罪被判刑1年;如果两人都坦白,各判刑8年;如果两个人中一个坦白另一个人抵赖,坦白的人将被立即释放出去,而抵赖的则被判刑10年,这样,每个嫌疑犯都面临四个结果,可得到下列支付矩阵:
囚犯A 的对策 | 囚犯B的对策 | ||
坦白 | 抵赖 | ||
坦白 | 8年,8年 | 立即释放,10年 | |
抵赖 | 10年,立即释放 | 1年,1年 |
在这个博弈中每个嫌疑犯都有两种可能的选择:坦白或抵赖。显然,不论同伙选择什么样的战略,每个囚徒的最优战略是坦白,比如,如果B选择坦白,A也选择坦白时的支付是被判刑8午,选择抵赖时的支付是被判刑10牟,因而对A来说坦白比抵赖好;如果B选择抵赖,A坦白时的支付为立即被释放,抵赖时的支付为被判刑Ⅱ年,因而坦白还是比抵赖好。就是说,“坦白”是囚徒A的占优战略。类似地,“坦白”也是囚犯B的占优战略。