正则形式的博弈

管理百科
管理营销
资源百科
人力财务
经济百科
经济贸易
金融百科
金融证券
行业百科
物流咨询
综合百科
人物品牌

正则形式的博弈

正则形式的博弈（Normal form game）

正则形式的博弈

　　在博弈论中，正则形式是描述博弈的一种方式。与延展形式不同，正则形式不用图形来描述博弈，而是用矩阵来陈述博弈。与延展形式的表述方式相比，这种方式在识别出严格优势策略和纳什均衡上更有用，但会丢失某些信息。博弈的正则形式的表述方式包括如下部分：每个参与者所有显然的和可能的策略，以及和与其相对应的收益。

　　在非完美信息的完全静态博弈中，正则形式的表述方式详细地说明了参与者策略空间和收益函数。策略空间是某个参与者的所有可能策略集合。策略是参与者在博弈的每个阶段——不管在博弈中这个阶段实际上是否会出现——将要采取的行动的完整计划。每个参与者的收益函数，是从参与者策略空间的向量积到该参与者收益集合（一般是实数集，数字表示基数效用或序数效用——在正则形式的表述方式中常常是基数效用）的映射。也就是说，参与者的收益函数把策略组合（所有参与者策略的清单）作为它的输入量，然后输出参与者的收益。

正则形式的使用

占优策略

	合作	背叛
合作	2, 2	0, 3
背叛	3, 0	1, 1

　　收益矩阵有助于剔除劣势策略，而且经常被用于说明这个概念。例如，在囚徒困境中（右图），参与者会发现因为其他人的背叛，合作成了严格劣势策略。参与者会比较每列的第一个数字，在这个例子中，3>2且1>0。这表明无论横排参与者怎样选择，竖排参与者选择背叛都比较好些。类似地，参与者会比较每列的第二个数字，同样也是3>2且1>0。这说明无论竖排参与者怎么做，横排参与者选择背叛都比较好些。这就证明了此博弈唯一的纳什均衡是（背叛，背叛）。

正则形式的连续博弈

一个连续博弈
	左，左	左，右	右，左	右，右
顶	4, 3	4, 3	-1, -1	-1, -1
底	0, 0	3, 4	0, 0	3, 4

　　这些矩阵只表述同时（或者更一般地，信息不完美的）做出行动的博弈。上述矩阵不能表述甲先做出行动，被乙观察到，然后乙再做出行动的博弈。因为在这个例子中，无法确定乙每次的策略。为了表述这种连续博弈，我们要列出乙在博弈进行期间所有的行动——尽管根据实际情况，某种行动决不会出现。和前面一样，在这个博弈中乙有两种选择，左和右。与前面不一样的是，视甲的行动不同而定，乙有四种策略。这些策略是：

　　1. 如果甲选择顶，选择左；否则，选择左

　　2. 如果甲选择顶，选择左；否则，选择右

　　3. 如果甲选择顶，选择右；否则，选择左

　　4. 如果甲选择定，选择右；否则，选择右

　　右图是这个博弈的正则形式的表述方式。

通用公式

　　为了用把博弈表述成正则形式，需要提供下列数据：

　　*表示参与者的有限集P，标记为 ${1,2,\cdots,m}$

　　*每个参与者k在P里拥有有限个纯策略.

　　 $S_k = \{1, 2, \ldots, n_k\}.$

　　一个纯策略组合是参与者策略的联合，这是一个m元组.

　　 $\vec{\sigma} = (\sigma_1, \sigma_2, \ldots,\sigma_m)$

　　则有:

　　 $\sigma_1 \in S_1, \sigma_2 \in S_2, \ldots, \sigma_m \in S_m$

　　我们用 $\sum$ 来表示策略组合的集合

　　收益函数形如

　　 $F: \Sigma \rightarrow \mathbb{R}.$

　　其预期解释是博弈结束时给予单个参与者的奖品。相应地，为了完整地说明一个博弈，收益函数必须在参与者集 P= {1, 2, ..., m}中对每个参与者详细说明。

　　定义：一个正则形式的博弈的结构形如

　　 $(P, \mathbf{S}, \mathbf{F})$

　　这里 P = {1,2, ...,m}是参与者集合，

　　 $\mathbf{S}= (S_1, S_2, \ldots, S_m)$

　　是纯策略集合的一个m元组，每个纯策略对应于一个参与者，而

　　 $\mathbf{F} = (F_1, F_2, \ldots, F_m)$

　　是收益函数的m元组。

　　没有理由在前面的讨论中，把参与者数量有限或每个参与者的策略有限的博弈排除在外。因为要用到泛函分析的技巧，关于有限博弈的研究非常艰深。

实例

*一个正则形式的博弈*
	乙选择左	乙选择右
甲选择顶	4, 3	-1, -1
甲选择底	0, 0	3, 4

　　有种博弈是参与者同时（或至少在做出行动前不观察其他参与者的动作）做出行动，并按照上述已做出行动的组合获得收益。右边的矩阵是这种博弈得正则形式的表述方式。例如，如果甲做出行动“顶”，而乙做出行动“左”，则甲得到收收益4，乙得到收益3。在每个回合，第一个数字代表竖排参与者（此处为甲）的收益，第二个数字代表横排参与者（此处为乙）的收益。

其他表述方式

　　对称博弈（其收益不是依赖于参与者选择的动作）常常被表述为只有一种收益，即竖排参与者的收益。例如，左右两边的收益矩阵表述的是同一个博弈。

*两个参与者都有的*
	雄鹿	野兔
雄鹿	3, 3	0, 2
野兔	2, 0	2, 2

*只有竖排的*
	雄鹿	野兔
雄鹿	3	0
野兔	2	2