进化稳定策略(Evolutionarily stable stragegy,ESS)
目录 |
进化博弈理论来自于达尔文的生物进化论,至少自雷威丁(Lewontin,1960)用于解释生态现象就已经产生了。但直到1973年梅纳德·史密斯和普莱斯(Maynard Smith and Price)、梅纳德·史密斯(1974)提出了该理论的基本均衡概念——进化稳定策略及泰勒和乔克(Taylor and Joker)提出该理论的基本动态概念——模拟者动态以后,进化博弈理论得到了理论界的普遍关注。特别是1992年关于进化博弈理论发展的国际学术会议在康奈尔大学的召开,正式确定了进化博弈理论在经济学上的学术地位,此后,该理论在经济学便上获得了迅速的发展及广泛的应用。越来越多的经济学家运用进化博弈理论来分析诸如社会制度变迁;阿克赛尔罗德(1984)、行业发展趋势(波特,1980)、股市发展方向;利奈尔和罗尔、消费者对品牌的选择、社会学习过程及社会习俗形成等领域的相关问题。进化稳定策略是进化博弈理论最基本的均衡概念,它具有广泛的应用并在发展中得到了不断完善。
在梅纳德·史密斯和普莱斯(1973)、梅纳德·史密斯(1974)提出进化稳定策略概念以前,进化博弈理论的发展还仅仅处于萌芽阶段。在这一时期生态学家们主要应用纯数学理论如极限环、分岔、奇异吸引子(Rosen,1970)等概念来描述生态演化系统并用于解释生态现象,同时把生物之间的互动行为纳入到进化模型之中(Wynne—Edwards,1962),他们的这种处理问题的方法已经蕴含了进化博弈理论的基本思想。在20世纪7O年代,生态学理论和博弈理论在各自领域中都获得了迅速的发展,同时实验经济学作为一门学科也获得了经济学界的一致认同,这些条件为进化论与博弈论的结合提供了理论和现实基础。生态学家梅纳德·史密斯和普莱斯(1973)在总结以前理论的基础上,提出进化博弈理论的基本均衡概念—— 进化稳定策略,该均衡概念的提出使得进化博弈理论的研究有了明确的方向,为进化博弈理论的进一步发展奠定了坚实的基础。
所谓进化稳定策略也叫演化稳定策略,是指如果占群体绝大多数的个体选择进化稳定策略,那么小的突变者群体就不可能侵入到这个群体。或者说,在自然选择压力下,突变者要么改变策略而选择进化稳定策略,要么退出系统而在进化过程中消失。下面我们给出梅纳德·史密斯和普莱斯(1973)所定义的进化稳定策略(参见张良桥,2001):
x∈A是进化稳定策略,如果y∈A,y≠x,存在一个∈(0,1),不等式u[x,εy + (1 − ε)x] > u[y,εx + (1 − ε)x]对任意e∈(0,)都成立。其中A是群体中个体博弈时的支付矩阵;y表示突变策略;是一个与突变策略y有关的常数,称之为侵入界限;εy + (1 − ε)x表示选择进化稳定策略群体与选择突变策略群体所组成的混合群体。从定义可以看出,当系统处于进化稳定状态时(群体选择进化稳定策略时所处的状态就是进化稳定状态),除非有来自外部强大的冲击,否则系统就不会偏离进化稳定状态,即系统会“锁定”于该状态。定义的直观意思就是,当一个系统处于进化稳定均衡的吸引域范围之内时,它就能够抵抗来自外部的小冲击。显然,进化稳定策略是一个静态概念,但它却可以描述出系统的局部即吸引域内的动态性质。
原初进化稳定策略定义为以后的研究者提供了理论基础,但它是建立在许多理想化的假定之上,存在着许多不够完善的地方:
第一,梅纳德·史密斯等是在研究生态现象时提出的进化稳定策略概念的,由于动植物的行为完全是由其基因决定的。因而,每个种群体都被程式化为一个纯策略,整个生态环境的所有种群也被看作一个大群体。然而,同一种群的个体由于其性别不同、需要不同、能力不同、基因突变或基因遗传等因素都会影响到它们的行为,把每一个种群为程式化一个纯策略是没有太强说服力的,把一个生态环境中所有种群看作一个大群体也存在不妥之处;
第二,从梅纳德·史密斯等提出的进化稳定策略定义可以看出,它仅适应于互不重叠且相互独立的突变因素的影响,其吸引域半径只与单个突变因素有关,也就是说只有等到一个突变因素对群体的影响消失之后,才能出现另一个突变因素,现实中出现这种现象是非常偶然的;
第三,梅纳德·史密斯等为了技术上处理的方便及更好地利用数学工具和博弈论来描述生态演化过程而假定群体规模无限大,即隐含地假定博弈的支付空间是一个连通、闭集,这个假定不符合现实;
第四,从原初的进化稳定策略定义可以看出,它是一个静态概念,只能描述系统(0,)的局部动态性质,没有涉及到动态系统整体的调整过程,而现实中许多系统的均衡依赖于系统的整体动态性质。
从生态意义上说,进化稳定策略把种群之间的互动行为纳入到模型之中,推广了达尔文的优胜劣汰理论,然而与纳什均衡概念相比,进化稳定策略并不能解释群体如何达到稳定的。它只能回答一旦达到了这种稳定状态,原群体就对突变者群体者具有较强的抵抗力。也就是说,它只能回答当系统处于某一个均衡点的吸引域时,在一定条件下,随着时间的演化,该系统就会趋于这个均衡点,而当系统有多重均衡或者多个均衡点或者多个吸引域时,原初的定义就显得无能为力了。事实上梅纳德·史密斯和帕克(Maynard Smith and Parker,1976)、梅纳德·史密斯(1978,1979)已经认识到原初定义的某些缺陷,梅纳德·史密斯(1982)给予了一定程度的修进并提出了修进的进化稳定策略概念。
梅纳德·史密斯早在1979年就已经意识到,原初的进化稳定策略在处理多群体非对称博弈时遇到了困难。他发现,在现实中,如生态学、经济学和其他社会科学中的许多策略互动行为可能发生于两个或多个群体的个体之间,个体之间进行的是非对称博弈,单用原初定义不能很好解释现实中的这些现象。如何把静态的单群体进化稳定标准拓展到多群体情形呢?在单群体中,所有的个体都被程式化了一个纯策略(梅纳德·史密斯假定只有纯策略是可以遗传的),个体之间进行的是两两重复匿名博弈;并且在单群体中,规模很少的突变因素对群体所产生的影响是可以忽略的,因此,非严格纳什均衡策略不可能侵入到最优反应的严格纳什均衡策略群体。在多群体中,突变因素可能来自于各个群体,突变策略者的互动行为会对群体行为产生不可忽略的影响。因此,原初的进化稳定标准仅仅限于严格纳什均衡之间的选择就不能运用于解释多群体情形。
泽尔腾(Selten,1980)认为,把均衡概念由单群体拓展到多群体不是一个简单的过渡,而是涉及到系统的动态调整过程及动态稳定性等一系列的变化。哈曼斯顿(Hammerstein,1981)认为,在非对称博弈中,个体更加倾向于应用稳定策略来选择行为并决定竞争结果,而这些稳定策略与进化稳定策略相比,可能会有更少的“吸引域”。因此,由进化稳定策略定义所得的结论就显得有点似是而非了,但他没有作出进一步解释。
泽尔腾(Selten,1980))首次深入地研究了非对称博弈动态稳定性并利用两群体博弈情形证明“在非对称博弈原初进化稳定策略必定是严格纳什均衡”。后来,范代蒙(Van Damme,1987)在更一般的情形下证明了这个命题。我们知道,严格纳什均衡本来就显示出很好的性质,如果一个理论把其主要的注意力集中于研究严格纳什均衡,那么它就没有任何理论价值;更重要的是许多非对称博弈根本就不存在严格纳什均衡,因而也就无法研究动态系统的稳定性;在非对称博弈中,渐近稳定性实质上也蕴含了严格纳什均衡,因此,渐进稳定性在非对称博弈中也不是一个合适概念;进化稳定策略是一个静态概念,虽然能够描述系统的局部动态性质,但在非对称博弈中,原初的进化稳定均衡与动态演化过程极限结果之间的对应关系却不明显(即出现了局部与全局的矛盾)。因此,要研究非对称博弈的动态稳定性就必须通过考察系统的动态演化过程来寻求能够适应于对称博弈与非对称博弈的稳定性概念。为了能够更精确地描述非对称博弈,泽尔腾(1983,1988)通过对引入角色限制行为而提出了适应于非对称博弈的FAS概念。
他的定义如下:在有角色限制的博弈G中,一个行为策略s = (s1,s2)称为进化稳定策略,
如果:(i)对任意的s'∈S×S,满足f(s,s)≥f(s',s);
(ii)如果f(s,s)=f(s',s)那么对任意的s≠s'有(s',s)>f(s',s')。
然而,泽尔滕的进化稳定策略概念尽管适应于描述两群体非对称博弈的情形,但它只能描述系统的局部动态性质,而且该定义并不能够显示出均衡概念与动态演化过程极限结果之间的关系。因此,要更好地描述非对称博弈均衡,就必须正确处理好均衡概念与动态演化过程均衡结果之间的关系。于是,弗里德曼(Friedman,1991)考察了非对称博弈的更一般的单调调整过程并得出了四个基本结论:
(1)每一个纳什均衡都是动态系统的静止点;
(2)渐近稳定结果必定是纳什均衡;
(3)在对称和非对称博弈中,对所有单调调整过程而言ESS不一定是渐近稳定的;
(4)对某些单调调整过程而言,正规FAS是渐近稳定的。在此基础上,他得出了“渐近稳定结果必定是纳什均衡”结论。莱瑞·萨缪尔森和张建波(Larry Samuelson and Jianbo ,1992)在弗里德曼(1991)的基础上进一步考察了非对称博弈的累积单调选择动态并得出:在非对称博弈中,单调调整过程能够剔除所有严格劣的纯策略,并且能够确保均衡结果必定是纳什均衡。同时,他们证明了“稳定点必定是纳什均衡”及“渐近稳定结果必定是严格纳什均衡”,进而强化了弗里德曼(1991)的“渐近稳定结果必定是纳什均衡”的结论。
Swinkels(1992)认为,进化稳定标准不对突变策略组合给予适当限制是说不过去的。特别地,在处理某些经济问题时,突变策略可能来自于参与人或者企业的创新、试验等活动,这些突变策略组合本身可能会影响系统的稳定性。因此,考察相对于后进入突变群体最优反应策略组合的稳定性可能会更合理,并且这些稳定性概念很容易由单群体情形推广到多群体N一人非对称博弈。于是他定义了适应于非对称博弈的策略稳健性概念。
定义:称之为相对于均衡进入者的稳健策略(Robust against Equilibrium Entrants,REE),如果存在所有的策略组合y≠x及满足:。
其中表示突变策略;ε表示选择突变策略者在群体中所占的比例;w = εy + (1 − ε)x表示混合群体;β[εy + (1 − ε)x]表示突变策略相对于策略X的最优反应策略,他并且证明了稳健策略是进化稳定策略的一个子集。然后,他又把稳健策略概念推广到了N一人非对称博弈的情形而提出了均衡进化稳定概念:
定义:称集合是均衡进化稳定的,如果它是相对于下面性质的最小集:X是纳什均衡策略集合ΘNE个非空闭子集,存在∈(0,1),如果x∈X,,及,那么。
换句话说,均衡进化稳定集是纳什均衡策略集的最小闭集,它能够保证任何小规模的均衡进入突变者不可能使得群体离开进化稳定均衡的吸引域。
梅纳德·史密斯等提出的进化稳定策略概念另一个缺陷就是,他们为了在技术上处理的方便而认为群体规模无限大,这个假定与现实尤其应用于解决经济问题时并不相符。为了使理论与现实更接近,许多博弈论理论家对有限群体的均衡问题进行了深入的研究。
沙弗尔(Schafer,1988)首次放开群体规模无限大的假定,考察了有限规模群体的进化稳定性并提出了有限群体进化稳定策略概念。他证明“在一般情况下,有限群体进化稳定策略并不是纳什均衡策略”。
汉森和萨缪尔森(Hansen and Samuelson,1988)分析了经济博弈的演化过程,并把有限群体进化稳定策略称之为“普遍生存策略”。他们认为,在现实世界竞争中,未来的利润和可供选择的策略具有不确定性,这就会阻碍企业选择最优化策略,企业必须通过不断的试验、学习过程来寻求有利可图的满意策略(不一定是最优策略)。
沙弗尔(1989)应用“普遍生存策略”来研究寡头企业之间的竞争并得出结论:通过经济自然选择过程而得以生存下来的策略是相对的而不是绝对的利润最大化策略。
泰尼克(Tanaka,2000)利用模拟者动态,考察了差别产品对称寡头企业竞争的情形并定义了“全局生存策略”。他得出结论的是:在价格与数量竞争的寡头模型中,全局生存策略都是随机稳定的并且在两种情况下它们是等价的。
以上所得到的均衡概念基本上是适应于单群体有限个体情形,并不适应于有限个体多群体博弈。哈佛保尔和西格蒙德(Hotbauer and Sigmund,l988)证明了“两群体对称博弈中不存在混合策略进化稳定策略”。泽尔腾(1988)在考察了大量的两人对称博弈的基础上也得出了类似的结论。克瑞斯曼(1992)定义了有限两群体非对称博弈的进化稳定策略,1996年对他所定义的概念作了进一步说明。他认为,在模拟者动态下,至少一个群体的突变者所得到的平均支付少于选择稳定策略者所获得的支付,才能保证静止点的渐近稳定性。格雷和瓦格(Garay and Varga,2000)认为,定义有限数目多群体的均衡概念应该满足如下三点:
其一是突变者不能侵入他自己的群体;
其二是现有群体对来自外部的随机冲击具有较强的抵抗力;
其三是多群体进化稳定策略定义应该与非对称博弈理论的基本结论一致。
众所周知,纯策略模拟者动态的渐近稳定集并不一定是进化稳定策略。那么,哪一种动态稳定概念等价于进化稳定策略呢?克瑞斯曼(1990)指出,在单群体条件下强稳定性等价于进化稳定策略,那么多群体的进化稳定策略定义也应该满足多群体稳定性概念等价于多群体进化稳定策略。根据这个标准,格雷和瓦格(2000)定义了严格N群体进化稳定策略概念。其定义 如下:
定义:策略组合称之为N一群体进化稳定策略,如果对每一个,若,Pi≠Pi' ,存在,对所有的都有:
其中Xi = (1 − εj)P'j + εjPj 表示第j个混合群体(即选择纯策略Pj与P'j个体组成的群体);Aij表示i,j两群体个体博弈时第i个群体中个体所得的支付矩阵。这个定义的优越性主要表现在:
(1)它与达尔文优胜劣汰理论是一致的,并且较好地解决了梅纳德·史密斯(1982)及哈佛保尔和西格蒙德(1988)定义不适用于多群体问题;
(2)泽尔腾(1980)与哈佛保尔和西格蒙德(1988)的定义不能用于描述单群体情形,因为在单群体时由他们的定义得到系统没有内点,在这里引进了混合策略就能够解决这个矛盾。他们认为,个体可能不能识别有不同策略集的对手,也可能不能确定他所选择的策略是否依赖于他们对手策略集,因而引入混合策略是合理的;
(3)从动态的观点来说,这里的定义由于能够确保在模拟者动态下的进化稳定策略的渐近稳定性,所以它也与单群体进化稳定策略概念是一致的。但他们的定义也存在一定的缺陷,该定义不仅要求突变因素 是相互独立的,而且也要求突变率εj的变化是相互独立的。在这一点上还没能跳出传统定义的框架。
梅纳德·史密斯等提出的进化稳定策略概念第三个缺陷是要求突变因素是不连续且不重叠的。原初进化稳定策略定义由于仅仅考虑单个因素对系统的影响,所以任何偏离均衡状态的行为都会随着时间的演化自动回复到原来的进化稳定状态。帕克和菲尔德曼(Peck and Feldman,1988)认为,由于群体规模和后代数目很大,因而随机因素对动态系统的影响是可以忽略不计的。现实并不是这样,经济演化系统常常会受到来自突变和其他偶然事件的冲击,这些因素可能会对系统产生不可忽略的影响。
福斯特和杨(Foster and Young,1990)认为,首先,进化稳定策略概念把影响系统的因素都看成是一个个孤立的事件,而在现实中系统常常会受到连续的随机冲击。如果假定有一个因素的影响消失以后,再考虑另一个因素对系统的影响,那么,系统当然就不会远离原来的均衡状态;其次,现实中出现上述情况纯属偶然现象,一个只能处理偶然现象的理论是没有任何存在价值。现实中,尽管单个随机因素对动态系统的影响较少,但它们却可能对系统产生累积作用而定量地改变系统的稳定性,使得系统离开进化稳定状态,系统什么时候回复到当初的进化稳定状态,依赖于动态过程的全局结构,而进化稳定策略定义是一个局部概念,因此在考虑随机冲击时就不能作为判断系统稳定性的标准;再次,由于系统的极限行为依赖于初始条件,同时在吸引子集合中只有一部分状态是随机稳定的,且随机稳定状态的选择还依赖于随机过程特定的结构,因此,进化稳定策略和一般意义上的吸引子由于没有充分地考虑到随机因素对进化系统的影响,在描述随机系统的稳定性时也很不理想。于是,他们首次把影响系统的随机因素纳入到进化模型之中并提出了一个既不同于传统进化稳定策略也不同于吸引子概念的随机稳定性概念。他们的定义如下:
定义:群体向量P'是随机稳定的,如果随着随机影响delta→0,极限密度对P'的每一个小邻域都赋有正概率;更精确 地说,Vε>0,其中N(P')=|P:|P—P'|<ε。其中fdelta(·)是当t→∞时,P(t)的极限分布,delta表示随机因素对系统所产生的影响。
粗略地说,一个状态P是一个随机稳定的,如果在长期中,随着随机冲击因素影响的不断变少,系统几乎一定不会离开P的任意少的邻域。随机稳定的群体向量总是存在的,它有如下性质l随着及delta→0及t→∞,它是一个最小闭集。接着,他们又提出了更一般的概念—— 随机稳定集。随机稳定集S是一个满足如下条件的状态集合,即从长期来看,随着随机冲击的不断变少,系统几乎一定处于包含于S的任何一个开邻域中。随机稳定集概念的提出把传统确定性动态模型中的进化稳定策略拓展到随机性动态系统中,并且它是一个比进化稳定策略集更精练的概念,是进化稳定集的子集。随机稳定集已经成为描述随机动态系统的基本均衡概念。
从进化稳定策略的定义可以看出,它只能描述系统的局部动态性质而与系统的全局动态过程无关,然而,要更准确地描述一个系统的动态性质就必须对仔细考察整个系统的动态调整过程。泰勒和乔克(Taylor and Jonker,1978)首次把传统的进化稳定策略定义用模拟者动态模型表示出来,他们证明在一个多群体的模型中,进化稳定策略是渐近稳定的充分但非必要条件。但他们没有作出进一步的研究。鉴于此,吉尔博和马特休(Gilb0a and Matsui,1991)在考察群体行动态调整过程的基础上,提出了“循环稳定集”又一均衡概念。“循环稳定集”直接来源于群体行为的调整过程,其基本思想是“可接近性”。一个策略分布f称为可以从另一个策略分布g接近是指,如果存在一条从f到g的道路,且在该道路方向上任何一点都是相对于该点的最优反应。
“循环稳定集”是指在满足“可接近性”条件下是封闭的策略分布集合(在该集合中任何两个分布之间都是接近的)。与一般均衡理论不同,仅当参与人按照均衡策略而作出选择时才有效,循环稳定集并不要求群体保持这种决策状态。循环稳定集的直观意义是,在一个很短的时间间隔内,只有少部分人离开或者死亡并且由一些新来的人(新生的孩子)代替,这些新来者从他们的母体那里继承一些行为模式,并且在现行预期(也就是说他们并不关心行为模式未来的变化)条件下作出最优的反应,一旦新来者选择了某一行动,他就会一直坚持下去(转换成本的存在是他坚持这个行动的一个重要原因)。马特休(1992)给出了一个“稳定”策略的静态表述,在存在对原群体中各策略的初始分布冲击的情况下该策略能够保持这种分布。斯温克斯(1992)在马特休的基础上提出了“群体稳定策略”。
相对于均衡的进入者而言,所谓“群体稳定策略”是指如果存在一个突变群体(或者进入者群体,譬如说群体A),其支付高于原群体的支付,那么必定存在另外一个群体(如群体B),在这个包含大部分原群体个体而有一少部分群体A的个体的群体中,群体B将获得高于群体A的支付。这个概念也称为“稳健策略组合”。当然在某些情况下,“群体稳定策略”可能并不存在,但不是这个概念本身的缺点,出现这种情况与我们所研究的动态过程本身是分不开的。然而,我们可能会问,实际的行为模式又是怎么样呢?如果这个过程并不是稳定状态,那么稳定状态又是什么呢?在对这个问题作出回答时,马特休利用了吉尔博和马特休(1991)所提出的集值解的概念,同时他也证明了循环稳定集的存在性。Binmore and Samue1.son(1993)把参与人的学习过程纳入到了进化模型中并提出了自我强化均衡(Fudenberg,D.,1998)。他们认为,每个参与人都会通过自己的经验来推断对手可能选择的策略而作出最优反应,这个学习过程可能使得系统在不同自我强化均衡的吸引域之间漂移而不会停留在某一个均衡,由于在非均衡路径上的推断不一定正确,所以自我强化均衡可能不一定是纳什均衡。