基于演化博弈的合作进化研究综述 Evolution of Cooperation Based on Evolutionary Game: A Comprehensive Review

Evolution of Cooperation Based on Evolutionary Game: A Comprehensive Review

Yaofeng Zhang

School of Statistics, Hubei University of Economics, Wuhan Hubei

Received: Aug. 15th, 2016; accepted: Sep. 1st, 2016; published: Sep. 7th, 2016

ABSTRACT

Evolution of cooperation is an important mechanism in social evolution process. Evolutionary game theory and computer simulation technology provide a new perspective for analyzing cooperative behavior of human. To reflect the research progress of evolution of cooperation, we reviewed literatures of cooperative evolution based on evolutionary game. Firstly, we present several evolutionary game models used in the study of evolution of cooperation. And then, main mechanisms of promoting cooperation level are summarized. Finally, important factors influences the evolution of cooperation are inducted. Based on the review of research status, further analysis on the existed problems and shortcomings is made and some perspectives on the development trends of future research are provided.

Keywords:Evolutionary Game, Evolution of Cooperation, Complex Networks, Simulation

1. 引言

2. 合作进化研究的演化博弈模型

2.1. 囚徒困境博弈

Axelord将互惠利他理论与演化博弈论相结合提出的回报理论 [19] 是以“囚徒困境”博弈(Prisoner’s Dilemma, PD)为基础的。一般形式的“囚徒困境”模型如表1所示，可简要地叙述为：博弈方1和博弈方2只有合作(Cooperation, C)或背叛(Defection, D)两种选择。双方都合作各得；一方合作一方背叛时，合作方得，背叛方得；双方都背叛则各得。在囚徒困境博弈模型中，所有收益满足，并且通常假设

Doebeli和Hauert在文献 [7] 中介绍了最新的基于演化囚徒困境博弈的程序锦标赛，指出一个所谓的“串谋”策略脱颖而出。该策略只对自己的同类合作，而对其他个体采用TFT策略。为了区分同类和非同类，它们在每一轮与其他个体博弈之前都先通过一次秘密的“握手”进行身份认定。虽然该策略在身份认定机制最初如何演化等方面还有待进一步的研究，但是“串谋”的概念为心理学等学科中应用演化囚徒困境博弈研究问题提供了一个崭新的视角。

2.2. 雪堆博弈

SD模型可描述为：两个司机(博弈双方)被困于一个雪堆的两侧，博弈双方有铲雪(Cooperation)和不铲雪(Defection)两种选择。如果双方都铲雪，则各得R收益；如果都不铲雪，则双方的收益均为0；如果其中一方铲雪，另一方不铲，则铲雪方得S，不铲雪方得T。其中，T为顺利回家收益，铲雪会有一定的成本。则一般形式的雪堆博弈收益矩阵如表2所示。

Table 1. The payoff matrix of the prisoner’s dilemma game

Table 2. The snowdrift game payoff matrix

2.3. 公共品博弈

2.4. 石头·剪刀·布博弈

3. 促进合作进化的机制

3.1. 亲缘选择

Table 3. Stone scissors cloth game of gain matrix

3.2. 互惠机制

3.2.1. 直接互惠

Tricers的互惠利他观点体现了这样一种思想，即合作可以在当前收益决定未来行动的机制下产生，上一轮两者博弈的结果作为下一轮博弈所要采取策略的参考。当然这就需要直接互惠要满足一个重要前提，即相同的两个个体要以较大的概率重复相遇。直接互惠的博弈理论模型主要是演化囚徒困境博弈。Axelrod将直接互惠机制与演化博弈论结合 [19] ，为直接互惠理论的研究开辟了道路。在 3.2.1 节中讨论的关于TFT、GTFT以及Pavlov等策略均属于影响直接互惠的策略，这里不再赘述。

3.2.2. 间接互惠

Nowak和Sigmund认为由于在国际市场上一次性的交易越来越多，改变了以往企业间长期的频繁接触 [49] 。例如网上拍卖和电子商务等商业活动中大量存在一次性行为，两个体长期频繁接触的条件不能满足。这种情况下，商业个体之间是否能够合作很大程度上依靠个体的“名誉”以及建立在“名誉”基础上的相互信任。间接互惠不象直接互惠那样要求两个个体经常相遇，而是允许个体随机选择博弈对手。该机制促进合作的核心思想在于给每个个体都赋予“名誉”。Nowak形象地将直接互惠类比为“物物交换”，而把间接互惠中的“名誉”比为“货币” [16] 。拥有“货币”之后，个体就无需再与固定的对手重复接触。个体“名誉”的好坏取决于个体每次和其他对手的博弈历史，并且每个个体的“名誉”在群体中是众所周知的。拥有好的“名誉”意味着在与其他个体接触时，会得到互惠，反之将被“惩罚”。因此个体每次与对手博弈，决定采取某策略前都会考虑该策略对自己“名誉”的影响。与其他种类的生物不同，人类社会中存在大量的没有关系的个体之间的互惠现象，其中的主要原因是由于人类具有的道德情感，以及由此形成的社会规范 [50] 。因此，很多经济学家和社会学家将间接互惠和道德规范的起源联系起来 [49] 。

3.3. 群选择

3.4. 自愿参与

Nowak指出，在囚徒困境博弈中引入自愿参与策略也是促进合作进化的一种机制 [16] 。这里的自愿参与是指参加博弈的个体可以选择合作和背叛，还可以“单干” [60] 。选择单干策略的个体可以暂时不参与博弈，但是仍然可以得到固定的一个小收益。Szabó和Hauert在空间公共基金博弈和进化囚徒困境博弈中引入了单干策略 [61] ，对规则方格子上的研究表明，单干策略的引入可以使原先的博弈转化为了“石头–剪刀–布”类型的博弈 [62] 。吴枝喜在Szabó和Hauert的研究基础上研究了Newman-Watts (NW)小世界网络上自愿参加的空间囚徒困境博弈 [63] ，得到了一些有意义的分析结论。

3.5. 基于“标签”的机制

3.6. 空间结构

4. 影响合作进化的因素

4.1. 贴现系数

4.2. 博弈顺序

4.3. 博弈人数

4.4. 信任

4.5. 惩罚与奖励

4.6. 其他因素

Santos和Pacheco等采用同步更新的策略对无标度网络上的空间纯策略博弈行为进行了研究 [87] ，发现无标度网络更有利于合作行为的产生。因此网络拓扑的异质性也是提升合作水平的一个重要因素。除了网络的异质性对合作行为有影响外，网络的平均度也是影响合作涌现的重要因素之一。TANG等研究了随机图、小世界、无标度3种网络中平均度对合作水平的影响，发现对于每种网络均存在适当的平均度使得合作水平最优 [88] 。另外，Nowak等则指出在有限人口中人口规模太大和太小都不利于合作水平的提升，个体的异质性差别也要适中才能更有效地提升合作水平 [89] 。

5. 总结与展望

1) 现阶段关于合作进化的研究大多停留在仿真模型的完善与探索研究。能够把合作理论应用到实际问题的文献较少，目前只有在企业合作问题方面有所涉及；

2) 虽然已有研究对合作进化的促进机制和影响因素进行了各种讨论，但缺乏统一的理论框架，研究成果相对离散，未建立宏观理论体系；

3) 随着复杂网络的提出，学者将合作进化问题移植到抽象的复杂网络上来，但缺少利用实际人际关系网络数据进行网络建模，从而进行合作进化分析的研究。

1) 在已有理论研究和建模仿真研究的基础上，积极开展结合具体领域、具体问题的应用研究，研究领域包括供应链合作、合作网络、国际政治关系、复杂社会管理等；

2) 总结归纳已有研究成果，设计基于演化博弈理论的合作进化理论框架，从整体上系统的研究合作进化问题，形成独立的理论体系；

3) 结合大数据技术，建立基于大数据的现实人际关系网络模型，从而研究现实网络上的合作进化问题，进一步深入揭示人类合作进化的内在机理和演化机制。

