书籍对策中的制胜之道

罗伯特·艾克斯罗德

Basic Books, 2006

其他语言版本：英语

导读荐语

时不时会出现这样一种书，书中的观点如此别具匠心、惊世骇俗，以至于改变了某种主流的思维方式。这本由罗伯特·艾克斯罗德在1984年撰写的书籍正是这样一部影响深远的著作，书中提出的新颖观点改变了专家们看待合作的方式。它的结论对个人、组织、国家乃至不会思考的生命形态，如细菌，都很适用。艾克斯罗德的这本书基于著名的囚徒困境（Prisoner’s Dilemma）模型，这一经典模型是兰德公司（the Rand Corporation）的梅里尔·弗勒德（Merrill Flood）和梅尔文·德雷希尔（Melvin Dresher）于1950年建立的，加拿大数学家阿尔伯特·塔克（Albert W. Tucker）加入可增减监禁刑罚的游戏规则，并为这一模型贴切地取名为“囚徒的困境”。参与者有两种选择：合作或者背叛。罗伯特·艾克斯罗德组织了两场囚徒困境的重复比赛，参与竞争的是由博弈论专家、数学家和其他领域的专家所编写的计算机程序。他从比赛结果的分析中认定，从长远来看，合作永远是比背叛更有利的，因此，进化论也选择了合作。这本书正是基于对比赛结果的分析而撰写的，而现在也已成了真正的经典之作。BooksInShort建议所有想要理解合作原理的人都首先从阅读这本重要的著作开始。

要点速记

基于一种简单而合理的策略，个人、团体、组织和国家是能够实现双赢的合作的。
与他人长期相处的最优策略是，一开始就要和对方合作，并投桃报李。如受到不公正的对待，那就需要“以牙还牙”。
在一个非合作性的大环境之中，只要有一小部分人坚持与他人合作，那么合作就能够拓展。
在促进合作的过程中，宽容极有助益。
博弈论中的囚徒困境模型，即两个参与者在此模型中可以选择是否合作，恰恰解释了合作的原理。
在囚徒困境模型中，双方的合作可以带来稳定的收益，但是如果一方背叛并且逃脱处罚，此人就可以获得比合作更大的收益。
如果对方选择合作的话，你也应该选择合作。
囚徒困境的模型表明，如果双方都知道要与对方长期相处的话，合作就比较容易发展起来。
在劲敌之间也存在着合作的可能性，即使是在不可能的环境中也不例外。
合作这一战略是如此的简便易行，其产生不需要拥有远见、友情，甚至不需要有丝毫的智慧。

浓缩书

囚徒的困境

请看以下几种情况之下的合作。假如你和另一个人相交甚久，那么从你个人目标的角度出发，与他合作是否就是明智之举呢？如果对一个从来不懂得礼尚往来的人示好，你是否能从中获益？如果一家公司行将破产，你的公司与之合作能有所收获吗？你的国家应该对敌国的公然挑衅作何反应？你的国家是否能够通过采取行动——或如何操纵——使敌国采取合作态度？分析并回答这些问题的一个好方法就是采用重复的“囚徒困境”模型。

囚徒困境的基本情况是：警察逮捕了两名嫌犯，并分别和他们达成了协议。这两个嫌犯是不允许见面的。如果一名嫌犯告发另一名嫌犯并且自首的话，他就可以被释放，而另一名嫌犯则会被判10年监禁。如果两个人都保持沉默的话，他们各自会被判6个月的监禁。如果两个人都告发对方的话，那么两个人都会被判2年监禁。矛盾在于，如果两个人都告发对方，其结果比两个人都保持沉默还要有损双方共同利益。博弈论对囚徒困境游戏给出了三种结果：1）两个人相互合作，都能够适当得利；2）一名嫌犯告发了对方，而对方采取了合作态度，这样告发的嫌犯就能获得更大的好处，而另一名嫌犯则会受到重罚；3）两个人同时告发对方，两个人都将受到重罚。

“在囚徒困境中，最优策略的表现取决于对手所采取的策略以及······此策略是否给······相互合作留有余地。”

囚徒困境总是只有两个参与者。每个参与者都有两种截然不同的选择：合作或者背叛（也就是变节并告发对方）。每个角色都要在不知道对方作何选择的情况下，作出自己的选择。但无论对方作何选择，我方选择背叛的结果都将获益更丰。那么困境到底在哪里？就在于，如果两个人都选择背叛，比两个人选择合作更不利于双方的利益。

将囚徒困境形象化

为了将囚徒困境形象化，可以想象一个两行两列的四方形矩阵，此矩阵有四个分别两两并行和并列相邻的格子。横向代表第一个囚徒，并有两种选择，背叛或者合作。两种选择都用字母表示：“R”代表回报（reward）；“T”代表背叛的诱惑（temptation），“S”代表背叛者所获的报偿（sucker’s payoff），“P”代表双方都选择背叛时所获的惩罚（punishment）。纵向代表第二个囚徒和两个选择。两个人的选择综合在一起，就得出了矩阵中四个格子中所示的四种结果：

格子1：纵向囚徒选择合作和横向囚徒选择合作 ——当两个人都选择合作的时候，他们每人都得到R，这是对于相互合作的回报，其价值为3分。
格子2：纵向囚徒选择背叛和横向囚徒选择合作——当纵向囚徒选择背叛而横向囚徒选择合作时，那么选择背叛的纵向囚徒获利，他将得到T，表示屈服于背叛的诱惑而选择背叛，价值为5分。而横向囚徒得到S，价值为0分。
格子3：纵向囚徒选择合作和横向囚徒选择背叛——当纵向囚徒选择合作而横向囚徒选择背叛时，赢家是选择背叛的囚徒，得到的是T，价值为5分。而纵向囚徒得到S，分值为0分。
格子4：纵向囚徒选择背叛和横向囚徒选择背叛——如果两个囚徒都背叛，每人都得到P，即对双方背叛的惩罚。分值1分。

“正是由于现实的复杂性才使得对于这样一个抽象模型的分析如此有助于对现实的理解。”

正如上面的分析所示，模型给每个囚徒的每种选择都给出了一定的分值。对应每一个选择，都有一个固定的分数，即R (3)、 S (0)、 T (5) 和P (1)。对于获得最大利益来说，如果你是横向囚徒，不管你的对手作何选择，背叛对你总是更有利的选择。因此，背叛，而不是合作，才是你明智的战略性选择。这个逻辑同样适用于对方，因此对方也应该总是选择背叛。因此，对于双方来说，背叛总是最合乎逻辑的选择。然而，在这种情况下（格子4），你和对手每个人只能够得到1分。这比双方都合作得到的分数要低，如果双方都合作的话，每个人都能得到3分（格子1）。真是矛盾！理智的选择反而给每个人带来的利益更少。这就是困境所在。

“在适当的条件下，基于互惠的合作在生物世界中表现十分稳定。”

这种结局是无法避免的。如果你和对手交替背叛的话，显然不如两个人都坚持合作更有好处。双方都选择合作的话，每个人都能够得到3分，比其中一方选择背叛得到5分、而另一方选择合作得到0分的平均值（2.5）还要高。如果囚徒困境只进行一次的话，两个参与者的理智选择都是背叛，然后每个人各得1分，这无论如何是比两个人都选择合作还要差的结果。如果囚徒困境游戏进行有限的几次，背叛对于每个人来说仍然是合乎逻辑的理智选择。每个参与者都会根据对方在上轮中选择背叛而在这一轮中也选择背叛，以此类推，选择合作将永远不会出现，因为在这种情况下，那不是一种逻辑的选择。

合作的出现

在游戏重复的次数不限的情况下，逻辑就发生了变化。这时，两个人都不知道何时是最后一次的游戏（即双方最后一次的交手），所以合作的局面便出现了。正是由于这种未知性，合作变成了一种比背叛更合理的选择。这种无限次游戏的情况比两个人（或者组织、公司、国家）约定好进行固定次数的有限次游戏更加契合实际情况。在无限次游戏的情况下，合作就变得可能了，因为双方都知道他们可能会与对方一次又一次不断地交涉。每一方这一轮的选择都会影响下面几轮的选择。这样一来，未来就影响了现在。但是在实际生活中，眼前的回报总是比未来的回报更诱人。因此，眼前选择的利益回报似乎总是比未来选择的利益回报更加有价值。

“投桃报李”

我们可以试想一下，在无限次重复的囚徒困境中，作为参与者的最佳策略是什么？为了找到这个问题的答案，研究人员组织了一场比赛，比赛邀请心理学家、经济学家、政治学者、数学家和社会学家提交计算机程序进行较量。比赛共收到了14个程序。

“在每个人都存在自私的动机的情况下，合作如何能够展开呢？”

结果这些程序中最简单的一种夺得了冠军，那就是“投桃报李”程序，此程序由多伦多大学的安娜托·拉伯蓬特（Anatol Rapoport）教授提供。此程序的第一步就是选择合作，此后的每一步都是重复对手上一轮的选择。在重复了200次之后，双方平均得到504分。其他在比赛中表现优异的程序也都与“投桃报李”程序有着相同的特点：向对方表现出友好，他们都没有在第一轮中就选择背叛。这些向对方示好的程序表现优异是有道理的，因为比赛重复的次数如此之多，使得选择合作的结果是利大于弊，因此平均分值都大大提高。“投桃报李”程序表现出高度的“宽容”（健忘），如果对方由背叛转而合作的话，此程序总是不计前嫌地合作。另外，“投桃报李”程序也不会被对手占到便宜，因为只要对手背叛，此程序也同样选择冷酷的背叛。

“一个国家的行为有时可能会无视友邦的利益，但是这种对友邦利益的顾虑并不意味着，即使是友邦都总能做到为对方的利益着想。”

随后研究人员又组织了一次全开放式的囚徒困境比赛，这次比赛吸引了来自六个国家的共62个参赛程序。在第一轮和第二轮中，“投桃报李”程序都明显地胜出了，它的简约性赋予了它独有的优势。一如既往，在第二次比赛中同样是“好人有好报”。在与“投桃报李”程序对垒中表现最优异的程序都是出于向对手示好的原因。实际上，“投一桃还两李”程序表现得比“投桃报李”程序更加出色，在此程序中，只有对方在前两轮中都选择了背叛的时候，我方才会选择背叛。

如果研究者继续组织更多的囚徒困境游戏，结果肯定是，向对方示好的程序会胜出，而其他的程序（称为“心存不善”）则最终会落败。因此，在无限重复的互动中，合作将会演化为主流的策略。事实上，在这样的条件之下，“投桃报李”必将成为每个人都采用的理性策略。

现实世界又如何呢？

除了像囚徒困境这样的虚拟情形，投桃报李这一策略在现实生活中应用也颇广。只需看看美国国会中的互惠策略（即投桃报李的主旨），“你为我的提案投票，我就会为你的提案投票”这一哲学已然在国会中流行多年了。议员个人如果离了同僚的帮助是无法取得成功的，他们提案将永远也不能够获得通过，最后选民会认为他们无所作为而将他们选下台。

“如果知道日后不会再相见，那么背叛比合作更明智。”

其他证明合作才是明智之选的案例比比皆是，不仅在人类世界中存在，在自然界中更是不乏这样的例子。比如，刺槐和蚂蚁的合作关系。刺槐给蚂蚁提供食物，它那些膨大的刺还给蚂蚁提供了栖息地；蚂蚁则保护刺槐不被食草动物蚕食，并帮助控制邻近植物的疯长。类似的例子还有如水藻和真菌建立了共生关系，才形成了地衣。即使是细菌，有时候为了生存也要采取必要的策略。可见，即使在没有思维的生命形态中，基于互惠（投桃报李）的合作形态也会出现并不断发展。

“共存共生”

“一战”中位于法国和比利时的西部前线的战况，为我们提供了另一个生动的范例，证明了人类互惠合作的伟大之处。当时的战斗血腥而残酷，敌对双方的士兵躲藏在战壕中向对方射击，如此的作战方式旷日持久，持续了数年，并且往往只是争得几码的土地作为回报。但是在休战期间，双方士兵都表现出了可圈可点的克制。即使德国士兵在可以看清的射程范围之内游荡，盟军士兵也不会向他们开枪，德军对盟军也是如此。通常情况下，在吃饭时间，互相的攻击就会戛然而止。狙击手和炮手都不对插着军旗的特定区域进行炮轰。在战斗的间隙里，双方的狙击手和炮手甚至故意放空枪、放空炮。在天气条件不佳的时候，双方也都默契地停止进攻。

“想要实现稳定的合作，必须拥有遥远而长久的未来。”

德军和盟军都默默地遵守着这不成文的原则。实际上，虽然在残酷的堑壕战中这种“共存共生”的哲学始终没有落实在纸面上，但是在绵延500英里的西部前线上，这却是不争的事实。一名英国老兵如此向一名初来战壕的新兵解释道：“德国佬还算不赖。你不动他，他就不会动你。”

在战壕中发生的这一切与囚徒困境模式并无二致。双方士兵只是向对方的战壕进行象征性的攻击，如果是短期的战斗，互相背叛（即不停地射击、开炮、杀死对方）才是逻辑的策略，因为只有这样才能够制服敌人。然而，一战中被无人区隔开的双方军队是要长期对峙的，这样，双方的士兵就会在旷日持久的对峙中采取更为明智的策略。因此，在那样的情形下，即使是互相敌对的士兵，采取互利合作的策略也是不足为奇的。

“合作的基石并不是信任，而是双方关系的时间长短。”

在堑壕战中，互惠是主导因素。如果在晚餐时间德国军队开始炮轰英国军队的话，那么英国军队马上也会向正在吃晚餐的德军还以颜色，甚至连早餐也不放过。如果英军的狙击手在战斗间隙放冷枪的话，德军也一定会放冷枪，甚至会形成机枪对峙的局面。在整个一战中，西部前线不断上演着自发的合作局面。这证明，合作是一种强有力的策略。事实上，合作可以在殊死对抗的双方之间默契地形成。

关于作者

罗伯特·艾克斯罗德（Robert Axelrod）是一名政治学者，也是麦克阿瑟奖的获得者。他对于合作演化的跨学科研究曾经被5000多篇文章引用过。他目前的研究方向包括复杂性理论和国际安全。

书籍 对策中的制胜之道