TGINSIGHT CHAT
TinyReadiviearning
@TinySnowDeprecatedCases
教育A Silly Beginner. 频道主 @TinySnow 频道本部 @TinySnow4Yi 小说子频道 @TinySnowFictions
最近帖子
第 25/77 页 · 共 919 条
发布 1月15日
自然界的腥牙血爪 正如你所料,除了人类,在其他物种之间也会发生囚徒困境。在搭建住所、采集食物、逃避捕食者之类的事情中,动物的行为可能是对自己或直系亲属有利的自私行为,也可能是对较大的群体都有利的行为。什么样的环境能促成好的集体结果?进化生物学家们已经研究了这个问题,并发现了一些有趣的例子和观点。这里给出一个简单的例子。[1] 曾经有人问过英国生物学家 J.B.S。霍尔丹(Haldane)这样的问题:他是否会冒着生命危险去救一个同伴,霍尔丹回答:“如果是救 2 个以上的兄弟,或者 8 个以上的堂兄弟,那么我会的。”你和你的兄弟拥有一半相同的基因(同卵双胞胎除外),和堂兄弟有 1/8 的基因相同;因此,你这样做,会使复制到下一代的你的基因数的期望值增加。这样的行为具有很大的生物学意义,因为进化过程会促进这种行为。这种近亲之间合作行为的纯基因基础,解释了在蚁群和蜂房中所观察到的令人惊叹的复杂的合作行为。 在动物中,没有这种基因纽带的利他行为非常罕见。但是,如果一个动物群体中的成员之间的相互作用足够稳定和长久,那么即使没有太多的基因一致性,互惠的利他行为也有可能发生,并持续下去。结群猎食的狼及其他动物就是这样的例子。下面的例子有点儿可怕,却令人吃惊:哥斯达黎加的吸血蝙蝠通常 12 只左右群居在一起,但是单独猎食。每天,总有一些吸血蝙蝠运气较好,而其他蝙蝠运气不好。幸运的吸血蝙蝠饱餐后飞回到整个群体居住的洞穴,可以把他们从猎物吸食的血液反刍出来,分给其他蝙蝠。三天没有吸到血的蝙蝠会面临死亡的危险。这个群体通过这样的分享,形成了相互“保险”、对抗死亡危险的有效方法。[2] 马里兰大学生物学家杰拉尔德·威尔金森(Gerald Willkinson)将不同地区的吸血蝙蝠集中起来放在一起,探讨了这种行为的原因。他有规律地扣留其中一些蝙蝠的血,观察其他蝙蝠是否会把血分给它们。他发现,只有当蝙蝠快要饿死时,才会有其他蝙蝠把血分给它。蝙蝠似乎能够将真正的需要和暂时性的坏运气区分开来。更有趣的是,他发现只有在以前群体中彼此相识的蝙蝠才会相互分食,而且它们也更愿意分给以前帮助过自己的蝙蝠。也就是说,蝙蝠能够认出其他蝙蝠,记住它们过去的行为,从而形成有效的互惠利他制度。
发布 1月15日
商界中的困境 有了前几节实验发现和理论思想的工具装备,现在我们可以走出实验室,去看一看现实世界中的一些囚徒困境实例,并尝试克服这些困境。 让我们先看看某个行业竞争企业之间的囚徒困境。通过行业垄断或组成卡特尔,维持高昂的价格,他们本可实现共同利益最大化。但是,每家企业通过背叛这种协议,秘密降价以从对手那里“偷”走生意,都可以得到更大的赢利。这些公司该怎么做呢?一些有助于成功合谋的因素,比如,不断增长的需求或者缺少破坏性的进入者,可能至少有一部分不在他们的掌控之中。不过,他们可以利用侦查欺骗的手段,设计有效的惩罚策略。 如果这些公司之间定期召开会议进行沟通,合谋便更容易实现。这样,它们便可以就什么是可接受的行为,以及什么行为构成了背叛的问题,进行谈判和妥协。谈判的过程以及谈判记录,有助于保持惩罚的清晰性。如果某种行为乍看起来像是欺骗,那么下一次会议就可以澄清,它是某个参与者不小心犯下的无关紧要的、不伤大雅的错误,还是蓄意的欺骗行为。因此就可以避免不必要的惩罚。而且,这个会议还有助于集团实施适当的惩罚。 问题在于,企业集团成功地解决了自己的困境,却伤害了公众的利益。消费者必须支付更高的价格,而这些公司却为了维持高价而减少供给。就像亚当·斯密说的那样:“同一交易的人们很少全部聚在一起,即使是对于娱乐和消遣的交易也是这样,但对话总是最终以对抗公众的合谋或提高价格的诡计结束。”[1]政府想要保护公众的利益,于是加入博弈,制定反托拉斯法,规定公司以这种方式合谋是不合法的。[2]在美国,《谢尔曼反托拉斯法案》禁止“以限制贸易或商业为目的”的合谋,在这些合谋中,价格配合或市场份额配合是最基本的,也是最常发生的。事实上,最高法院已经规定,不仅这种明确的合谋协定是被禁止的,而且公司之间的任何有价格配合作用的显性或隐性的协定,无论其主要意图是什么,都违反了谢尔曼法案。公司一旦触犯这些法律,其执行总裁就会有牢狱之灾,而不仅仅是作为法人的公司缴纳罚款。 这些公司努力想规避对非法行为的制裁。1996 年,ADM 公司——美国主要的农产品加工商,与其日本竞争对手味之素公司陷入了这样一场合谋官司。它们商定了各种产品的市场份额和定价协议,包括赖氨酸(它由玉米制成,用于养鸡和猪)。这样做的目的是以顾客利益受损为代价维持高昂的价格。它们的理念是:“竞争者是我们的朋友,顾客则是我们的敌人。”由于 ADM 公司的某个谈判代表当了联邦调查局(FBI)的线人,他对多次会议进行了录音或录像,于是这两家公司的恶行得以曝光。[3] 在反垄断史和商学院案例分析中,一个著名的案例是关于大涡轮发电机的。1950 年,美国市场有三家公司生产涡轮发电机:通用电气公司最大,占有大约 60% 的市场份额;其次是西屋电气公司,占大约 30% 的市场份额;爱科公司则占 10% 的份额。它们采用了一种很精明的协调方法,来维持各自的占有率,并获得高价。下面是这种方法的运作过程。电力公共事业为打算购买的涡轮发电机招标。如果招标在历月的 1~17 日发布,西屋和爱科必须各自提交一个非常高的竞价,且该竞价必定失败,这样,通用就会以最低的竞价(但仍是可获得高额利润的垄断价格)成为合谋推举出来的胜出者。类似地,如果招标是在 18~25 日发布的,西屋就是指定胜出者,而爱科则是 26~28 日的指定胜出者。由于电力公共事业并不根据月历发布他们的招标计划,因此久而久之,每家生产商都得到了协议的市场份额。任何违背协议的公司很快会被对手发现。但是,只要司法部门不把胜出者跟月历联系起来,合谋就不会被法律觉察。不过,当局最终确实找出了这种规律,这三家公司的一些执行总裁锒铛入狱,有利可图的合谋就此瓦解。稍后我们还会讲到其他不同的合谋阴谋。[4] 后来,1996~1997 年,无线电波段拍卖的竞标中出现了“涡轮机阴谋”的变体。一家公司如果想得到某个特定地区的许可权,它就会通过把该地区的电话区号作为其出价的后三位数字,向其他公司暗示自己争取该许可权的决心。这样,其他公司就会让它胜出。只要同一个公司集团能长期在大量的这种拍卖中相互影响,只要反垄断当局没有察觉出这种规律,这种阴谋就可能继续维持下去。[5] 更普遍的情形是,某个行业中的公司会尽力达成,并维持未经明确沟通的、隐含的或心照不宣的协议。这消除了反托拉斯犯罪行为的风险,尽管反托拉斯当局可以利用其他方法结束隐含的合谋。不利之处在于协议不够清晰,且欺骗难以觉察,不过公司可以设计一些方法来改善这两个方面。 公司可以按照地域、生产线或某种类似的方式协议分割市场,而不是协议定价。这样,欺骗就更加显而易见,一旦其他公司“偷”走了分给你的部分市场,你的销售人员很快就会知道。 借助于“匹配竞争或殊死一搏”政策或最惠顾客条款之类的方法,商家可以更加简便地察觉降价,而报复也将得以迅速、自动地执行;在零售业尤其如此。许多销售家用产品和电子产品的公司高调地宣称,其价格将低于任何竞争对手的价格。有些公司甚至保证,如果你购买产品后一个月内发现其他同类产品价格更低,它们会退回差额,有时甚至双倍退回差额。乍一看,这些策略似乎以承诺低价促进了竞争。但只要有一点点博弈论思维就会知道,实际上它们所起的作用恰巧相反。假设彩虹之巅(RE)和比比里恩(BB)都采取了这样的政策,且它们的隐含协议是将衬衫定价为 80 美元。现在,每家公司都知道,如果它偷偷降价至 70 美元,对手很快就会发现;事实上,该策略最精明的地方在于,它让那些对低价最敏感的顾客承担了侦查欺骗的职能。而且潜在的背叛者也知道,对手会立即降低自己的价格来报复它,甚至不用等到明年的产品目录印刷出来。因此,这就更有效地吓阻了背叛者。 匹配竞争或殊死一搏的承诺可以是灵活的和间接的。在普惠公司(P&W)和劳斯莱斯公司(RR)争夺波音 757 和 767 的喷气式飞机引擎市场的竞争中,普惠公司向所有潜在购买者承诺,它的引擎相对于劳斯莱斯公司的引擎可以节省 8% 的燃料,否则它将赔付燃料成本的差额。[6] 最惠客户条款是说,所有客户将享受公司向最惠客户提供的最优惠价格。从表面上看,这些生产商是在保证最低价。不过,让我们深入考察一下。该条款意味着,这些生产商不能展开竞争,不能通过提供一个带有选择性的折扣价格,将其对手的顾客吸引过来,同时却只向它的熟客提供原来的较高价格。否则,它们必须一起降价,而那样做的代价会大得多,因为它们卖出的所有产品的利润都下降了。你可以看出这个条款对一个卡特尔有什么好处:欺骗所得小于欺骗所失,因此卡特尔也更容易维持。 美国反托拉斯执法系统的部门之一,联邦贸易委员会曾经评估过这个条款,杜邦公司、乙烷基公司和其他生产抗震汽油添加剂的公司都被指控使用了该条款。联邦贸易委员会裁定其存在反竞争效果,并且禁止这些公司在它们与客户签订的合同里使用这个条款。[7]
发布 1月15日
如何达成合作 这些例子和实验已经说明了成功合作的几个先决条件和策略。让我们更系统地介绍这些概念,并利用它们解决更多的现实生活实例。 成功的惩罚机制必须满足几个要求。下面我们逐一列出。 觉察欺骗 惩罚欺骗之前,必须觉察到欺骗。如果觉察快速而且准确,惩罚的实施就能够即时无误。这在提高欺骗成本的同时,减少了欺骗的好处,从而提高了成功合作的可能性。比如,航空公司时常监视对手的票价;如果美国航空公司打算降低其纽约至芝加哥的票价,联合航空公司可以在 5 分钟内就做出反应。但是在其他情况下,想降价的公司可能会跟顾客秘密交易,或者通过一笔涉及飞行时间、服务质量、安全保证等许多方面的复杂交易来掩饰其降价。极端情形下,每个公司只能观察到自己的销售和利润,它们不仅取决于其他公司的行动,还取决于一些机会元素。比如,一家公司的机票销售量还可能取决于需求的变化,而不是仅仅取决于其他公司的秘密降价。这样,觉察和惩罚不仅变得缓慢,而且也不准确,更增强了欺骗的动机。 最后,当同一个市场上有三家以上公司同时行动时,他们不仅需要找出是否存在欺骗,还要找出欺骗者是谁。否则,惩罚不但不能针对性地惩戒坏人,而且会变得迟钝无效,或许还会引发价格战,以致伤害所有人。 惩罚的性质 接下来是惩罚的选择。有时候,参与者会采取惩罚他人的行动,这些行动会被欺骗行为激发起来,即使在单次互动博弈中也是如此。就像我们在《洛城机密》中的囚徒困境中指出的,如果雷若伊因为替国家作证而从轻判刑,那么,他出狱后将遭到苏格和蒂龙的朋友的报复。在得克萨斯州 A&M 大学的课堂实验中,如果学生可以觉察出是谁背叛了所有人的合谋而选择了 1,他们就可能对欺骗者施以社会制裁,比如排斥这个欺骗者。这样,就不会有几个学生愿意为了多得 50 美分而冒这个险了。 在博弈的结构里还存在其他类型的惩罚。一般而言,这种情况发生的原因在于这个博弈是重复进行的,这一轮欺骗的所得将导致后面几轮的损失。这些是否足以觉察出哪个参与者打算欺骗,取决于得失的大小以及将来相对于现在的重要性。我们很快就会继续讨论这个方面。 清晰性 可接受行为的界限,以及欺骗的后果,对潜在的欺骗者而言应当是清晰的。如果这些是复杂的、含糊不清的,参与者就可能因为失误而欺骗,或者不能做出理性的计算,而是根据某种直觉行事。举个例子,假设彩虹之巅(RE)和比比里恩(BB)正重复进行定价博弈,RE 决定,如果 RE 过去 17 个月内的平均折扣利润比同期产业资本的平均真实回报率低 10%,它就推断 BB 欺骗了。BB 不能直接知道这个规则;它必须通过观察 RE 的行动来推断 RE 所采用的规则。但是,这里陈述的规则太复杂了,BB 根本无法弄清楚。所以,这不是一个阻吓 BB 欺骗的好方法。而像以牙还牙这样的策略就表达得相当清楚:如果 BB 欺骗,它就会看到 RE 在下次降低价格。 确定性 参与者应该确信,背叛将受到惩罚,合作则会得到回报。在像世界贸易组织(WTO)贸易自由化这样的国际协议中,这是一个主要问题。当一个国家投诉另一个国家违背了贸易协定时,WTO 就会发起一个行政诉讼程序,而一拖就是几个月,甚至好几年。案件真相几乎对判决没有任何影响,判决通常更多地取决于国际政治规定及外交政策。这种强制执行的判决程序显然不可能发挥什么作用。 规格 这样的惩罚应该有多严厉?似乎没有限制。如果惩罚严厉到足以阻吓欺骗,惩罚就无须实际执行了。因此,要阻吓欺骗,最好把惩罚设定在尽可能严厉的水平。比如,WTO 可以这样规定,任何国家要是违背了其将保护性关税维持在协定低水平之内的承诺,都会遭到核武器袭击。当然,大家会被这个规定吓得退缩不前,不敢欺骗;但大家至少部分会认为某个失误也可能导致核攻击的发生。在大多数情况下,当失误可能发生时,正如实际中常会发生的那样,惩罚的规格应该保持能够成功阻吓欺骗的尽可能低的水平。在极端情况下,原谅偶然的背叛甚至可能是最优的策略,例如,一家明显为生存而竞争的公司的对手可能会允许它降一点价,而不会进行报复。 重复性 现在来考察一下 RE 和 BB 之间的定价博弈。假设一年又一年过去了,它们彼此相处愉快,一直都把价格维持在其联合利益的最佳点,80 美元。有一年,RE 的经理考虑降价至 70 美元的可行性。他们估计,70 美元的价格将会给他们带来额外的利润 110000 美元–72000 美元=38000 美元。但是这可能导致彼此信任关系的瓦解。RE 应该预计到,以后几年内 BB 也将选择 70 美元的价格,每家公司将每年只获利 70000 美元。而如果 RE 遵守了最初的协议,每家公司本可以获得 72000 美元的利润。因此,RE 的降价行为将给它带来以后每年 72000 美元–70000 美元=2000 美元的损失。为了 38000 美元的一次性赢利值,BE 值得以后每年损失 2000 美元吗? 决定现在与未来的报酬是否均衡的一个关键变量是利率。假设年利率为 10%。那么,RE 可以把它赚的额外的 38000 美元存进银行,然后以后每年赚取 3800 美元的利息。这远远超过了以后 2000 美元的年损失。因此欺骗符合 RE 的利益。但如果年利率只有 5%,那么,在以后每年,38000 美元只能给 RE 带来 1900 美元的利息,它小于协议瓦解后的 2000 美元的年损失;这样,RE 就不会欺骗了。使二者均衡的利率应为 2/38=0.0526,即每年 5.26%。 这里的关键点在于,利率较低时,未来相对更有价值。例如,如果年利率为 100%,那么未来相对现在而言价值很低,一年后的 1 美元只值现在的 50 美分,因为你可以在一年内把 50 美分变成 1 美元,另外赚到 50 美元的利息。但是,如果年利率为零,那么一年后的 1 美元的价值与现在的 1 美元相等。[1] 在我们所举的例子中,当实际利率稍高于 5% 时,对每家公司而言,把他们的最佳联合价格 80 美元降低 10 美元的动机非常小,重复博弈中的合谋可有可无。我们将在第 4 章中探讨,如果没有对未来的顾虑,且欺骗的诱惑无法抗拒,价格会降到多低。 另一个需要考虑的相关因素是关系延续的可能性。如果这种衬衫仅仅是风靡一时的时尚商品,第二年可能根本卖不出去,那么,任何未来损失的可能性都不足以抵消今年欺骗的诱惑力。 但是除了衬衫外,RE 和 BB 还销售很多其他商品。在衬衫价格上欺骗,将来会不会招致对于对其他商品的报复?这种极大报复的可能性是否大到足以吓阻背叛?唉,对维持合作关系而言,多产品相互作用的方法是否有用没这么简单。多产品报复的可能性,伴随着立即从所有其他方面的同时欺骗中获益的可能性,而不仅仅是指一个方面。如果所有的产品都有完全相同的赢利表,那么得益和损失都会增加相同的量,这个量与产品的数量相等,因而,不论最后的均衡赢利是正的还是负的,这种变化趋势都不会改变。因此,在多产品囚徒困境博弈中,成功的惩罚必须以更微妙的方式,这取决于产品之间的差异。 第三个需要考虑的相关因素是经济规模随着时间的预期变化。这种变化包括两个方面——稳定的增长或衰退,以及波动。如果预期经济会增长,那么,现在想要背叛的公司就会认识到,由于合作关系破裂,它很可能在将来损失得更多,于是对欺骗更加犹豫。反之,如果经济正走下坡路,那么,企业知道将来没什么可拿来冒风险的,就会更倾向于欺骗。至于在经济波动期,公司更倾向于在暂时的繁荣到来时欺骗;欺骗能为它们带来更多的即时利润,但是根据平均的定义,在将来经济容量只达到平均水平时,由合作瓦解造成的利润下滑会打它们个措手不及。因此,我们预计在需求旺盛时期会爆发价格战。但情况并不总是如此。如果某时期的低需求是由普遍的经济萧条造成的,那么,顾客的实际收入就会降低,结果他们可能成为更精明的购物者,他们对某家公司或其他公司的忠诚度可能会降低,而且可能对价格差异反应更加灵敏。这种情况下,降价的公司就可以指望从其对手那里吸引来更多的顾客,从而从背叛中获得更大的即时利益。 最后,参与者群体的构成十分重要。如果结构稳定而且预期会这样保持下去,就有助于维系合作。合作协议中无关的或没有参与史的参与者更可能违约。如果当前的这群参与者预计将来有新成员加入,从而动摇这种心照不宣的合作关系,这就会增加他们自己欺骗的动机,谋取一些额外的利益。
发布 1月15日
新近的关于多人囚徒困境博弈的实验室实验,采用了一种叫作捐款博弈的形式。每个参与者得到一笔初始资金:10 美元。每人可选择保留其中一部分,再把另一部分捐给共同储金。然后,实验者把累积的共同储金翻倍,在所有参与者之间平分,捐款人和非捐款人都同等对待。 假设在这个组中总共有四个参与者:A、B、C 和 D。不论其他人怎么做,A 只要向共同储金捐献 1 美元,共同储金翻倍后就会增加 2 美元。但是,增加的 2 美元中,会有 1.5 美元分给 B、C 和 D;而 A 只能得到 50 美分。因此,A 提高了其捐献量,最后却亏了本;相反,他减少捐献量反而会获益。不论其他人捐多少(如果有捐款的话),这一点都是成立的。换句话说,对 A 来说,一分钱也不捐是优势策略。对 B、C 和 D 来说亦是如此。这个逻辑是说,人人都应当希望成为一个分享别人成就的“免费搭车者”。如果四位参与者都采取他们的优势策略,共同储金便空空如也,每个人只保有他们的初始资金 10 美元。当人人都想成为免费搭车者时,车就会停滞不前。如果人人把他们所有的初始资金捐给共同储金,那么,翻倍后的共同储金将是 80 美元,每个人将分到 20 美元。然而,每个人都有背叛这样协议的个人动机。这就是他们的困境。 捐款博弈不仅仅是实验室或理论上的奇事;它还发生在现实世界的社交活动中——只要群体成员自愿捐款就能共同受益,但却不能阻止没有捐款的人也能享受到这些利益。村庄对洪水的控制、自然资源的保护就属于这种情形:不可能建了堤坝后,洪水就会有选择地绕道而行,只淹没那些没有捐款帮忙建设堤坝的人的田地;拒绝以后把鱼分给那些过去消耗太多的人,也是不可行的。这就产生了多人囚徒困境:每个参与者都有偷懒或保留贡献的动机,却指望能享受别人的贡献带来的利益。如果大家都这么想,总的贡献量就会很少甚至为零,结果大家都遭受了损失。这些情形普遍存在而且如此严重,以致所有社会理论和政策都需要深入思考才能走出困境。 在该博弈中的最有趣的变体中,参与者有机会惩罚那些背叛隐含社会合作契约的人。但是,他们必须为此承担个人成本。在捐款博弈结束后,参与者被告知其他参与者的个人捐款量。然后开始第二阶段的博弈,参与者可以采取降低其他人赢利的行动,而其他人的赢利每降低 1 美元,他自己要付出 33 美分的成本。也就是说,如果 A 选择把 B 的赢利降低 3 美元,那么 A 这样做之后,他的赢利就会减少 1 美元。这些减少的赢利不会再分配给其他任何人;而是返还到实验者的总资金中。 实验结果表明,人们对“社会欺骗者”实施了大量的惩罚,惩罚的可能性也大大提高了博弈第一阶段的贡献量。这样的惩罚似乎是促成合作、增进群体利益的一个有效机制。但是人们实施惩罚的事实首先就是令人惊讶的。以私人代价惩罚他人的行为,本身就是对集体利益的贡献,所以它是一个劣势策略;如果它以后成功地引导欺骗者采取了更好的行为,这将对整个集体有利,而惩罚者将只得到该利益中属于他的一小部分。所以,惩罚不是自私估计的结果。情况的确如此。在关于该博弈的实验进行的同时,参与者的大脑接受了正电子放射扫描仪的扫描。[5]结果表明,实施惩罚的行为会刺激某个大脑区域,该区域被称为背侧纹状体,它与体验快乐或满足有关。换句话说,人们从惩戒社会欺骗者的行为中,实际上得到了心理上的受益或满足。这种本能必定有着很深的生物根源,而且可能是因为其进化优势而被选择出来的。[6]
发布 1月15日
较新的实验 成千上万的关于囚徒困境的实验是在课堂和实验室进行的,这些实验涉及不同参与者人数、不同重复次数以及其他方面。下面是一些重要发现。[1] 首先最重要的是,合作发生得相当频繁,即使每对参与者只达成一次合作。平均而言,几乎一半参与者选择了合作。确实,对此最引人注目的例证来自游戏秀网络产品“朋友还是敌人”。在这个节目秀中,两人一组,每组都被问了一些琐碎问题。答对的人赚得的钱存入“信托资金”,在 105 集中,资金总额为 200~16400 美元不等。为了分配这笔资金,参赛者双方进行一个单次囚徒困境博弈。 每个人私下里写下“朋友”或“敌人”。当双方同时写下朋友时,他们平分这笔资金。如果一方写了敌人而另一方写了朋友,那么,写敌人的那个人将得到全部资金。但若双方都写敌人,他们都将一无所获。不论对方写什么,你写敌人得到的钱至少等于或者可能大于你写朋友所得到的钱。然而,几乎一半参赛者写下的是朋友。甚至当资金总额增大时,合作的可能性也没有改变。资金低于 3000 美元时人们合作的可能性,与资金高于 5000 美元时相等。以上就是从菲利克斯·奥本豪泽尔–吉(Felix Oberholzer-Gee)教授和乔·沃德弗格(Joel Waldfogel)教授,以及马修·怀特(Matthew White)教授和约翰·李斯特(John List)教授所进行的两项研究中发现的一些结果。[2] 如果你还在疑惑看电视如何算得上是学术研究,可结果已有过 700000 美元的资金分给了参赛者。这是史上奖金最多的囚徒困境实验。我们能从中学到许多东西。实验结果表明,女性比男性更倾向于合作,在第一季,女性和男性合作的概率分别是 47.5% 和 53.7%。第一季的参赛者不具有可以在决策前看到其他比赛结果的优势。但到了第二季,前 40 集的结果已经公布了,这个模式变得显而易见。参赛者可以从其他人的经验中学到一些策略。当某一组是由两个女性组成时,合作的概率增至 55%。但是当一个女性与一个男性组对时,这个女性的合作概率降到了 34.2%。而这个男性的概率也降到了 42.3%。总体而言,合作率降低了 10 个百分点。 如果一群实验对象集中起来进行几次配对,且每次的配对不同,那么,选择合作的比率一般会随时间下降。不过,它不会降至零,而是总有固定的一小部分人坚持合作。 如果同一对实验对象重复进行基本的囚徒困境博弈,他们常常逐渐达成连续的相互合作,直到其中一个参与者在临近这一连续重复博弈结束时选择了背叛。在第一次进行的困境实验中就发生了这样的事。弗勒德和德雷希尔一设计出这个博弈,就立即招呼他们的两个同事进行了 100 次这个囚徒困境博弈[3]。其中 60 次双方都选择了合作。较长的一次连续相互合作是从第 83 轮持续到第 98 轮,直到其中一方在第 99 轮偷偷背叛。 事实上,按照博弈论的严格逻辑,这种情况本来不应该发生。当这个博弈恰好重复 100 次时,它就是一个同时行动博弈序列,我们可以用倒后推理的逻辑来解决这样的博弈。展望一下在第 100 次博弈时会发生什么。因为往后不再有更多的博弈了,所以背叛不可能在以后的任何一轮遭到惩罚。根据优势策略的推理,双方都应该在最后一轮选择背叛。但是,一旦确定了双方都会在最后一轮选择背叛,第 99 轮实际上就成了最后一轮。尽管后面还有一轮,在第 99 轮的背叛也不会在第 100 轮遭到对方的选择性惩罚,因为对方在第 100 轮中的选择是预先注定的。因此,优势策略的逻辑也适用于第 99 轮。我们可以用这个序列逻辑一直倒后推理到第 1 轮。不过,在实际博弈中,不论是在实验室还是在真实世界中,参与者似乎忽略了这个逻辑,结果反而受益于相互合作。事实证明,只要其他人同样都是“非理性”的,那么,乍看上去可能是非理性的行为,偏离参与者的优势策略却是一个正确的选择。 针对此种现象,博弈论学者做出了一种解释。现实世界中存在一些“互惠主义者”,只要对方合作,他们也愿意合作。假设你并不是这些相对友好的人中的一员。如果你在一个有限次重复囚徒困境博弈中按照自己的风格行事,那么你会从一开始就欺骗。而这会向对方参与者暴露出你的本性。为了掩盖真相(至少掩盖一会儿),你不得不表现出友好的样子。为什么你愿意这么做呢?假设你一开始就表现得友好。那么,即使对方参与者不是一个互惠主义者,他也会认为你可能是周围少有的几个友好的人中的一员。合作一段时间将会带来一些实实在在的好处,于是对方会打算报答你的善举,以获取这些好处。这对你也有好处。当然,你正计划在临近博弈结束时偷偷欺骗,就像对方一样。但你们仍然能够在最初阶段维持一段互利互惠的合作。虽然各方都假装善良等着占对方便宜,但双方都会从这种共同欺骗中获得好处。
发布 1月15日
以牙还牙 20 世纪 80 年代初,密歇根大学政治科学家罗伯特·阿克谢罗德(Robert Axelrod)邀请了世界各地的博弈论学者以电脑程序形式提交他们的囚徒困境博弈策略。这些程序两两结对,反复进行 150 次囚徒困境博弈。参赛者按照最后总得分排定名次。 冠军是多伦多大学的数学教授阿纳托·拉普波特(Anatol Rapoport)。他的取胜策略就是以牙还牙。阿克谢罗德对此感到很惊奇。他又举办了一次比赛,这次有更多的学者参赛。拉普波特再次提交了以牙还牙策略,并再次赢得了比赛。 以牙还牙是“以眼还眼”行为法则的一种变形:人家怎么对你,你也怎么对他。说得更准确点,这个策略在开局时选择合作,以后则模仿对手在上一期的行动。 阿克谢罗德认为,以牙还牙法则体现了任何一个有效策略应该符合的四个原则:清晰、善意、报复性和宽容性。再也没有什么字眼会比“以牙还牙”更加清晰、简单。这一法则不会引发欺骗,所以是善意的。它也是报复性的——也就是说,它永远不会让欺骗者逍遥法外。它还是宽容的,因为它不会长期怀恨在心,而愿意恢复合作。 以牙还牙一个非常引人注目的特征在于,它在整个比赛中取得了突出的成绩,虽然它实际上并没有(也不能)在一场正面较量中击败任何一个对手。其最好的结果是跟对手打成平手。因此,假如当初阿克谢罗德是按照“赢者通吃”的原则打分,以牙还牙的策略只可能失败或是打成平手,而不可能取得最后的胜利。[1] 不过,阿克谢罗德并没有按照“赢者通吃”的原则给结对比赛的选手打分,只有比赛结束才算数。以牙还牙策略的一大优点在于它总是可以将比赛引向结束。以牙还牙最坏的结果是,以遭到一次背叛重击而告终,也就是说,它让对手占了一次便宜,此后双方打成平局。 以牙还牙策略之所以能赢得这次锦标赛,是因为它通常都会竭尽全力促成合作,同时避免互相背叛。其他参赛者则要么太轻信别人,一点也不会防范背叛,要么太咄咄逼人,一心要把对方踢出局。 不过,尽管如此,我们仍然认为以牙还牙策略是一个有缺陷的策略。只要存在一丁点儿出现错误或误解的可能性,以牙还牙策略的胜利就会土崩瓦解。这个缺陷在人工设计的电脑锦标赛中并不可能,因为此种情况下根本不会出现错误和误解。但是,一旦将以牙还牙策略用于解决现实世界的问题,错误和误解就难以避免,结局就可能是灾难性的。 以牙还牙策略的问题在于,任何一个错误都会犹如“回声”一般反复出现。一方对另一方的背叛行为进行惩罚,从而引发连锁反应。对手受到惩罚之后,不甘示弱,进行反击。这一反击又招致第二次惩罚。无论什么时候,这一策略都不会只接受惩罚而不做任何反击。 举个例子:假设弗勒德和德雷希尔都采取以牙还牙策略。没有人先发起背叛,一段时间内,一切都顺利进行。然后,到了第 11 轮,假设弗勒德错误选择了背叛,或者选择了合作但德雷希尔却误以为他选择了背叛,不论是哪种情况,德雷希尔在第 12 轮都会选择背叛,而弗勒德却会选择合作,因为德雷希尔在第 11 轮中选择了合作。到了第 13 轮,角色就会转换过来。这种一方合作而另一方背叛的模式会继续反复进行下去,直到又一个错误或误解的出现恢复了合作或导致双双背叛。 在西弗吉尼亚与肯塔基的交界处,哈特菲尔德家族(Hatfields)与麦科伊家族(McCoys)家族的长期争斗可谓令人难忘。而在虚构世界中,马克·吐温笔下的格兰杰福特家族与谢泼德森家族的世代仇恨,为我们提供了另外一个生动的例子,说明以牙还牙的行动是怎样导致循环报复的。当赫克·芬恩试图了解格兰杰福特家族与谢泼德森家族世仇的源头究竟是什么时,他却遇到了“鸡生蛋还是蛋生鸡”的难题: “这究竟是为了什么,巴克?——为了土地吗?” “我估计是——我不知道。” “那么,究竟是谁开的枪呢?是格兰杰福特家的人还是谢泼德森家的人?” “天哪,我怎么会知道?那是多久以前的事啊。” “有没有人知道呢?” “噢,有的,老爸知道,我估计,还有其他一些老头子,不过现在他们也不晓得当初究竟发生了什么事。” 以牙还牙策略缺少的是一个宣布“到此为止”的方法。它实在太容易被激发起来了,而且不会轻易地宽恕。确实,后来的阿克谢罗德比赛的版本考虑了错误和误解的可能性,结果表明,其他那些更宽宏大量的策略优于以牙还牙策略。[2] 在这里,我们甚至可以从猴子那里学到一些东西。棉头狷猴被置于一个博弈中,每只猴子都有机会拉动一个杠杆,给另一只猴子喂食。但是拉动杠杆需要力气。对每只猴子而言,最理想的策略就是自己偷懒,而它的搭档拉杠杆。但是为了避免遭到报复,猴子们学会了合作。只要一个参与者不连续背叛两次以上,棉头狷猴的合作就会一直持续下去,这种策略类似于以牙还牙策略。[3]
发布 1月15日
基于以下原因,奖励方法可能会有问题。奖励可以是内部的,一方对另一方的合作进行奖励。有时也可以是外部的,可以由从双方合作中获利的第三方对双方的合作进行奖励。不论哪种情形,都不能在参与者做出选择之前给予奖励;否则,参与者一定会把奖励揣入口袋,然后再选择背叛。如果奖励仅仅是一个许诺,那么这个许诺可能是不可信的:在受诺方选择了合作后,许诺方有可能会食言。 尽管困难重重,有时奖励还是可行的、有用的。发挥最大的创造性和想象力,参与者可以同时、相互许诺,然后通过把许诺的奖金存入由第三方控制的托管账户中,使这些许诺显得可信。更切实际的是,参与者可以在多个方面相互作用,一方在一个方面的合作可以换来对方在另一个方面合作的奖励。比如,在雌性黑猩猩群中,分享食物、帮忙照看幼崽,可以换来梳理毛发的帮助。有时候,博弈第三方可能有非常强烈的利益动机促成合作。例如,为了结束世界范围内的各种冲突,美国和欧盟不时地许诺向战争国提供经济援助,作为对它们和平解决争端的奖励。1978 年,美国以这种方式奖励了以色列和埃及,因为它们合作签署了戴维营协议。 惩罚是解决囚徒困境的更为常用的方法。它可能即时见效。电影《洛城机密》中有这样一个场景,警官埃德·埃克斯利向他正在审讯的嫌犯之一雷若伊·方丹许诺,如果他为国家作证,就可以比其他两个嫌疑犯少判几年。但雷若伊知道,一旦他出狱,他会发现另两个人的朋友正等着报复他! 然而,在这种背景下自然而然想到的惩罚,产生于这样的事实,即大多数此类博弈都只是一段持续关系的一部分。欺骗可能使一个参与者获得短期利益,但却会损害这种持续关系,产生更长期的成本。如果该成本非常大,这就可能从一开始就起到了阻吓欺骗的作用。[8] 一个引人注目的例子来自棒球比赛。美国联盟队的击球员被投球击中的概率是 11%,而国家联盟的击球员被击中的概率是 17%。据道格·德林恩(Doug Drinen)和约翰–查尔斯·布拉伯瑞(John-Charles Bradbury)所说,这种区别的主要原因在于指定的击球手规则。在美国联盟队,投球手不击球。因此,攻击击球手的美国联盟队投球手,不必担心对手队的投球手会直接报复。虽然投球手不太可能被击中,但如果他们刚刚在上半场攻击了某个人,那么,他们被击中的机会就会增加 1/4。担心遭到报复是显然的。就像王牌投球手科特·谢林(Curt Schilling)所解释的:“当你面对兰迪·约翰逊(Randy Johnson)时,你还会郑重其事地向某个人投球吗?” 大多数人在考虑一个参与者如何惩罚对方过去的欺骗行为时,就会想到“以牙还牙”的说法。这的确是关于囚徒困境最有名的实验结果。让我们详细叙述在实验中发生了什么,以及我们能从中学到什么。
发布 1月15日
论是如何解释的呢?在实际的这种博弈中,又会发生什么? 自从囚徒困境发明 50 年来,其理论已经有了很大的进展,而且积累了大量证据,这些证据不仅来自对真实世界的观察,还来自实验室中的可控实验。让我们来考察一下这些资料,看看能从中学到什么。 达成合作的另一面就是避免背叛。通过给予参与者一个适当的奖励,将可以激励参与者选择合作而不是选择最初的优势策略“背叛”;或者,通过制造一种适当的惩罚的可能性,亦可以吓阻参与者选择背叛。
发布 1月15日
一段小小的历史 对于这个涵盖了经济、政治和社会诸多活动的囚徒困境博弈,理念家当时是如何构造和命名的呢?这要追溯到博弈论学科早期的历史。作为博弈论先驱之一的哈罗德·库恩(Harold Kuhn)在 1994 年诺贝尔奖颁奖典礼的专题讨论会上,讲述了下面的故事。 那是 1950 年春天,埃尔·塔克(Al Tucker)在斯坦福大学学术休假,由于办公室紧缺,他住进了心理学系。有一天,一位心理学家敲开了他的房门,问他正在做什么。塔克回答:“我正在研究博弈论。”心理学家就问他能否就他的研究举办一次研讨会。为了那次研讨会,塔克发明了“囚徒困境”作为博弈论、纳什均衡以及与之伴随而来的非社会意愿均衡的例子。作为一个真正富有创意的例子,囚徒困境博弈激发了许多学术论文乃至几本巨著。 其他人的说法则略有不同。据他们所说,囚徒困境的数学架构早在塔克之前就形成了,这可以归功于两位数学家,即就职于兰德公司(美国冷战时期的智囊团)的梅里尔·弗勒德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)。塔克的才华在于,他发明了这个故事来阐释数学原理。之所以称它为一种才华,是因为它的展示方法可以形成或者打破一种思想;一种令人难忘的展示方法能够传播开来,并被大多数思想家更好更快地吸收,而一种乏味枯燥的展示方法可能会被人忽略、遗忘。 ∷一个直观的展示 我们用一个商业实例,来提出表示和求解该博弈的方法。彩虹之巅(Rainbow’sEnd)和比比里恩(B.B.Lean)是两家互为竞争对手销售服装的邮购公司。每年秋天,它们都要打印出其冬季产品目录单,并邮寄出去,且每家公司都必须遵守其产品目录上印刷的价格。由于产品目录的准备时间比邮购窗口开放的时间长得多,因此,两家公司必须在不知道对方价格的情况下,同时做出定价决策。它们很清楚,产品目录是给一些共同的潜在顾客看的,而这些顾客很聪明,他们不断追求低廉的价格。 两家公司的产品目录上通常都重点突出一件几乎完全相同的商品,如高档格子衬衫。对每家公司而言,该衬衫的单位成本为 20 美元。[1]它们估计,如果它们都对这种商品定价 80 美元,那么,每家公司将销售出 1200 件衬衫,这样,每家公司都将得到(80–20)×1200=72000 美元的利润。而且,事实证明,这个价格能使它们的共同利益最大:如果两家公司合谋起来,统一定价,那么 80 美元是使它们的联合利润最大化的价格。 这两家公司还估计出,如果其中一家公司把价格降低 1 美元,而另一家的价格保持不变,那么降价的公司将得到额外的 100 名顾客,其中 80 名是从另一家公司转移过来的顾客,20 名是新顾客。他们可能决定买下价格较高时未买的衬衫,也可能从当地购物中心的某个商店转移到这家公司。因此,每家公司都有动机制定低于对方公司的价格,以得到更多的顾客;我们给出这个故事的主要目的在于,找出这些动机是如何影响双方的行动的。 首先,我们假设每家公司只有两个价格选择:80 美元和 70 美元。[2]如果一家把它的价格降至 70 美元,而另一家公司仍然定价 80 美元,那么,降价者将得到额外的 1000 名顾客,而另一家则失去 800 名顾客。这样,降价者售出 2200 件衬衫,而另一家的销售量降到 400 件;降价者的利润为(70–20)×2200=110000 美元,而另一家公司的利润为(80–20)×400=24000 美元。 如果两家公司都把价格降至 70 美元,结果会怎么样?如果它们都降价 1 美元,虽然现存的顾客数量不变,但它们各自都得到了 20 名新顾客。这样,当它们都把价格降低 10 美元时,就能各自在原先 1200 件的基础上多销售 200 件。即每家公司的销售量是 1400 件,获得的利润为(70–20)×1400=70000 美元。 我们希望能够直观地展示出利润结果(即公司在博弈中的收益)。但是,我们无法运用第 2 章中的博弈树来做到这一点。因为在这里,两个参与者是同时行动的。参与者在采取行动时,都不知道对方做了什么,也预料不到对方将如何回应。相反,每个人都要考虑对方同时在想什么。这种想对方之所想的做法的一个出发点是,列出双方所有同时选择组合的所有结果。因为每家公司各有两个价格选择:80 美元或 70 美元,所以总共存在四个这样的组合。我们可以用一种由行和列组成的类似电子表格的形式简单地把它们表示出来,通常我们称之为博弈表或者赢利表。彩虹之巅(简称 RE)的选择表示在行中,比比里恩(简称 BB)的选择表示在列中。在这四个单元格中的每个单元格,我们都展示了与每个 RE 行选择和 BB 列选择相对应的两个数字——衬衫的销售利润,单位是千美元。在每个单元格中,左下角的数字属于行参与者,右上角的数字属于列参与者。[3]在博弈论术语中,这些数字称为赢利。[4]同时,在这个例子中,为了清楚地区分哪些赢利属于哪个参与者,我们把这些数字用两种不同的阴影表示出来。  在“求解”这个博弈之前,让我们先来观察并强调一下该表格的一个特性。比较一下这四个单元格中的赢利组合。对 RE 而言较好的结果,并不总是意味着对 BB 而言是较坏的结果,反之亦然。具体地说,它们在左上角的单元格中的赢利,都优于它们在右下角单元格中的赢利。这种博弈无须分出胜者和败者;因为它不是零和博弈。我们在第 2 章也曾经指出,查理·布朗投资博弈不是零和博弈,我们在现实生活中遇到的大多数博弈也不是零和博弈。在很多博弈中,比如囚徒困境博弈,主要问题在于如何避免出现两败俱伤的结果,或者如何促成双赢的结果。 ∷困境 现在我们来考虑一下 RE 经理的推理。“如果 BB 选择 80 美元,那么我可以通过把价格降至 70 美元,得到 110000 美元的利润,而不是 72000 美元的利润。如果 BB 选择 70 美元,那么,若我也定价 70 美元,我的赢利是 70000 美元;但是,若我定价 80 美元,我只能得到 24000 美元的利润。所以,不论在哪种情况下,选择 70 美元都优于选择 80 美元。不论 BB 如何选择,我的更优选择(实际上是我的最优选择,因为我只有两种选择)都是相同的。我根本不需要考虑他的想法;我只管直接把价格定为 70 美元就好了。” 在一个同时行动博弈中,如果存在这样的特性:对某个参与者而言,无论其他参与者如何选择,他的最佳选择都是一样的,那么这种特性将大大简化参与者的思考过程以及博弈论学家的分析过程。因此,为了简化博弈求解方法,深入探讨并找出这个特性将很有价值。博弈论学者将这种特性命名为优势策略。如果对于某个参与者而言,无论其他参与者选择什么策略或者策略组合,他的同一种策略总是优于所有其他可选策略,我们就说这个参与者拥有优势策略。于是,我们得到了一个简单的同时行动博弈的行为法则。[5] 法则 2:假如你有一个优势策略,请照办。 囚徒困境是一个更为特殊的博弈——不仅一个参与者,而且两个(或者所有)参与者都有优势策略。BB 经理的推理与 RE 经理的推理完全类似,你应该自己练习运用这个法则,来巩固上述思想。你将发现,70 美元也是 BB 公司的优势策略。 博弈结果是如博弈表右下角单元格中所示的结果。即两家公司都选择了 70 美元的定价,且每家公司均获得 70000 美元的利润。正是优势策略使得囚徒困境成为如此重要的一个博弈。当参与者双方都选择他们的优势策略时,他们得到的结果劣于它们联合起来共同选择另一个策略(劣势策略)时得到的结果。在这个博弈中,它们本来都应该定价为 80 美元,从而得到博弈表左上角的单元格结果,即每家公司获得利润 72000 美元。[6] 只有一方定价 80 美元是不行的;这样的话,这家公司将损失惨重。在某种程度上,它们必须都制定高价,但在每家公司都有动机制定低于对方价格的情况下,这个结果很难达到。每家公司都追求自身的利益,并没有导致对双方都是最好的结果,这与亚当·斯密(Adam Smith)教给我们的传统经济学大相径庭。[7] 由此产生了很多问题。有些问题属于博弈论的更一般的方面。如果只有一个参与者有优势策略会怎样?如果参与者都没有优势策略又会如何?当每个参与者的最佳选择取决于对方的同时选择时,他们是否能看穿彼此的选择,然后解决这个博弈呢?我们将在以后的章节中继续讨论这些问题,那时我们会介绍一个更一般的解决同时行动博弈的概念——约翰·纳什的美丽的均衡。本章我们集中讨论关于囚徒困境博弈本身的问题。 一般情况下,每个参与者可选的两个策略分别被记为“合作”和“背叛”(或者有时候称为“欺骗”),我们将沿用这个用法。对每个参与者而言,背叛都是优势策略,而对双方而言,他们均选择背叛的策略组合得到的结果,比双方均选择合作得到的结果更糟。 ∷解决困境的初步思想 深知囚徒困境危害的参与者,有强烈的动机达成联合协议,避免陷入这种困境。例如,新英格兰的渔民们可以达成协议,限制捕捞,为将来储备鱼类资源。困难在于,当大家都面临欺骗的诱惑时,例如都想得到超过分配限额的鱼,怎样才使这样的协议比较稳固?关于这个问题,博弈
发布 1月15日
从这个故事中可总结的教训之一是,如果你不得不冒一点风险,通常是越早冒险越好。这一点在网球选手看来再明显不过了:人人都知道应该在第一次发球的时候冒风险,第二次发球则必须谨慎。这么一来,就算你第一次发球失误,比赛也不会就此结束。你仍然有时间考虑选择其他策略,并借此站稳脚跟,甚至一举领先。越早冒险越好的策略同样适用于生活中的大多数方面,无论是职业选择、投资还是约会。 更多关于向前展望、倒后推理原理的实际运用,请看第 14 章的一些案例分析:“祝你好运”“红色算我赢,黑色算你输”“弄巧成拙的防鲨网”“硬汉软招”“三方对决”和“糊涂取胜”。 [1] 而且,这将是尝试取胜的努力失败之后导致的平局,因此没有人会因为奥斯本一心想打成平局而批评他。
发布 1月15日
非常复杂的树 当有了一点倒后推理的经验后,大家会发现,日常生活或工作中很多策略局势都可以遵循“树逻辑”加以处理,而不必专门画出博弈树来进行分析。其他许多中等复杂的博弈可以通过越来越完善的专门电脑软件包来处理。但对于像象棋这样的复杂博弈,想通过倒后推理完全求解几乎是不可能的。 理论上而言,象棋是一个理想的可以通过倒后推理加以解决的序贯行动博弈。[1]在这个博弈中:参与者交替行动;参与者之前的所有行动都是可观察且无法撤销的;局势和参与者动机没有不确定性。如果相同的局势重复出现,比赛就算平局,这一规则确保比赛能在有限次行动后结束。我们可以从最末端那个决策点(或者终点)开始倒后推理。然而,理论和实践完全是两码事。据估计,象棋中的决策点总共大约有 10120 个,也就是 1 后面加 120 个零。一台比普通计算机速度快 1000 倍的超级计算机,也需要 10103 年才能把这些决策点全部考察完。等待是徒劳的;即便是可以预见的计算机改进,也不可能对这有太大的帮助。而与此同时,象棋选手和电脑象棋程序员都做了什么? 临近比赛结束之际,象棋大师在刻画最优策略方面一直做得非常成功。一旦棋盘上只剩下很少几个棋子,大师级选手就能展望博弈的结局,然后通过倒后推理来判断一方是否一定取胜,或者另一方能否确保打成平局。但在博弈中盘阶段,当棋盘上还有好些棋子的时候,预测局势就困难得多了。向前展望十步,这与象棋大师在适当的时间内所能展望的步数差不多,也不可能使局势简化到可以使当时的局势直到终局都得到完全解决。 实用性的方法是将展望分析和价值判断相结合。前者属于博弈论科学——向前展望,倒后推理。后者属于象棋艺术,能够根据棋子的数目和棋子之间的相互联系判断出所处局面的价值,而无须从某个决策点开始向前展望,明确找出这个博弈的解决方法。象棋选手通常把这称为“知识”,但你也可以把它称为经验、本能或者艺术。我们通常可以根据象棋选手掌握“知识”的深度和精度,来识别出谁是最佳的象棋选手。 我们可以通过对大量的象棋博弈和象棋选手进行观察,提炼“知识”,然后总结出规律。对此的大部分研究都集中在开局,即棋局刚走了 10 步或者 15 步时。有很多书籍对不同的开局进行了分析和比较,讨论了它们的优缺点。 计算机是怎样做到这一点的?编制电脑象棋程序曾经被认为是新兴人工智能科学的组成部分;它的目的是为了设计出能像人类一样思考的计算机。可惜研究了很多年都没能成功。后来,人们的注意力开始转向利用计算机做它们最擅长的事情——数字运算。计算机可以向前多展望几步,而且展望得比人类更快。[2]到 20 世纪 90 年代末,像菲兹(Fritz)和深蓝(Deep Blue)这样的象棋电脑,已经可以利用纯粹的数字运算,与人类最优秀的象棋选手进行较量了。再后来,一些中盘局面的知识也被编入电脑程序,这些知识是由一些最优秀的人类棋手所传授的。 人类棋手的等级是根据他们的业绩评定的;最高等级的电脑已经达到了相当于 2800 等级分的级别,这相当于世界最强的象棋大师加里·卡斯帕罗夫(Garry Kasparov)的水平。2003 年 11 月,卡斯帕罗夫与最新版的菲兹电脑 X3D 进行了一场四轮赛。结果是双方各胜一局,打平两局。2005 年 7 月,Hydra 象棋电脑在一场六轮赛中,以五胜一平的成绩打败了世界排名第 13 位的迈克尔·亚当斯(Michael Adams)。估计在不久的将来,电脑可能会成为顶级高手,然后它们之间开始相互较量,争夺世界象棋冠军。 大家将从中学到什么呢?它说明了考虑复杂博弈的方法,这些复杂博弈是大家可能会面临的。你应该在你的最大推理范围内,把向前展望、倒后推理的规则和引导你判断中盘局面价值的经验结合起来。成功源于对博弈论科学和具体的博弈艺术的综合,而不是来自它们其中之一。
发布 1月15日
拒绝不公平提议的某个生物学证据来自特里·伯纳姆(Terry Burnham)做的实验。[6]在他的最后通牒博弈版本中,利益总额是 40 美元,受试者都是哈佛大学的男研究生。分割者只有两个选择:给对方 25 美元,自己保留 15 美元;或者给对方 5 美元,自己保留 35 美元。对于那些只提供 5 美元的提议,有 20 个学生接受了提议,6 个学生拒绝了提议,结果自己和分割者都一无所获。现在,来看一句点睛之笔。结果证明,拒绝提议的那 6 个人的睾丸激素比那些接受提议的人高 50%。就睾丸激素与身体状况和攻击性相联系这一点来说,这可能提供了一个基因联系,可以解释演化生物学家罗伯特·特里费斯(Robert Trivers)所谓的“道德攻击性”的演化优势。