Post #17299

@TinySnowDeprecatedCases

TinyReadiviearning

Views49帖子阅读量

发布1月15日2026/01/15 07:37

Post content

帖子内容

一段小小的历史对于这个涵盖了经济、政治和社会诸多活动的囚徒困境博弈，理念家当时是如何构造和命名的呢？这要追溯到博弈论学科早期的历史。作为博弈论先驱之一的哈罗德·库恩（Harold Kuhn）在 1994 年诺贝尔奖颁奖典礼的专题讨论会上，讲述了下面的故事。那是 1950 年春天，埃尔·塔克（Al Tucker）在斯坦福大学学术休假，由于办公室紧缺，他住进了心理学系。有一天，一位心理学家敲开了他的房门，问他正在做什么。塔克回答：“我正在研究博弈论。”心理学家就问他能否就他的研究举办一次研讨会。为了那次研讨会，塔克发明了“囚徒困境”作为博弈论、纳什均衡以及与之伴随而来的非社会意愿均衡的例子。作为一个真正富有创意的例子，囚徒困境博弈激发了许多学术论文乃至几本巨著。其他人的说法则略有不同。据他们所说，囚徒困境的数学架构早在塔克之前就形成了，这可以归功于两位数学家，即就职于兰德公司（美国冷战时期的智囊团）的梅里尔·弗勒德（Merrill Flood）和梅尔文·德雷希尔（Melvin Dresher）。塔克的才华在于，他发明了这个故事来阐释数学原理。之所以称它为一种才华，是因为它的展示方法可以形成或者打破一种思想；一种令人难忘的展示方法能够传播开来，并被大多数思想家更好更快地吸收，而一种乏味枯燥的展示方法可能会被人忽略、遗忘。 ∷一个直观的展示我们用一个商业实例，来提出表示和求解该博弈的方法。彩虹之巅（Rainbow’sEnd）和比比里恩（B.B.Lean）是两家互为竞争对手销售服装的邮购公司。每年秋天，它们都要打印出其冬季产品目录单，并邮寄出去，且每家公司都必须遵守其产品目录上印刷的价格。由于产品目录的准备时间比邮购窗口开放的时间长得多，因此，两家公司必须在不知道对方价格的情况下，同时做出定价决策。它们很清楚，产品目录是给一些共同的潜在顾客看的，而这些顾客很聪明，他们不断追求低廉的价格。两家公司的产品目录上通常都重点突出一件几乎完全相同的商品，如高档格子衬衫。对每家公司而言，该衬衫的单位成本为 20 美元。[1]它们估计，如果它们都对这种商品定价 80 美元，那么，每家公司将销售出 1200 件衬衫，这样，每家公司都将得到（80–20）×1200＝72000 美元的利润。而且，事实证明，这个价格能使它们的共同利益最大：如果两家公司合谋起来，统一定价，那么 80 美元是使它们的联合利润最大化的价格。这两家公司还估计出，如果其中一家公司把价格降低 1 美元，而另一家的价格保持不变，那么降价的公司将得到额外的 100 名顾客，其中 80 名是从另一家公司转移过来的顾客，20 名是新顾客。他们可能决定买下价格较高时未买的衬衫，也可能从当地购物中心的某个商店转移到这家公司。因此，每家公司都有动机制定低于对方公司的价格，以得到更多的顾客；我们给出这个故事的主要目的在于，找出这些动机是如何影响双方的行动的。首先，我们假设每家公司只有两个价格选择：80 美元和 70 美元。[2]如果一家把它的价格降至 70 美元，而另一家公司仍然定价 80 美元，那么，降价者将得到额外的 1000 名顾客，而另一家则失去 800 名顾客。这样，降价者售出 2200 件衬衫，而另一家的销售量降到 400 件；降价者的利润为（70–20）×2200＝110000 美元，而另一家公司的利润为（80–20）×400＝24000 美元。如果两家公司都把价格降至 70 美元，结果会怎么样？如果它们都降价 1 美元，虽然现存的顾客数量不变，但它们各自都得到了 20 名新顾客。这样，当它们都把价格降低 10 美元时，就能各自在原先 1200 件的基础上多销售 200 件。即每家公司的销售量是 1400 件，获得的利润为（70–20）×1400＝70000 美元。我们希望能够直观地展示出利润结果（即公司在博弈中的收益）。但是，我们无法运用第 2 章中的博弈树来做到这一点。因为在这里，两个参与者是同时行动的。参与者在采取行动时，都不知道对方做了什么，也预料不到对方将如何回应。相反，每个人都要考虑对方同时在想什么。这种想对方之所想的做法的一个出发点是，列出双方所有同时选择组合的所有结果。因为每家公司各有两个价格选择：80 美元或 70 美元，所以总共存在四个这样的组合。我们可以用一种由行和列组成的类似电子表格的形式简单地把它们表示出来，通常我们称之为博弈表或者赢利表。彩虹之巅（简称 RE）的选择表示在行中，比比里恩（简称 BB）的选择表示在列中。在这四个单元格中的每个单元格，我们都展示了与每个 RE 行选择和 BB 列选择相对应的两个数字——衬衫的销售利润，单位是千美元。在每个单元格中，左下角的数字属于行参与者，右上角的数字属于列参与者。[3]在博弈论术语中，这些数字称为赢利。[4]同时，在这个例子中，为了清楚地区分哪些赢利属于哪个参与者，我们把这些数字用两种不同的阴影表示出来。在“求解”这个博弈之前，让我们先来观察并强调一下该表格的一个特性。比较一下这四个单元格中的赢利组合。对 RE 而言较好的结果，并不总是意味着对 BB 而言是较坏的结果，反之亦然。具体地说，它们在左上角的单元格中的赢利，都优于它们在右下角单元格中的赢利。这种博弈无须分出胜者和败者；因为它不是零和博弈。我们在第 2 章也曾经指出，查理·布朗投资博弈不是零和博弈，我们在现实生活中遇到的大多数博弈也不是零和博弈。在很多博弈中，比如囚徒困境博弈，主要问题在于如何避免出现两败俱伤的结果，或者如何促成双赢的结果。 ∷困境现在我们来考虑一下 RE 经理的推理。“如果 BB 选择 80 美元，那么我可以通过把价格降至 70 美元，得到 110000 美元的利润，而不是 72000 美元的利润。如果 BB 选择 70 美元，那么，若我也定价 70 美元，我的赢利是 70000 美元；但是，若我定价 80 美元，我只能得到 24000 美元的利润。所以，不论在哪种情况下，选择 70 美元都优于选择 80 美元。不论 BB 如何选择，我的更优选择（实际上是我的最优选择，因为我只有两种选择）都是相同的。我根本不需要考虑他的想法；我只管直接把价格定为 70 美元就好了。” 在一个同时行动博弈中，如果存在这样的特性：对某个参与者而言，无论其他参与者如何选择，他的最佳选择都是一样的，那么这种特性将大大简化参与者的思考过程以及博弈论学家的分析过程。因此，为了简化博弈求解方法，深入探讨并找出这个特性将很有价值。博弈论学者将这种特性命名为优势策略。如果对于某个参与者而言，无论其他参与者选择什么策略或者策略组合，他的同一种策略总是优于所有其他可选策略，我们就说这个参与者拥有优势策略。于是，我们得到了一个简单的同时行动博弈的行为法则。[5] 法则 2：假如你有一个优势策略，请照办。囚徒困境是一个更为特殊的博弈——不仅一个参与者，而且两个（或者所有）参与者都有优势策略。BB 经理的推理与 RE 经理的推理完全类似，你应该自己练习运用这个法则，来巩固上述思想。你将发现，70 美元也是 BB 公司的优势策略。博弈结果是如博弈表右下角单元格中所示的结果。即两家公司都选择了 70 美元的定价，且每家公司均获得 70000 美元的利润。正是优势策略使得囚徒困境成为如此重要的一个博弈。当参与者双方都选择他们的优势策略时，他们得到的结果劣于它们联合起来共同选择另一个策略（劣势策略）时得到的结果。在这个博弈中，它们本来都应该定价为 80 美元，从而得到博弈表左上角的单元格结果，即每家公司获得利润 72000 美元。[6] 只有一方定价 80 美元是不行的；这样的话，这家公司将损失惨重。在某种程度上，它们必须都制定高价，但在每家公司都有动机制定低于对方价格的情况下，这个结果很难达到。每家公司都追求自身的利益，并没有导致对双方都是最好的结果，这与亚当·斯密（Adam Smith）教给我们的传统经济学大相径庭。[7] 由此产生了很多问题。有些问题属于博弈论的更一般的方面。如果只有一个参与者有优势策略会怎样？如果参与者都没有优势策略又会如何？当每个参与者的最佳选择取决于对方的同时选择时，他们是否能看穿彼此的选择，然后解决这个博弈呢？我们将在以后的章节中继续讨论这些问题，那时我们会介绍一个更一般的解决同时行动博弈的概念——约翰·纳什的美丽的均衡。本章我们集中讨论关于囚徒困境博弈本身的问题。一般情况下，每个参与者可选的两个策略分别被记为“合作”和“背叛”（或者有时候称为“欺骗”），我们将沿用这个用法。对每个参与者而言，背叛都是优势策略，而对双方而言，他们均选择背叛的策略组合得到的结果，比双方均选择合作得到的结果更糟。 ∷解决困境的初步思想深知囚徒困境危害的参与者，有强烈的动机达成联合协议，避免陷入这种困境。例如，新英格兰的渔民们可以达成协议，限制捕捞，为将来储备鱼类资源。困难在于，当大家都面临欺骗的诱惑时，例如都想得到超过分配限额的鱼，怎样才使这样的协议比较稳固？关于这个问题，博弈