無名氏定理

英語為 folk theorems ，中文又譯為大眾定理。

單憑理性計算，有限次重複博奕，是解決個體理性與集體理性之間矛盾的方法。只要博弈人具有足夠的耐心(貼現因子足夠大)，那麼在滿足博弈人個人理性約束的前提下，博弈人之間就總有多種可能達成合作均衡。

「無名氏定理」之得名，是由於重複博弈促進合作的思想，早就有很多人提出，以致無法追溯到其原創者，於是以「無名氏」名之。數學中，「無名氏定理」一詞通常表示人們普遍同意，且已經經過討論卻未曾發表的定理。為了讓名字更直白一些，Roger Myerson 推薦把這類定理叫做「一般可行性定理」(英語：general feasibility theorem)。

一次性博弈與重複博弈

一次性博奕

兩個共謀犯罪的人被關入監獄，被隔離審訊：

如果兩個人都不揭發對方，則由於證據不足，每個人都坐牢一年；
若一人揭發，而另一人沉默，則揭發者因為立功而立即獲釋，沉默者因不合作而入獄五年；
若互相揭發，則因證據確實，二者都判刑兩年。

對於任何一個囚徒來說，無論對方採取什麼策略，自己都應該背叛。因為

如果對方選擇合作，那麼自己合作的話就要服刑1年，自己背叛的話，就可以無罪釋放；
如果對方背叛，那麼自己合作的話就要服刑5年，自己背叛的話就只服刑2年。

因此任何囚徒為了自身利益，不管對方採取什麼策略，自己都應該選擇背叛。但是，如果兩者都背叛的話，就都要服刑2年，這不是最優結果。

多次博奕的結論

博弈論專家阿克塞爾羅德邀請全世界的學術同行來設計計算機策略，並在一個重複囚徒困境競賽中互相競爭。參賽的程序的差異廣泛地存在於這些方面：算法的複雜性、最初的對抗、寬恕的能力等等。

阿克塞爾羅德發現，當這些對抗被每個選擇不同策略的參與者一再重複了很長時間之後，從利己的角度來判斷，最終「貪婪」策略趨向於減少，而比較「利他」策略更多地被採用。他用這個博弈來說明，通過自然選擇，一種利他行為的機制可能從最初純粹的自私機制進化而來。

最佳確定性策略被認為是「以牙還牙」，這是阿納托爾·拉波波特(Anatol Rapoport)開發並運用到錦標賽中的方法。它是所有參賽程序中最簡單的，只包含了四行BASIC語言，並且贏得了比賽。

「以牙還牙」策略是:第一次與對方合作，從第二次開始，每一次都用對方前一次對待自己的方式來對待它，也就是：如果前一次對方背叛自己，那麼這一次自己就背叛對方；如果前一次對方與自己合作，那麼這次自己就與對方合作。

更好些的策略是「寬恕地以牙還牙」。當你的對手背叛，在下一回合中你無論如何要以小機率(大約是1%~5%)時而合作一下。這是考慮到偶爾要從循環背叛的受騙中復原。當錯誤傳達被引入博弈時，「寬恕地以牙還牙」是最佳的。這意味著有時你的動作被錯誤地傳達給你的對手：你合作但是你的對手聽說你背叛了。

這個令人驚訝的結果啟發我們，也許最成功的為人處世之道就是：用對方對待你的方式來對待他，另外再加上一點兒寬容。

重複博奕詳解

基本報償表如下：

	乙合作	乙欺騙
甲合作	甲得2分，乙得2分	甲得0分，乙得6分
甲欺騙	甲得6分，乙得0分	甲得0分，乙得0分

用 H 代表合作，用 D(deceive) 代表欺騙。

甲的策略是俠義(一報還一報)：

一開始先合作
你上次合作我就合作，你上次欺騙我就欺驗

乙的策略是流氓：

一開始先欺騙
對方上次合作我就欺騙
對方上次欺騙我就合作
對方連續兩次欺騙我就欺騙

各個回合雙方的行為如下：

		循環 ┌─┐ ↓　↓			循環 ┌─┐ ↓　↓			循環 ┌─┐ ↓　↓
行為	甲	H	D	D	H	D	D	H	D	D
行為	乙	D	D	H	D	D	H	D	D	H
報償	甲	0	2	6	0	2	6	0	2	6
報償	乙	6	2	0	6	2	0	6	2	0

第一回合，甲仁厚玩合作H，乙宰客玩欺騙D
第二回合，甲報復玩欺騙D，乙仍然宰客玩欺騙D
第三回合，甲仍報復玩欺騙D，乙發現甲並非傻客，于是玩合作H
第四回合，甲原諒乙，玩合作H;乙卻因甲上次不合作，回頭玩欺騙D宰客

…

請註意，此序列呈現一個有趣的規律：就是每三個一組，不斷迴圈重復。於是我們很容易算出，博弈兩方平均每個回合的報償有多少：只要取相繼三個回合，作個簡單平均就夠了。甲得到(0+2+6)/3=2.67，乙得到(6+2+0)/3=2.67。顯然，兩者平分秋色，不相上下，誰也不比誰差，誰也不比誰強。

無名氏定理

目次

一次性博弈與重複博弈

一次性博奕

多次博奕的結論

重複博奕詳解

導覽選單

無名氏定理

一次性博弈與重複博弈

一次性博奕

多次博奕的結論

重複博奕詳解

導覽選單

搜尋