如何找到一個最優策略

博弈理論中存在一些對人的基本假定,比如它假定參與博弈的人必須是理性的,而理性就意味著他在博弈中是從自己的利益出發的,或者說他是自私的。理性的人在博弈過程中會將自身利益最大化作為自己的目標,因此,博弈論的研究是建立在理性人之間的博弈之上的。約翰·福布斯·納什利用他創造的“囚徒困境”博弈故事清楚地說明了“納什平衡”的存在,也即在非合作博弈中存在一個均衡解,這個解可使博弈雙方的利益都獲得保障。

每場博弈中都會涉及三大要素:參與者、策略、得失。在囚徒困境中,兩個囚徒是博弈的參與者,他們選擇的策略都是承認殺人事實,結果兩人都贏得了中間宣判結果。而如果一名囚徒承認殺人事實,另一名囚徒不承認殺人事實,其結果是承認者獲得減刑,否認者獲得死刑。最後兩個理性的囚徒在經過慎重考慮之後,都選擇承認殺人事實,這樣一來他們都獲得了穩妥的保命結果。除了囚徒困境,我們還能在“自私基因”“智豬博弈”等理論中找到這種均衡解。

美國博弈論專家羅伯特·阿克塞爾羅德在研究合作型博弈時首先設定了兩個前提條件,第一個條件是每個參與者都是理性的(自私的);第二個條件是沒有外界因素幹擾參與者的個人決策。這就意味著,在合作博弈中,每個參與者都會為了最大化自身利益而進行個人決策。在這兩個條件下,羅伯特·阿克塞爾羅德研究了以下三個關於合作的問題:一是博弈者為什麽要合作;二是博弈者在什麽時候合作,什麽時候不合作;三是博弈者如何使別人與他合作。

這三個問題的研究意義深遠,它們在社會實踐中的合作問題上多有體現,比如貿易博弈中如何通過合作來使博弈雙方都能獲得穩定收益的問題等。在博弈過程中,若參與雙方都追求自身利益的最大化,就會損害群體利益。

舉例來說,若現在進行一場合作博弈,A、B分別代表博弈雙方,兩者都能自由進行無差別選擇。現在,擺在兩人麵前的選擇有兩個:合作和不合作。我們用Y代表合作,用N代表不合作,並設定以下規則:若A和B都選擇Y,兩人都得3分;若A和B都選擇N,兩人都得1分;若一人選Y,另一人選N,選Y的人得零分,選N的人得5分。

在這個例子中,對這個兩人團體來說,最優的策略是兩人都選Y。這樣一來,每個人都能得到3分,團體得分就是6分。若兩人都選擇N,那麽每人各得1分,團體得分是2分;若一人選Y,另一人選N,則選Y的人得零分,選N的人得5分,團體得分是5分。

該博弈論通過得分矩陣可以清楚地描述個體理性與團體理性之間的矛盾。若個人在博弈中追求利益最大化,就會使群體利益受損,這就是這類博弈所體現的重要內涵。站在A的角度來考慮,可以發現,若B選Y, A在選N的情況下可以獲得最大化利益,即5分;若A在B選擇Y的前提下選擇了Y,他可以得3分;若B選N, A也選擇N,他隻能得1分;若A在B選擇N的前提下選擇了Y,他隻能得零分。A所能獲得的可能得分從最高到最低分別是5分,3分,1分,零分。對A來說,要使自身利益最大化就是得5分;要使團體利益最大化就是得3分。其中的困境在於如何使每個人在選定策略後都能得到穩定的分數,同時還不讓自己離利益最大化太遠。個人得5分雖然可以實現其自身利益最大化,但整個團體的分數隻有5分;若每人得3分,團體得6分,團體利益就能實現最大化,但個人隻能獲得3分,距離他們的最高目標5分還差一些。這就是個人理性和團體理性之間的矛盾。

若這個博弈隻進行一次便結束,那麽它在數學上是沒有最優解的。若博弈可進行多次,且兩個參與者知曉博弈的次數,那麽理性的他們在最後一次博弈中一定會選擇相互背叛,這樣才能實現自身利益最大化。如果是這樣的話,他們在之前的博弈中是否合作都是無關緊要的,即使兩人達成了一次合作,也是沒有必要的。所以,參與者在知道博弈次數的情況下不會進行合作。

但是,如果這類博弈是在多人之間進行的,同時每一個參與者都不知道具體的博弈次數,那麽在這種情況下,參與者就會意識到這個問題,即在持續地選擇合作時,每一個人都能持續且穩定地得到3分。若彼此持續不合作的話,每個人隻能持續得到1分而已。通過這樣的思考,參與者之間的合作動機就非常明顯了。多次博弈的過程中,參與者未來的收益要比現在的收益增加一定的折現率,這個折現率越大,則未來的收益越重要。而這個折現率在多人博弈持續進行的條件下相對較大,所以未來的收益趨於最重要。這個時候,參與者的最優策略就與別人采取的策略產生了聯係。我們假設一個參與者第一次選擇合作策略,之後一旦對方不合作,他便選擇永不合作。與這種參與者進行博弈,一直與他合作下去當然是最有利的。我們再假設有一個參與者無論別人采取何種策略,他都選擇合作,那麽與這種參與者進行博弈,始終不與他合作才能獲得最高的分數。與此同時,我們對於那些總是不合作的人往往會采取不合作的策略。

阿克塞爾羅德根據這些思想製定了一個這樣的實驗:他邀請一群人來參加這個博弈遊戲,得分規則與我們提到的A和B之間的合作博弈一樣,但何時結束這個遊戲,沒有人知道。阿克塞爾羅德要求每一個參與遊戲的人把自己感到得分最高的策略編成計算機程序,然後讓這些程序兩兩博弈循環進行下去,看一看究竟哪種策略的得分最高。

第一輪遊戲總共有15個程序參加,包括阿克塞爾羅德自己製定的一半概率合作一半概率不合作的隨機程序和14個主要考察對象設計的程序。在兩兩循環博弈進行了300次後,阿克塞爾羅德終止了遊戲,最後的結果顯示,加拿大學者羅伯布的“一報還一報”程序獲得了最高得分。“一報還一報”程序的特點在於第一次對局采取合作策略,之後每次對局都以對手上一次的策略作為參考,即對手上一次選擇合作,我這一次就選擇合作,對手上一次選擇不合作,我這一次就選擇不合作。阿克塞爾羅德對得分較高的程序進行了分析,他發現得分排名靠前的程序一般有三個特點:一是具備“善良性”,即從來不主動背叛別人;二是具備“可激怒性”,即對於別人的背叛不能一直許以善意的合作,還要具備一定的報複;三是“寬容性”,即別人背叛了你一次,你不能無休止地進行報複,而要在別人選擇合作的時候與其合作。

阿克塞爾羅德沒有滿足已有的實驗,他又邀請了更多的人重新做了相同的實驗,並在遊戲開始之前,向所有人公布了上一次實驗的研究結果。這次實驗的對弈程序高達63個,包括他的隨機程序和62個研究對象的程序。經過一定數量的對局,這次實驗的結果與上一次沒有區別,最終“一報還一報”程序依然斬獲了得分第一名。這次實驗證明了“一報還一報”策略仍是最優解,同時也證明了排名靠前的程序都具有“善良性”“可激怒性”“寬容性”三個特點。63個程序,前15名中除了第8名程序是“不善良”的外,其餘程序都是“善良的”;而在得分較低的後15名中,除了一個程序具有“善良性”外,其餘都是“不善良”程序。另外,優秀程序具有“可激怒性”和“寬容性”也在實驗中得到了證明。與此同時,阿克塞爾羅德在這次實驗中還有新的發現,即優秀策略還具有“清晰性”,也就是說,優秀的程序通常隻需要在幾次對弈之後就能被清晰地辨識出來,而那些複雜的策略卻並沒有令人滿意的得分。“一報還一報”策略顯然就具備“清晰性”特點,在應用這一策略後,對手很容易發現其中的規律,並明白隻有主動與對方合作才能贏得合作。