博弈中合作的過程和規律

羅伯特·阿克塞爾羅德在靜態群體中研究博弈論,最終得到的最優策略是“一報還一報”策略。那麽作為獲得最高分的策略,“一報還一報”策略在動態群體中是否也是最優的呢?假設博弈的參與者們是一個動態進化的群體,那麽其中是否會產生“一報還一報”的合作者?他們是否能發展和生存下去呢?一個生物群體是傾向於進化成相互合作的群體,還是傾向於進化成不合作的群體呢?假如所有的成員在最初都是不合作的,那麽他們是否會在生存發展的道路上進化成相互合作的呢?羅伯特·阿克塞爾羅德提出了這些具有深度的問題,並運用生態學原理進行了他的第三次實驗。

羅伯特·阿克塞爾羅德首先假設參與者組成的群體是動態進化的群體,他們會一代接著一代發展進化下去。接著,他又製定了進化的規則:第一,所有參與者在進化的過程中都會有“試錯行為”。參與者在一個陌生環境中不知道該怎麽做,他隻能不斷進行嚐試,若某種嚐試後的結果是好的,他就會照著這個嚐試的方法繼續做下去。第二,參與者之間會有遺傳現象。如果一個人本身是愛合作的,那麽他的後代就會擁有更多的合作基因。第三,每一個參與者都具備學習性。對參與者來說,對局過程也是一個相互學習的過程,比如“一報還一報”策略優秀,參與者就會學習這種策略。

在第三次實驗中,羅伯特·阿克塞爾羅德規定,參與者在第一輪得分越高,其在第二輪中所占比例就越高,之後每一輪以此類推。這樣一來,群體的結構就會隨著進化而改變,通過最終的結果能夠分析出群體進化的方向。最優的“一報還一報”策略最初隻占群體總份額的1/63,進化1000代後,其份額占到了總體的24%。不過,也有一些程序在後代中所占份額是逐漸下降,甚至完全消失的。前15名程序中唯一“不善良”的程序,其策略是先合作,若對手一直選擇合作,它就突然嚐試一次不合作,當對手立刻報複它時,它又立刻與其合作,若對手繼續合作,它又會突然背叛。這個“不善良”程序憑借它最開始的分數優勢在接下來的進化中有著一定的發展,但等到一些程序開始消失時,它在群體中所占的比例便開始下降了。通過對這樣的合作係數的測量,可以得出結論——群體中的合作是逐漸擴大化的,或者說,群體是向著越來越合作進化的。

羅伯特·阿克塞爾羅德的進化實驗說明了這樣的道理:優秀的策略總是建立在別人成功的基礎之上的。雖然“一報還一報”策略在兩人博弈中無法獲得超越對手的分數,利用這個策略最多和對方打個平手,但是對於團體來說,它所得到的分數卻是最高的。“一報還一報”策略能夠使參與者穩定地生存下去,這是因為它總能讓對手獲得高分。而前15名中那個“不善良”程序總是讓自己得到高分,使對方得低分,它總是把自己的利益建立在別人的損失之上,即使它能在一段時間內繼續生存,但當那些失敗者被淘汰之後,這個投機取巧、愛占別人便宜的成功者也會被淘汰。

如果把堅持“一報還一報”策略的參與者放入一個極端自私自利的群體中,他是否能生存下去呢?如果得分矩陣是一定的,未來的折現係數也是一定的,那麽由此可以計算出隻要該群體中有至少5%的成員堅持使用“一報還一報”的策略,那麽這些“善良的”合作者就能一直生存發展下去。更為有趣的是,隻要這些合作者所得分數高於群體平均分,他們在群體中就會逐漸壯大,直到取代整個群體。從反向來看,即使不合作者在一個群體中占有較大比例,他們也不會在未來的進化中一直增長下去。這說明社會群體是向著合作方向進化的,且這個進化的大方向是不可逆轉的,隨著群體的發展,他們的合作性會越來越大。毫無疑問,這是一個十分鼓舞人心的結論,羅伯特·阿克塞爾羅德用這個結論成功地解決了與“囚徒困境”相同的難題。

羅伯特·阿克塞爾羅德的研究揭示了合作的必要條件:第一個條件是博弈要持續進行下去,參與者在一次或幾次的博弈中是找不到合作動機的;第二個條件是決策者要對對手的行為做出“回報”,這個“回報”可以是好的,也可以是壞的,若一個人永遠選擇合作,那麽是不會有太多人選擇與他合作的。

合作性的提高第一是要建立在持久的關係上,愛情很美好,但戀人之間的合作也需要建立在婚姻契約上才能長久。第二是每一個想提高合作性的人都要提高識別別人行動的能力,如果你連對方是否合作都搞不清楚,你便沒法對他的行為做出回報。第三是要說到做到,信譽第一,若比賽的某一回合別人對你采取不合作策略,你承諾在下一輪比賽中也不與他合作,就一定要做到,當別人知道你是個不好惹的人,就不敢不與你合作。第四是避免一次性對局,能多次完成的對局要盡量分步完成。這樣做的好處在於可以使對弈雙方長久地維持關係,如此才有合作的可能,比如在貿易談判的過程中盡量多步驟進行,這樣可以一步步敦促別人與你合作。第五是對於別人的成功不要嫉妒,對於別人的失敗不要落井下石。第六是不要主動背叛別人,避免成為罪魁禍首,成為眾矢之的。第七是不僅要對合作予以回報,也要對背叛進行“回報”。第八是不要貪小便宜,耍小聰明占別人便宜的人不會有人與他合作。

通過對博弈論中合作問題的研究,羅伯特·阿克塞爾羅德發現了兩個規律,第一個規律是合作不僅能發生在友人之間,也能發生在敵人之間。在博弈中,友誼不能保證持續的合作,因為它不能作為合作的必要條件。而如果敵人之間能在持續的關係中滿足相互回報的條件,他們也能進行合作。舉例來說,在第一次世界大戰中,德軍和英軍相互交戰時遇到了連續的陰雨天氣,結果在三個月的交戰中,雙方達成了一種默契——不攻擊對方的糧草,直到大反攻時才決一死戰。所以,友誼不是合作的前提,敵對不代表不會合作。第二個規律是不能把預見性看作合作的前提,低等動物之間可以進行合作,甚至低等植物之間也能進行合作,而這些生物之間並沒有預見性。然而,人類是有預見性的動物,若在了解合作規律的情況下,人類的這種預見性可以加快合作的進程。所以,這個時候預見性和學習都是有用的。

如果博弈中出現隨機幹擾,比如參與者因為相互誤會而相互背叛時,背叛者采取“悔過的一報還一報”,被背叛者采用“修正的一報還一報”能使群體利益最大化。所謂“悔過的一報還一報”,就是指參與者對對方的背叛行為有一定概率不予以報複。所謂“修正的一報還一報”,指的是參與者有一定概率主動停止背叛別人。群體成員隨機應變的能力越強,這兩種策略的效果越好。

阿克塞爾羅德在研究如何突破囚徒困境時,引入了合作概念,他不僅繼承了傳統的數學化方法來實行這一研究,還與時俱進地借助計算機化的研究方法將這項研究提高到了一個全新的境界。就如何突破囚徒困境,他給出的證明是令人信服的,至少很少有博弈專家能雄辯過他。他用計算機模擬整個博弈過程,為我們得出了一些驚人的結論,他讓我們明白了,總得分最高並不意味著在每一次博弈中都要拿到最高分。

從社會學的角度來看,阿克塞爾羅德得出的最優的“一報還一報”策略是一種“互惠式利他”。參與者實行這一策略的動機在於個人私利,不過最終的結果卻是博弈的雙方都能獲利。這種策略幾乎覆蓋了人類的整個社會生活。人們常常通過送禮和回報的方式來進行交流與合作,這似乎早已成為一種生活秩序,即使相互隔絕、無法用語言交流的人群也很容易理解這種秩序。例如,哥倫布在發現美洲大陸後,最初與那裏的印第安人交往的方式就是互贈禮物。無償捐款看似是一種純粹的利他行為,但這種行為也可能間接地得到回報,比如它能為捐款者贏得社會聲譽等。這些有趣的行為蘊含了生活的哲理,它們能幫助我們理解社會生活,具有非凡的意義。

增加“囚徒困境”的參與者,將它擴展成多人博弈,就能引申出一個更廣泛的話題,即“社會資源悖論”。地球上的資源是有限的,人類所能分配使用的資源也是有限的。人們都希望從有限的資源中多分一些,這就導致了利益紛爭,個人利益與群體利益的衝突早已屢見不鮮。利用“社會資源悖論”可以解釋許多現實問題,比如資源危機、交通堵塞、人口問題等。解決這些問題的方法在於建立規則,控製每個人的行為。

中國傳統道德文化中有許多思想與阿克塞爾羅德的“一報還一報”策略相對應,比如“投桃報李”“人不犯我,我不犯人”都是該策略的典型體現。由於現實社會生活中充滿了隨機性,所以這些策略都不能成為最優策略,這正是“一報還一報”在多變環境中的缺陷所在。聖賢孔子曾提出人與人之間應該“以德報德,以直報怨”的觀點,這是一種“修正的一報還一報”策略,其先進程度跨越了幾千年。“直”的意思是公正,“以直報怨”就是用公正來回報背叛,其所修正的是懲罰背叛者的程度,依據公正的原則,本來要罰背叛者10分,現在隻需罰其5分。這樣做可以結束世代循環報複的魔咒,讓文明得以形成。

不過,阿克塞爾羅德的研究是建立在相對理想的假設基礎之上的,這使得相關的研究難免會與社會脫節。在阿克塞爾羅德的研究中,他假定了個體之間的博弈完全不存在差異,而現實生活中這種公平是難以達到的。在現實生活中,參與博弈的人可能存在著實力上的差異,當兩者相互背叛時,可能是強者得3分,弱者得0分,而不是兩者每人得一分。這樣一來,弱者的報複對強者不起作用,因此也就喪失了意義。假如博弈雙方的實力確實旗鼓相當,但一方存在賭徒心理,認定自己比對方實力更強,隻要采取背叛就能占得便宜,那麽在這樣的情形中,阿克塞爾羅德的得分矩陣是不適用的。若這種賭徒心理不斷蔓延,勢必會引發許多零和博弈,這也是現實中經常會有的情況。所以,阿克塞爾羅德的程序還能根據這些特殊情況繼續改進。

有不少人支持阿克塞爾羅德的“一報還一報”結論,但也有人對他的觀念產生了質疑,比如阿克塞爾羅德堅持認為合作不需要信任,也不需要預期就是詬病最多的地方。人們習慣根據對手之前的策略來安排戰術,合作者希望識別與其產生相互作用的個體和曆史,這樣才能根據預期做出反應。在複雜的環境中,信任可能促成合作,或者成為合作的必要條件。但將預期和信任反映於計算機程序是有待研究的。

現實生活中存在的博弈大多數是一次性博弈,這種博弈引發不合作是常有的事情。然而,重複博弈的例子卻很少或很難實現,參與者在遭到背叛後往往沒有機會給予反擊,甚至毫無還手之力,比如核威懾、資本實力懸殊的違約行為等。因此,這時就要引入法律手段,用法律的懲罰來取代“一報還一報”,實現依法治國,以法律促進合作。