博弈的解——混合策略

假設博弈中的每一個局中人在博弈開始前就已經設想了可能發生的一切情形,並做出了相應的應對決策,也就是說局中人事先已經對博弈有了一套完整的計劃,隻要局中人對於每一種可能發生的情況,以及在那個時刻他所掌握的每一條情報信息的判斷與博弈規則提供給局中人的情報形式相一致,這個計劃將明確他會采取什麽樣的選擇。這時,我們把這種計劃稱為一個“策略”。

相信不少人都玩過井字棋遊戲,假設在遊戲中自己先行,隻要自己的方法是正確的,那麽對手將無法擊敗自己。相反地,假設對方采用了正確的方法先行,那麽自己將無法贏得對手。對於這種類型的博弈來說,它們最終的勝負結果都是隨機的。

假設在某個博弈中,參與者輪流將硬幣往桌上放,直到參與博弈的一方放不下硬幣時,就意味著這個參與者在博弈中失敗了。若在這個博弈中,自己作為先行的一方,那麽便會采用完美的策略保證自己最終獲勝。最簡單、常用的策略是先行的一方將硬幣放在圓桌的正中心,由此一來,不論對手將硬幣放在何種位置,先行的一方都能夠將硬幣放在恰好對稱的位置,這能夠保證先行的一方永遠不會輸,而且輸掉博弈的人隻能是對手。

象棋實際上也和上述的博弈一樣簡單,假設參與博弈的兩個人都擁有非常良好的計算能力,那麽博弈的結果無外乎:雙方打成平手、先行者必然獲勝、後行者必然獲勝。雖然我們並不知道最終的博弈結果是哪一種,但是我們通過博弈的逆向推理,博弈論很好地證明了象棋必定具有這種簡單屬性。

假設我們將象棋看成簡單的博弈,那麽猜硬幣則不屬於此類博弈,若是參與猜硬幣的雙方想要保持一致,那麽當其中的一方選擇正麵時,另外一方也需要選擇正麵,但是假設先行者選擇了正麵,同時對手知道了先行者的選擇,對手為了戰勝先行者,便會選擇反麵。這時先行者又會選擇反麵,那麽對手知道後,便會選擇正麵。由此看來,這是一個無限循環。

通過這類博弈,我們能夠清楚地認識到,如果你不想讓對手知道自己的“秘密”,那麽自己也不要知道。或許你可以采用投擲硬幣的方式,並且用正反麵決定自己所要采取的行動,在這種隨機的決定下,即使你的對手十分理性,同時知道了你的政策,最後他能獲勝的幾率也僅僅是一半罷了。

我們經常玩的遊戲“石頭、剪刀、布”,還有“配銅錢”等,都屬於零和二人博弈的問題。但是這些博弈問題中,往往包含參與者自身的經驗和生活常識等影響因素。

比如,有些人玩過的“配銅錢”遊戲,無非是出“正麵”或者“反麵”兩種博弈的策略選擇方式,重中之重是參與博弈的人需要猜測對方的策略,這種方式似乎非常困難,而且不具有規律性。由於這個遊戲的博弈規則十分明確地規定了,當其中的一個參與者做出自己的決策時,另外一名參與者禁止得到對方做出的選擇的任何信息。但是這種說法僅考慮到理論層麵,實際生活中進行類似的遊戲時並非如此。

假設,兩個局中人進行一次“配銅錢”遊戲,其中的一個參與者在此次賽局中不會刻意去揣測對方的意圖,而另外一位局中人是智力中上等的參與者。那麽,這個局中人在博弈中要做的就是,盡量避免讓對方猜到自己的對策。因此,他會在連續的局中毫無規律地出“正麵”或者“反麵”。

實際上,我們需要了解的是參與博弈的人在同一單獨局裏的對局策略,那麽我們便需要針對一局進行研究和討論,而不是討論局中人在一連串的局中的策略。假設我們不用局中人是否出“正麵”或者“反麵”,而是規定出“正麵”的概率為1/2,出“反麵”的概率也是1/2。為了保證博弈的有理性,我們規定博弈的局中人可以在他們選擇行動前,采用隨機的方法,來選擇自己究竟是出“正麵”還是“反麵”,這樣就能夠保證他們的利益不受到損失。這種前提規定的優點是,不論對方選擇出哪一麵,前麵的局中人對博弈賽局的期望值永遠是0。這種方式的特別之處在於,若是其中的一方十分確定對方要出“正麵”或者“反麵”,那麽他對整個賽局的數學期望都將是0。此時,若是對手也選擇了和局中人同樣的做法,那麽結果自然是一樣的。

假設我們提前設定,“配銅錢”博弈中的一個局中人能夠自主選擇他認為的所有可能獲勝的策略進行整合,在這種情況下,能夠保證他自身的利益不受損。由此一來,采用這種決策方式,不論對手做何選擇,他都不會有利益損失。相同地,假設對方也使用這種策略,便能讓前麵博弈對局中的人不論怎樣也贏不了。

“石頭、剪刀、布”中的博弈亦是同樣的道理,因為每一局的玩法都會出現3種可能,與上麵所提到的“配銅錢”遊戲相似,選擇所有可能的“混合”方式,便能獲得最好的博弈策略。

除了“配銅錢”中的博弈外,我們還可以針對生活甚至文學裏的內容研究博弈,就像下麵這個福爾摩斯探案集中的故事:

為了躲避一直在追蹤他的莫裏亞蒂教授,夏洛克·福爾摩斯迫切想要離開倫敦,然後前往多維爾港,再從那裏前往歐洲。然而一切並非他想象中的那樣,當他乘上火車,列車將要出發時,一個他最不想看見的麵孔出現在站台上,他看見莫裏亞蒂教授正在站台上望著他。

在夏洛克·福爾摩斯看來,當他的對手發現自己時,便會有把握用特殊的方式追上他,而這時福爾摩斯若想逃脫對手就會有兩種方法:要麽直接前往多維爾港,要麽隻能在去往多維爾港的中間站坎特伯雷下車。此時,若是福爾摩斯的對手能夠有足夠的智謀,並且預料到這些情況,而且有著與福爾摩斯相同的選擇,那麽兩個人便會選擇在同一個地點下車。假設雙方都不確定對方的行動決策,那麽使用上述方式後,若最終他們的下車地點是同一個地方,答案不言而喻,夏洛克·福爾摩斯定會落入莫裏亞蒂教授手中;相反地,若是夏洛克·福爾摩斯成功到達了多維爾港,那麽他便能夠逃脫莫裏亞蒂教授,成功按照自身的計劃遠走高飛。

此時,我們不禁會疑惑,在一場博弈中究竟何種策略才是最佳選擇呢?尤其是在這個故事中,怎樣決策才能保證夏洛克·福爾摩斯成功逃離莫裏亞蒂教授呢?他們兩人的博弈與“配銅錢”中的博弈有異曲同工之妙,即莫裏亞蒂教授非常希望他在這場博弈中,能夠成為那個成功相配的局中人。

博弈的策略無外乎兩種:第一種是夏洛克·福爾摩斯成功到達了多維爾港,但是莫裏亞蒂教授停留在了坎特伯雷,那麽這就意味著福爾摩斯是此次博弈的贏家;第二種是雖然福爾摩斯在換乘的地方成功逃離了莫裏亞蒂教授,但是最終未到達歐洲,這種情況是此次博弈中的一個和局。