06 人們玩的遊戲 Games People Play

許多休閑遊戲(recreational games)都是能力和機會的組合。能力是能提升的,但機會就與運氣有關了。對於這裏討論的所有“遊戲”,你會很容易相信它們是有限多個結果,並且它們都是等可能的。因此在這一章中,除非明確聲明,我們都會使用處理概率的經典方法:計算可能結果的個數,任何事件的概率就是它們發生的結果占總結果數的比例。

我的目標是展示在不確定性存在的情況下,概率能如何幫助一個玩家做出正確的選擇。觀眾對概率的理解也會增加觀賞遊戲的享受和樂趣。

彩票

在英國國家彩票中,最常見的模式是6/49。塗有不同號碼的49個橡膠圓球在塑料桶中被攪拌打散,然後隨機選擇出6個來。賭博者花費1英鎊來選擇6個號碼,如果這個選擇中包含了至少3個中獎號碼,他們就會贏得獎金。但是因為隻有50%的彩票收入會成為獎金,彩票玩家平均收入的值遠低於賭場賭博或者賽馬。

彩票對人們的主要吸引力是巨額的中獎預期,雖然它們很難得到——曾有一張英國彩票開出2200萬英鎊的大獎,美國彩票的獎額已經超過了3億美元。計算可知,用一張彩票中得頭獎獎額的概率,在英國大約是1/14 000 000,在歐洲百萬彩(the Euromillions Game)中小於1/116 000 000,在美國超級百萬(the USA Mega Millions)中大約是1/176 000 000。

為了體現這些概率到底有多麽小,我們單看英國彩票。實際上,一個隨機選出的40歲男子在一年內死亡的概率是1/1000。所以他在一天中死亡的概率是大約1/365 000,在一小時內死亡的概率是1/9 000 000,所以概率低到1/14 000 000表示的就是他在接下來的35分鍾內死亡的概率了!對於美國超級百萬彩票來說,在相同的假設下,這名男子中得頭獎的概率和他在接下來3分鍾內死亡的概率幾乎相等。

盡管有極低的回報和幾乎沒有的賠率,“效用”能夠給出買彩票行為的合理解釋。用1英鎊作為交換,無論如何你都會得到平均50便士,另外50便士你就用來買了夢想未來奢侈生活的權利、做了慈善事業,還有像我一樣確信你在浪費錢的人的潛在的羨慕。這些權利的確算是一些效用。

我們應該假設未來的彩票開獎結果和先前的結果是相互獨立的——一個無生命的橡膠球不會“記住”它是否“應該”被抽中。除了作弊,沒有任何方法能夠改變中獎的概率。但是你的確可以影響你可能獲得的獎額的大小,因為在這些彩票規則中,獎池確定比例的部分會在每個獎勵等級中被相應的中獎者們平分。我們有了一個訓練某種能力的機會。

某些很小或特別的確定的數字(例如生日)會比其他數字更經常被選擇,並且許多彩票玩家將自己的選擇平均分配到自己買的彩票中,可能是誤認為這麽做就進行了“隨機”選擇。結果就是,幾個較大數字,或者相距不遠的一串數字,或者邊緣的數字,比較不經常被選擇。如果你能夠確定其他的玩家做出了什麽類型的選擇,並且做一些不同的選擇,你中獎的概率不會受影響,但是一旦你中獎了,你就會贏得比平均值更多的獎金。

別基於“沒有其他人會想到這個”耍小聰明,例如選擇{1, 2, 3, 4, 5, 6},或者選上次開獎時候的中獎號碼。他們的確會想到。在英國國家彩票首次開獎的時候,大約10 000人選擇了前6個數字。在2009年9月,相鄰兩次保加利亞彩票的中獎號碼完全相同:第一次沒人選那個號碼,但第二次就有18個人選了。

已知其他玩家會像他們以前做的那樣繼續頻繁地選擇他們特定的號碼,對於英國的6/49類型的彩票來說,下麵的過程會幫到你。取普通的52張一副的紙牌然後去除3張。將剩下的紙牌與數字1到49一一對應,洗好牌,然後抽取6張紙牌。這是一種完全隨機的抽取6張紙牌的方法。人類不可能不借助外物進行這種隨機選擇,我們需要這類輔助。

然後對於這6張牌,作如下規定:

(a)它們加在一起至少達到177(為了偏向較大數字);

(b)在寫在彩票上的時候,它們分成了2、3、4或者5個集群;

(c)它們中有3、4或者5張的值落在彩票數值的邊緣上;

(d)它們不會在彩票上形成任何明顯的規律。

如果其中任意一個條件不被滿足,就將這6張紙牌放回牌堆,徹底地洗一遍牌,然後重複這個過程。

即使你遵循這個秘訣,你仍然預期會輸錢——因為全部的回報隻占彩票公司收款的50%這個事實是沒法克服的。但是這樣你就不太可能同整個世界分享你的頭獎了。

電視遊戲

“黃金球”(Golden Ball)在2007年首播。最後兩位玩家會麵對11個金球,其中一些對應一些獎額,另一些叫殺手球,不對應任何獎額。玩家從中選取5個球,生成潛在獎金,選中的任何殺手球會將之前選取的球代表的金額減小到原來的1/10。因此在選取了一個50 000英鎊的球之後再取兩個殺手球就會讓獎額變成500英鎊。

所有的球表麵上看起來都是一樣的,所以玩家完全是隨機選擇。從11個物體中選取5個一共有462種方式,所以從中選取到5個最有價值的球的概率就是1/462。在最初的288期節目中,這隻發生過1次。

假設一個球名義上價值1000英鎊:即使不考慮殺手球,選中它的概率也隻有5/11,所以它的真實的價值就是455英鎊。選取任意殺手球都會降低總獎額——在有3個殺手球的情況下,平均值的計算結果是255英鎊。

當選取完5個球,實際的獎金已經知道的情況下,兩個玩家都會做出一個彼此保密的決定,或是將自己的獎金分享給另一個玩家,或是奪取所有的獎金。他們倆會同時公布他們的選擇:如果都選了分享,那麽兩個人分享獎金;如果其中隻有一個選擇了奪取,這名玩家就會獲得所有獎金;如果兩個人都選了奪取,兩個人都不會得到任何獎金。

這是在博弈論中非常著名的一個情景,它被稱為“囚徒困境”(the Prisoner’s Dilemma)。假設你的對手選擇了分享,那麽你選擇奪取就會獲得較多的錢。如果你的對手選擇了奪取,你怎麽選都無所得。所以無論另一個人選擇什麽,你可以說選擇奪取就永遠不會輸。經常發生的情況是,兩個人都選了奪取,那麽唯一的贏家就是不出任何錢的電視節目製作公司。

不同版本的“成交與否”(Deal or No Deal)已經在70多個國家播放。在英國,22個密封的盒子裝有從1便士到250 000英鎊不等的錢。這些盒子被隨機分配給22個玩家,其中一位叫艾米的玩家將會在這一天參與遊戲。她自己的盒子直到遊戲結束都一直是關著的。她首先選擇5個其他的盒子,之後盒子中的金額會被展示出來。莊家這時會出價來交換艾米的盒子中的金額。要是接受的話,她說“成交(Deal)”,則遊戲結束;說“不成交(No Deal)”,則拒絕這個出價。若遊戲持續進行,更多的盒子會被打開,莊家會開出新的出價,等等。

出價時,仍在遊戲中的確切金額是已知的,所以他們的平均值是很容易計算的。在最初的幾輪中,正常情況下莊家的出價會遠遠小於這個均值,但是艾米必須將她自己的效用函數牢記心上:如果她十分想要5000英鎊,而出價是4500英鎊,她就應該理智地接受,即使剩餘盒子的平均金額超過20 000英鎊——如果堅持不成交的話,她可能最後隻得到1便士。

22次中有1次,艾米會被分到最高金額的盒子,但是她很少會贏得那麽大的金額。效用可以給出一個令人信服的解釋。在最後一次決定中,剩下兩個盒子,其中一個是250 000英鎊,另一個也許是2英鎊。如果莊家出價80 000英鎊,雖然這比均值125 001英鎊小很多,也隻有最有勇氣的或者最富有的艾米才會拒絕。千鳥在林,不如一鳥在手……

已知莊家總是會給比剩餘的盒子的平均金額少的出價,長遠地看大數定律保證了“成交”的選手獲得的金額比他們盒子中的少。所以莊家的確會支付出價,但是也會在選手成交之後獲得盒子中的金額,就會長遠地獲利。

“金錢本色(The Color of Money)”被認為是最令人緊張的電視節目,它在2009年隻播出了4期。但是它給出了計算概率過程中應用加法和乘法定理的極好的例子。

1000英鎊、2000英鎊,一直到20 000英鎊被隨機分配到20個不同顏色的盒子中,玩家葆拉要達到一個預先設定好的目標金額,例如64 000英鎊。為了達到這一點,她可以選擇至多10個盒子,一次選一個。如果她(不知情地)選擇了14 000英鎊的盒子,1000英鎊、2000英鎊,一直到14 000英鎊的數字就會以穩定的速度在屏幕上變換,每顯示一個數字她都可以叫停。如果她及時叫停了,就會積累下最後顯示出來的那個數字,但如果她等得太久,就什麽都攢不下。如果在選取了10個盒子之後,她還是沒有達到既定目標,她就什麽都贏不到。她應該采用什麽策略呢?

除了顏色,所有的盒子都是相同的,所以葆拉從每一輪中剩下的盒子中做選擇是完全隨機的。在她的最後一輪中,剩下了11個盒子,她的策略顯而易見:例如,如果她想要9000英鎊來達到目標,而且恰好6個盒子價值9000英鎊或者以上,她就會計劃在9000英鎊出現時叫停,她成功的概率是6/11。但是在早期的幾輪中她應該怎麽辦呢?

或在還有兩輪的時候,剩下的12個盒子裝有(以1000英鎊為單位)1、4、5、6、9、10、12、13、15、17、19、20,而她需要額外的15 000英鎊。當她看到7000英鎊時叫停是不合理的;如果7000英鎊曾經出現過,她就知道這時候盒子中至少有9000英鎊,所以她就應該在9000英鎊時叫停,顯然這是更好的策略。她也可以將自己的選擇限製在這剩下的12個數字中。相同的論證也同樣適用於早前的幾輪中——她叫停的最佳時機總是在剩下的某一個盒子裏的金額出現的時候。

如果葆拉的確想要在9000英鎊出現的時候叫停,她可以這麽說:“12個盒子中有8個至少有這麽多,所以我成功的概率就是8/12。而且如果我這輪的確成功了,在最後一輪中我隻需要6000英鎊,這時候11個盒子中有8個是我想要的。乘法定理告訴我們這兩件事情同時發生的概率是(8/12) × (8/11) = 64/132。第一輪中有4個盒子的金額少於9000英鎊,所以第一輪我什麽都得不到的概率是4/12;這時我在最後一輪中就需要15 000英鎊了,這個概率是4/11。再一次根據乘法定理,這種情況的概率是(4/12) × (4/11) = 16/132。這兩個勝利是互斥的,所以加法定理告訴我們勝利的總概率是80/132。”

她也可以對她其他的選擇策略進行相似的分析,例如在第一輪中期待6000英鎊或是12 000英鎊。我請你來做這些計算——附錄中描述了她的最佳選擇。

在這個電視節目的籌劃階段,有人出過一個主意,請一位專業數學家來提供及時的策略建議。葆拉可能會講她會在8000英鎊的時候叫停,這名專家也許會說:“這個選擇不錯。如果你這麽做了,你贏錢的概率就是75%。但是如果你計劃在11 000英鎊的時候叫停,你的成功概率就會是80%。”

你可以想到會發生什麽!專家說得都是對的,但如果葆拉更改了策略,卻最終失敗了,同時的確她最初的直覺會奏效。就一定會有一些小報叫嚷:“數學研究員奪走了軍事英雄遺孀的64 000英鎊。”

在我們調查過電視遊戲節目中的數學之後,得知他們從未引入過數學角度建議員,我們都鬆了一口氣!

紙牌遊戲

大數定律意味著我們會在長時間的遊戲中公平地得到好牌或者壞牌,所以最終遊戲結果展現的是能力水平。我們來看3種流行的紙牌遊戲。

在“二十一點”中,莊家必須遵循關於何時發牌的固定規則,玩家想做什麽就做什麽。直到愛德華·索普(Edward Thorp)開始贏得數額巨大的賭金之前,賭場運營者們都相信沒有任何其他係統能夠擊敗他們內在的優勢。他們的邏輯中存在一個致命的瑕疵:雖然他們可以期望在牌堆中有6或者8副牌的時候贏得獎金的1%~2%,但是幾局過後局麵可能會轉向對玩家有利。賭場忽略了使用剩下的牌的條件概率,而隻考慮到了由完整的牌堆計算得到的概率。

索普開發出了一個追蹤牌堆中剩餘牌的方法。當數值較大的牌占比較高的時候,可能規則會變成強迫莊家抽牌,最終導致其點數超過21點而爆牌輸掉。在相同的情況下,玩家卻可以選擇不抽牌。隻要牌堆中數值較大的牌的比例較低或者適中,索普就會下盡可能小的賭注,而當牌堆組成對他更有利時,他會下更大的注。簡單,但是高效。

當牌堆的組成的確對玩家有利的時候,他應該下多少注呢?約翰·凱利(John Kelly)在索普分析研究的幾年前給出了精確的答案:下注的資金應該與他的優勢大小一樣。這個策略會讓他資金增長的速率最大。

例如,假設他有1000英鎊而且遊戲對他有一點點有利——他獲勝的概率是51%,失敗的概率是49%。他的優勢就是2%,所以他下注的比例應該是總資金的2%,即下注20英鎊。下一次,他就會有980英鎊或者1020英鎊,如果他的優勢保持在2%,按照出現的不同結果,他應該下注19.60英鎊或者20.40英鎊。如果他過於貪婪——在凱利指出比例僅2%時下注總資金的10%,盡管他有一定的優勢,他最終還是會破產。他的資金是有限的,下的賭注過高以至於不能承受不可避免的失敗的趨勢。

賭場會采取措施來識別和禁止熟練的數牌者,從來沒有人因理解概率的出色能力而獲利。

我們注意到,在考察法庭上的證據會如何改變我們相信有罪或無罪的程度時,正確的方法是采用貝葉斯公式。在例如惠斯特橋牌的紙牌遊戲中,使用這個規則會提升你做出正確決定的概率。簡便起見,我使用法律相關的詞匯,用“有罪”來表示一個特定的對手同時持有一組特定的牌,比如說紅桃Q和K,同時用“無罪”表示她至多持有這些牌中的一張。

使用計數的方法,我們可以找到她持有全部兩張牌的情況占全部情況的比例,這樣就會給出對於“有罪”概率的最初評估。按照標準的習慣,最好將這個概率轉化成它等效的賠率。最開始的計算完成後,我們可以說我們得到了(有罪的)先驗賠率(Prior odds)。

當紙牌遊戲進行下去,相關的證據就會浮現出來——但她或許是在耍花招。為了考察這些證據是如何影響“有罪”的賠率的,我們來計算一個叫作似然比(Likelihood Ratio)的量。首先,假定“有罪”(她同時持有K和Q),評估這些證據出現的概率;然後,假定“無罪”(她至多隻有其中一張),評估這些證據出現的概率。似然比就是第一個值和第二個值的比值。

我們現在就可以推斷出後驗賠率(Posterior odds),也就是說在考慮到證據的情況下“有罪”的概率,使用貝葉斯公式,也就是:

後驗賠率=先驗賠率×似然比

這個定律的形式是清晰直白的:似然比越大(也就是說,你的對手的確是有罪的時候,證據越容易出現),有罪的賠率就越大——但是這個公式精確地告訴你相關證據如何影響有罪的概率。

要看這個理論是如何運行的,來思考一個現實的情況:我們的對手要麽是同時持有K和Q(有罪),或者她隻持有K(無罪);先驗概率告訴我們這些選擇差不多是同等可能的。如果她是有罪的你最好就出A牌;如果她是無罪的,你就應該出一些其他的牌。證據這時出現了,她出了K。

如果沒有證據,你就隻能憑空猜測,而且你也就有一半的概率會贏。如果她是無罪的(她隻持有K),那麽證據(她出K)出現的概率就是100%;但是如果她是有罪的(她同時持有K和Q),她可能也就會出Q而不是你看到的K,所以證據出現的概率就是50%。這兩個數字比值是1/2,所以貝葉斯公式告訴你後驗概率就是1/2。也就是說,她無罪(隻有K)的可能性是有罪的2倍。所以現在出A就有2/3的概率獲勝。

在正確使用概率的情況下,你應該希望能做得更好,如果你能夠以2/3的概率獲勝,就別以1/2的概率。你不能保證每局都贏,但是這樣做你可以提升獲勝的概率。

橋牌玩家把這種情況稱為“限製選擇原則(the Principle of Restricted Choice)”——如果對手隻有一張K她就必須打出,如果同時有K和Q,那她可以做選擇。她的確打出了K的這個事實,讓概率向她不得不這麽偏移了。

如今,最流行的撲克的形式是德州撲克[1](Texas Hold Em)。每個玩家發2張牌並且設法使自己手裏麵的牌被最有效地打出,5張公共牌隨後會被陸續發放。公共牌發放之後,為了最有可能擊敗其餘兩組牌,哪一組牌是最好的?

手牌A:兩張梅花2,黑桃2;

手牌B:黑桃A,方片K;

手牌C:紅桃J和10。

這當然是一個陷阱問題:在仔細計算之後,手牌A會以52%的概率擊敗手牌B,手牌B以59%的概率擊敗手牌C,手牌C以約53%的概率擊敗手牌A。所以你就會選擇A而不是B,選擇B而不是C,但是你同時也會優先選擇C而不是A!如果你的對手從這3組牌中選取任何一組,隨後你在剩下的牌組中隨機選擇1組,你都有超過50%的概率獲勝。

撲克遊戲需要的遠遠不止概率技巧。你必須對對手有可能持有的牌,以及你什麽時候應該虛張聲勢做出評估。但是有些時候概率十分有用。假設賭注總額是50個籌碼,還有1張公共牌等待發放。這時你發現,如果最後一張牌是黑桃,你就能打出同花順,這樣你一定會贏;如果它不是黑桃,你的一個對手就會贏。你應該在遊戲中押下更多的籌碼嗎?

忽略掉你已經在賭注總額中放了多少籌碼。重要的是未來的情況。你能看到6張牌的牌麵——2張在你手裏,4張在桌上的公共牌中。在46張未知的牌中,9張黑桃會讓你贏得勝利,其餘的會導致失敗。在賭注總額已經是50個籌碼的情況下,再多付10個籌碼來看最終分發的紙牌是值得的嗎?再付20個呢?

通過計算得到你一定要多押的x個籌碼帶來的平均收益(或者損失),你可以得到一個閾值x。它將會從長遠角度帶來收益。附錄中給出了這個問題的答案。

[1] 簡稱德撲,最流行的撲克衍生遊戲之一。