09 有趣而棘手的問題 Curiosities and Di lemmas

在這本書的開頭,我曾經說過一些概率問題第一眼看上去有違常識。隨著故事的逐漸呈現,相關的例子已經講述過了。這裏呈現一些直覺會產生誤導的情況,但是足夠小心的話,這些表麵上的矛盾都是可以解釋的。概率這門學科已經完全不含有真實的悖論了。

但是即使概率知識能夠幫助我們做出合理決定,我們也許仍然會發現,就算是考慮某個特定事情的概率也可能會遇到棘手的問題。

帕隆多悖論

格雷厄姆·格林(Graham Greene)的小說《敗者為王》(Loser Takes All)是一本好書,但是它基於一個錯誤的前提:有一些巧妙的基於數學的下注組合方法能讓玩家占有優勢而不是莊家。但數學家們已經證明,在每一場賭局單獨來看都是對莊家有利的時候,無論怎樣組合都不會扭轉局麵對玩家有利。對不起啦,朋友們。

胡安·帕隆多(Juan Parrondo)告訴你,你務必十分明確地闡述如下一般論斷:在所有賭局都對一方有利的時候,無論何種情況我們都不可能找到一種組合讓另一方有優勢。我在這裏描述一種他的思想的變體,其來自迪恩·阿斯圖米安(Dean Astumian),他描述了一種依托於一張畫有5個格子的紙板的簡單遊戲,如圖11。(這不是一個認真的遊戲。它的存在隻是為了闡述上述觀點)

圖11 阿斯圖米安的遊戲紙板

你需要一種生成可能性為1%的隨機事件的方式:也許是一個裝有99個白球和1個黑球的袋子,或者一個會等可能地停在100個小格中的轉盤。遊戲開始時,在標有“起始”的格子中放一個標記物。每一次移動都將標記向左或者向右移動一格,如果在到達贏之前沒到過輸就算勝利。

一共有兩組基本規則,我們叫它們A和B。在規則A中,你總是會從起始移動到左;你一定會從右移動到贏;你會在左使用轉盤,有1%的概率移動到輸,99%的概率移動到起始。在規則B中,你在起始使用轉盤,有99%的概率移動到右,1%的概率移動到左;在右,你總是從右移動到起始;你在左時,情況和規則A中一樣——轉盤給出1%的概率移動到輸,99%的概率移動到起始。

對這個遊戲的分析是很簡單的,在規則A中,沒有規則允許移動到右;你在起始和左之間往複移動,直到隨機概率使你從左移動到輸。在規則B中,你經常在起始和右之間移動,而偶爾移動到左。最終,在其中一次經過左的時候,隨機概率使你移動到了輸。在這兩種遊戲中,移動到贏的概率都是0。

在一個新的遊戲規則C中,你需要一枚公正的硬幣。在每次移動前,擲一次硬幣:如果正麵朝上,使用規則A;如果背麵朝上,使用規則B。

結果是你在規則C中取勝的概率超過了98%!很容易就可以闡明為什麽遊戲對你十分有利:如果你到了左,你非常有可能安全回到起始。從起始,有一半可能你使用規則B,有99%的概率到達右;而在右,你有一半概率使用規則A,必然會取勝。

遵循著規則A和B,你一定會輸:在兩種規則之間交替,你幾乎每次都會贏!悖論中構築一個排除了上述例子的數學命題需要非常嚴謹的語言描述,這也就說明了格林的結論其實搖搖欲墜。

2 + 2 = 4,還是2 + 2 = 6?

假設我們用一個公正的硬幣來實現伯努利試驗,也就是說,每次投擲硬幣結果都是獨立的,且正麵(Heads)反麵(Tails)是等可能的。典型的結果是HHTHTTTHT……要擲出H的平均等待投擲次數是2;但是要擲出HT,或者HH的平均等待投擲次數是多少呢?

直覺上講,答案是4,因為我們預計會等2次投擲來得到第一個標誌H,等2次投擲得到另一個標誌T。我們等待HT的平均投擲次數的確是4,但對於HH不是這樣。為了看到這種樣式,平均投擲次數是6!

有這種不同是因為,要得到HT,認為我們預計得等2次才得到H是正確的,而要再等2次才得到T從而完成這個樣式。2加2等於4。但是對於HH,在我們得到第一個H的時候,下一次投擲有一半的可能性會擲出T,我們就得重新開始了——之前得到H的所有次數就都浪費了。得到正確答案的計算過程在附錄中。

H與T兩者中一個先出現是等可能的;那在HH與HT之間呢?再一次地一個比另一個出現得早是等可能的,因為我們必須等到第一個H出現,之後下一次投擲決定了最終結果。然而,在HH與TH之中,後者首先出現的可能性是前者的3倍!原因很簡單:序列由HH開始的可能性是1/4,但是除非這樣,那麽不可避免地TH首先出現(思考一下這是為什麽)。

彭尼賭局遊戲(Penney-ante)就是基於上述的觀點。你請你的對手選擇8個可能的長度為3的一組結果中的任何一個,比如HHT,或者THT等,它們都可能會是連續3次投擲公正硬幣的結果。之後你選擇一個不同的結果,一個中立的人重複投擲硬幣,選擇了首先出現的結果的那個人獲勝。

盡管表麵上看你大方地允許你的對手先選擇,但是這個遊戲是對你有利的——如果你知道你應該做什麽的話。無論她選擇了什麽,你都可以選擇一個有至少2/3可能性比她的樣式先出現的樣式!獲勝的秘訣在附錄中。

給我點暗示……

1. 三張形狀大小完全相同的雙麵卡片裝入一個袋子中。其中一張兩麵都是藍色,另外一張兩麵都是粉色,最後一張一麵是粉色,另一麵是藍色。隨機選擇一張卡片,可以看到它的一麵是粉色。另一麵更有可能是藍色還是粉色呢?或者說可能性相等?問題交給你吧——下麵有回答。

2. 細致的計算表明,從洗好的牌堆中分發出來的一副13張的橋牌,有26%的可能性包含2張或者更多張A。你給露西發牌。對於問題:“你的手牌中至少有一張A嗎?”她的回答是“是的”。在另一個情形中,你給蒂娜發牌,並問:“你的手牌中有黑桃A嗎?”她的回答也是“是的”。哪一副手牌更有可能包含2張或者更多張A?或者說可能性相等?答案在下麵。

3. 假設1000名男性和1000名女性都有令人滿意的資質,但有480名男性和僅240名女性獲得大學錄取資格。這是不是明確的性別歧視——男性被錄取的概率是女性的2倍?

答案是什麽呢?在粉/藍卡片問題中,看到粉色就明確地排除了兩麵均藍色卡片的情況。所有3張卡片都是完全相同的,隻有兩張剩下了,粉/粉和粉/藍。這些卡片中的一張,背麵是藍色的,而另一張,背麵是粉色的。似乎粉色和藍色是同樣可能的。

這個推理過程是草率的:粉色的可能性是藍色的兩倍,你可以通過重複進行十幾次這個試驗來驗證這件事。更好的理解是,注意到這些卡片中有3個粉色麵,所有這些麵都等可能地被看到。但是隻有一個粉色麵的背麵是藍色——而有兩個粉色麵的背麵是粉色(你可以使用貝葉斯公式,但是那就是殺雞用牛刀了)。

一名貧困的研究生,瓦倫·韋弗(Warren Weaver),同時也是信息論(Information Theory)的創建者之一,就曾經不斷地和其他學生玩這個遊戲並贏錢,教育了要他們了解概率的效用。

在牌組問題中,我們知道兩個情況中手牌裏都有至少一張A,許多人都會認為蒂娜和露西有2張或者更多的A是等可能的——所有的A都是等可能被抽到的,所以為什麽蒂娜承認她有特定的一張黑桃A就會帶來不同呢?請你丟掉這些想法,來做正確的計算。

對於露西來說,在有至少一張A的手牌中,我們可以算出有2張或者更多A的比例——大約37%。對於蒂娜,除了黑桃A,她還有另外12張手牌,從剩餘的51張中隨機選取。手牌中包括另一張A的可能性是56%:蒂娜遠比露西更有可能持有2張或者更多A。

你的懷疑心告訴你第三個問題正確的答案是“否”。假設在英語係,950名女性申請者中的20%,以及50名男性申請者中的10%被錄取了;在商學院,所有的50名女性得到了錄取資格,但是950名男性中隻有一半被錄取。求和得到:240名女性和480名男性被成功錄取,但是,在每一個院係,女性的錄取率都是男性的2倍。有歧視的話也是針對男性的,而不是女性!

確實,在真實世界中,伯克利[1]研究生院的幾千名申請者中,44%的男性被錄取,而隻有35%的女性被錄取。然而,當申請數據被分配給不同的院係的時候,男性和女性的錄取比例就幾乎沒有差距了。但是不同的院係的錄取率的確不同,而那些對兩種性別都隻錄取很小比例的院係,女性申請者最多。

這個反直覺的結果是辛普森悖論(Simpson’s Paradox)的一個例子。它展示了相較於對絕對數字的操作,對比例的操作是很危險的,這種情況到處都會發生。

這一切都不隻是好玩。除非你知道數字的真正含義,不然你沒有正當理由來說你會用數字。

你真的想知道嗎?

我曾經說概率是在不確定性中做決定的關鍵,我也不會收回我說的話。但更加精確地理解概率或者在新的情境中理解概率都會帶來一些令人不舒服的難題。

現在,個人可以對自己整個遺傳密碼進行測序,但是諾貝爾獎獲得者詹姆斯·沃森(James Watson)和哈佛大學心理學家史蒂芬·平克(Steven Pinker)都選擇不去知道他們攜帶的一種被叫作APOE的基因的版本。有一個epsilon4版本的這種基因會讓患上阿爾茨海默病[2]的概率上升4倍,而有兩個這種基因會讓概率升高20倍。(矛盾的是,有這種epsilon4基因也與一個人某些年輕時的益處相關。)另一名諾貝爾獎獲得者,克雷格·文特爾(Craig Venter),知道他的確有一個epsilon4基因。一家研究實驗室有從不向誌願者透露其APOE基因情況的政策,理由是基於現在人類掌握的知識,沒有治療可以減輕其帶來的消極影響。

但是一些商業公司也許會對你的APOE基因的情況(實際上是你的全部基因組)非常感興趣。如果你的基因組成暗示著你早逝的概率非常高,它們也許會願意大幅提高養老金——但是也可能會要求更高的醫療保險費。擁有某個人全部基因信息的公司可能會“提供”定製服務,完全按照客戶的預期壽命量身定製。

約翰和湯姆都是65歲,每個人都會花費15 000英鎊來購買養老金;比如說正常的剩餘預期壽命是15年,但是約翰的基因暗示著長10年的壽命,而湯姆是縮短10年。不考慮基因情況的A公司對兩人每年都提供同樣1000美元的養老金。但是B公司考慮到了基因信息,向湯姆每年提供3000美元的養老金,但隻向約翰每年提供600美元。

回想那條格言:從長遠來看,平均統領一切。兩個人都會接受更高的出價,所以A公司將會給像約翰這樣的人支付25 000美元,每次都會損失10 000美元;同時B公司將會向湯姆和他這個類型的人支付15 000美元,所以收支平衡。A公司將會倒閉。而B公司會生存下來。

如果隻有像B那樣的公司才能生存下來,那麽我們可以預見到那時會有許多不幸的人,他們要麽是根本無法支付醫療或者旅遊保險,要麽因為被提前告知儲蓄不足,導致退休計劃被嚴重擾亂。

律師在詰問中應該隻去問那些他們已經知道答案的問題。在你想要對自己的基因組進行測序的時候,要確保自己對你可能得到的消息有充分的準備。考慮一下人生中的所有階段:在孩子出生時的基因組情況的打印件也許會帶來晴天霹靂;想結婚時,你和與你訂婚的人是否應該去了解你們孩子患有嚴重疾病的可能性?你的老板是否應該有權利因為你患某種疾病的風險較高而拒絕你的晉升?高級公職人員,比如總統或者首相的候選人,是否應該公開他們的基因組信息,以便投票者進一步了解任何基因層麵的不穩定因素?

隨機選擇一名英國女性,其罹患乳腺癌的可能性是12%。但是如果她繼承了特定的被稱為BRCA1或者BRCA2基因的突變,這個概率就會升到60%。一名有3個孩子的母親,在一名姐妹有這種突變的情況下,接受醫學檢測,而如果她接受了檢測而且收到壞消息,她的女兒(如果有女兒的話)應該在什麽年齡被告知她們每個人都有50%的概率繼承了這種突變?

無論你在這些令人不舒服的情形中感受到了什麽,要記得這隻是“概率”而不是“事實”。如果艾瑪有這種突變的概率是10%,而菲奧娜的概率是60%,結果也有可能是艾瑪患有乳腺癌而菲奧娜沒有。如果她們知道自己有這種突變的概率,她們也隻能按照自己的方式來處理這件事情。在此重複一下決策論的核心信條:合理的決定是能最大化結果的平均效用。你永遠不能確定自己采取的行動會帶來最好的結果,但是你已經充分利用了你所擁有的信息。你不能要求更多了。

全書完

[1] 此處應指加利福尼亞大學伯克利分校(University of California, Berkley)。

[2] 阿爾茨海默病(Alzheimer’s disease),俗稱早老性癡呆症,是一種發病進程緩慢、隨時間不斷惡化的神經退行性疾病。