01 基本原理 Fundamentals
概率的視角
概率是不確定性這一概念的形式化表述。誤打誤撞效應顯然到處都是。從生物學上說,我們都是父母基因隨機混合後的產物。像是石油泄漏、火山噴發、海嘯、地震等災害,或是中彩票這樣令人愉悅的事情,都會隨機且顯著地影響人們的生活。
許多人具有良好的理解概率的直覺,但在你對某件事情有了某種先入為主的觀點,而後來一些具有不完全明顯的相關性的新事實被披露出來的時候,這種理解就會讓你誤入歧途。的確有一些臭名昭著的有關生日、二孩家庭、有三個選擇的電視節目遊戲的“詭計問題”(trick questions),它們似乎被設計成說服你這門學科是有違常識的。其實概率並不違背常識,隻要清除掉或者考慮到這些問題中所有隱藏的假設,合理的答案就會浮出水麵。隻不過概率的確需要清楚的思維過程。
概率的廣泛應用促進了這門學科概念和方法的發展。1944年6月的諾曼底登陸[1]能夠發生,就是因為當時人們認為有利天氣出現的概率相對較高。荷蘭的工程師們在建造保護其國家免受海洋侵襲的堤岸時,必須考慮發生嚴重洪水的概率。一種新型治療方法是否比先前的方法更能幫助一名患者多生存五年?你需要交多少錢來給自己、車輛、房子或財產上保險取決於早期索賠的可能性。你所做的大多數決定:在學校學習什麽、選擇誰作為人生伴侶、在哪裏居住、從事什麽工作都是在有不確定性的情況下進行的。就像皮埃爾-西蒙·拉普拉斯(Pierre-Simon Laplace)在1814年所說的那樣:
……生命中最重要的問題大多都隻是概率問題。
“概率是……”這樣的措辭無論何時出現,都伴隨著某些假設(它們可能在不經意間被忽略了)。如果那些假設是無端的,那麽這些斷言就不會被人相信。我希望在這本書中假設是明確的,無論它們是含蓄還是直白。在我們將目光轉向概率的種種闡述能如何被詮釋之前,先描述一下產生這些闡述的不同思路。古典概率
概率的古典(classical)或者說客觀(objective)視角經常出現在有關概率的遊戲中,例如擲色子和轉輪盤賭。這些過程都會產生一係列可能的結果,我們出於對稱性的考慮,或者因為找不到是其中一個結果而不是另一個更會發生的原因,認為它們都是等可能的。所以我們隻是對結果進行計數,並賦予它們相等的概率,這樣試驗中的任何事件的概率都被認為是引發它的結果占所有結果的比率。
例如,連擲兩次硬幣,四種可能的正反麵結果是:正正、正反、反正、反反。就一枚公正的硬幣來說,每次擲出正或反都是等可能的,所以四個結果中沒有一個比另一個更可能或更不可能,每一個結果的概率都應該是1/4。其中有三個至少一次擲出正麵,所以總體上講正麵出現的概率是3/4。
從一個牌堆中取兩張撲克牌,有1326種結果(請相信我的話)。如果牌堆是被洗好了的,我們就認為這些撲克牌組合都是等可能的。因為其中有64種牌麵由一張A和一張“十牌”(即10、J、Q或K[2])組成,所以我們得出結論,抽到這樣的組合——“二十一點(Blackjack)”——的概率是64/1326,剛好不到5%。
僅從概率的角度而言,這些例子都可以轉化為從裝有完全相同的球的袋子中取出某個球的形式。第一個例子對應的袋子中裝有4個球,3個是紅球;第二個例子對應的袋子中裝有1326個球,其中64個是紅球。的確,每一個對概率的客觀考量的例子本質上都與從袋子或者甕中取出一個球的問題完全相同(這就解釋了學生們教材中這類例子過多的原因)。
我要強調的是,僅僅計算可能結果的數量然後計算多少個結果會引發相應的事件是不夠的。一定要有令人信服的理由說明任何結果都不會比其他的更可能或更不可能發生。否則,基於彩票隻有兩個可能的結果:要麽中獎,要麽不中,你會掉入買彩票中大獎概率是50%的思維陷阱中!
試驗證據——頻率
我們希望在“大富翁”這類家庭遊戲或者例如雙色子賭博的賭場遊戲中,色子的六個麵中擲出每一個都是等可能的。但如果色子由不均勻的材料製成,或者它的長度、寬度和高度三者不相同,那麽假定每種結果是等可能的顯然不明智。在相同條件下進行的一係列投擲過程中,出現任何一個麵的頻率都會波動,但最終將會穩定並趨近於一個特定值。
不可能出現前1000次投擲中20%的結果是6點,而接下來的1000次投擲中這個比例跳到了60%。在這些可重複試驗中,結果可能是不完全一樣的,但是每一個結果都傾向於表現出某個特定的頻率,頻率論者(frequentist)認為這個頻率值就是相應結果的概率。
對於一個不完美的色子,在前1000次投擲中,我們可能會得到170次6點,下1000次中,可能得到181次6點,諸如此類。我們不能從這些試驗中推斷出擲出6點的概率精確值,但是試驗數據指導我們對概率進行估計,我們收集的試驗數據越多,我們估計得就越準確。我們無法知道概率的精確值,但這一事實並不能否認概率的存在。
如果我從洗好的牌堆中抽取一張牌,似乎沒有理由認為某種花色比其他花色更容易被抽到。每種花色都有1/4的客觀概率。而且如果我放回這張牌,重新洗牌,然後再進行100次試驗,我會預期每種花色的出現是同樣的頻繁,就是大約25次。類似地,對於投擲結果都是等可能的普通色子,投擲結果是5點的概率客觀地講是1/6。在600次投擲中,我們預期擲出5點的次數大約為100次。
在重複大量具有等可能性結果的試驗時,任何特定結果相應的頻率都預期會接近於它客觀計算的概率。一個公正的硬幣極少會在100次投擲中給出50次正麵朝上的結果,但是直覺上我們不知道該期望投擲結果多麽接近理想情況才合理。
頻率觀點不僅被應用於同樣條件下的重複性試驗,還有在即將出生的嬰兒是男是女上。不考慮家庭因素,我們來看看從許多國家和文化環境中收集的覆蓋了很長時間跨度的數據。一個持續的模式是:每49個女嬰出生,就有51個男嬰出生。鑒於無法將某個新生兒和其餘的進行區分,一個頻率論者會認為生男孩的概率是51%。
一些規模驚人的試驗已經開展了。1894年,動物學家拉斐爾·韋爾登(Raphael Weldon)發表了將12個色子投擲2600次的結果。他的數據與六個麵等可能出現的觀點相抵觸,因為5和6這兩個數字出現得太頻繁。為了辨認數字,他的色子上每個麵鑽了小孔,刻有5和6的麵分別對著刻有1和2的麵。這些色子的重心就會更接近數字較小的麵,這給出了一個對觀察結果中頻率過大貌似正確的解釋。
大約70年後,一個有大量時間的一絲不苟的人——威拉德·朗克爾(Willard Longcor)在哈佛大學頂尖的統計學家弗雷德裏克·莫斯特勒(Frederick Mosteller)手下效力。在莫斯特勒的指導下,朗克爾收集了超過200個色子,並將它們中的每一個都投擲了超過20 000次,隻記錄結果的奇偶性——得到超過400萬個數據。為了讓每次投擲的環境盡可能相同,他使用了一個鋪了毯子的桌麵,用一個升起來的台階將色子彈下去。那些類似韋爾登使用的廉價色子存在微小但明顯的偏差,以至於出現了太多的偶數,這並不出人意料,也是那些鑽孔的原因。而對於那些使用在拉斯維加斯賭場的高精度色子,上麵表示數字的點不是輕輕畫上去的就是極薄的圓盤貼上去的,就沒有可檢測到的偏差。這些色子各種結果的頻率與在古典視角下等可能結果的概率是一致的。
“二十一點”專家皮特·格裏芬(Peter Griffin)挖苦地說,他在拉斯維加斯玩的1820局牌中,莊家牌堆頂上要麽是十牌,要麽是A的情況出現了770次。而抽到這些對莊家有利的牌的客觀概率是5/13,所以格裏芬懷疑自己是否被欺騙了——隨機概率隻會讓發牌者抽到這種好牌大約700次。
2002年3月,馬拉維有6202名五歲以下的兒童被認為疑似患上了肺炎,其中523名兒童死亡,死亡率為8.4%。已知沒有某些特殊情況讓這段時期不同於以往,一個頻率論者就會推斷:一名患上肺炎的馬拉維兒童的死亡率是8%~9%。從客觀角度來說,關於馬拉維患有肺炎的兒童的死亡率的一般性陳述仍是一種推測,盡管基於這樣確鑿的證據:如果隨機從那些特定的6202名兒童中選擇一名,他的死亡概率是8.4%。
我們將會在後麵更深入地討論頻率數據和客觀概率的關係。
主觀詮釋
布魯諾·德·菲內蒂(Bruno de Finetti)是概率這個領域中最有影響力的思想者之一,他曾寫過:
概率不存在。
作為概率理論方麵的教授,他並不是在將自己研究的學科比作海市蜃樓,而是在駁斥例如“正麵朝上的概率是1/2”這種絕對性的陳述。對於他來說,每一個包含概率的陳述都是觀點的表達,這種表達基於一個人自己的經驗和知識,並且有可能在更多的信息被發現的時候發生變化。
考慮如下五個斷言:
英國板球隊隊長會在下一次國際板球對抗賽猜對硬幣;
奧斯卡金像獎最佳男主角獎獲得者,無論是誰,都會在下一年再次獲獎;
沒有奧斯陸出生的人曾經獲得過奧運會擊劍金牌;
理查三世(Richard III)應該對“塔中王子[3]”的死負責;
如果拉爾夫·納德(Ralph Nader)沒有成為候選人,阿爾·戈爾(Al Gore)本會在2000年被選為美國總統。
對於這其中的每一個推斷,我們都能夠給出自己的可信度(degree of believe)、個人概率
(personal probability)或者主觀概率(subjective probability)。這將會是一些非負數,並且不大於1,就是說它是一個介於0%和100%(含)之間的百分比。
0和1分別代表著兩個極端——不可能和必然。我確信在本世紀內足球世界杯必然會再次由非洲國家舉辦。我認為年齡小於20歲的人不可能獲得諾貝爾物理學獎[4]。
評估主觀概率
上麵的五個斷言各具有不同的性質,關於它們我們有多種不同的佐證。對第一個斷言來說,我們能用正麵和反麵的對稱性加以反駁;對第二個斷言來說,我們可以參考1929年以來的奧斯卡獎曆史記錄,前兩個情形都能在很短時間內確定其真實與否;第三個斷言,無論是真是假,都可以通過盤點奧運會獲獎記錄來確定;第四個或真或假,但我們永遠都無法確定;我們不能讓曆史重來去探明第五個斷言是真是假。
後麵會有一些具體的例子來闡釋主觀概率是如何被評估的。除了這些觀點之外,有至少三個一般性評估主觀概率的不同方法。一個就是做出一個事件發生與否的合理賭注。但是這個方法不總是對每個人有用:有些人原則上抵製賭博,還有一些人不考慮進行可能導致個人損失的行為。而且對於那些願意賭博的人來說,他們的合理賭注也可能會隨著他們站在打賭雙方的哪一邊而變化。
第二個評估某件事可信度的方法就顯得有些刻意了。你會選以下哪一個:猜某一個事件是否發生,或者猜牌堆頂上第一張牌的顏色是紅色還是黑色,猜對了獲得5英鎊。如果你更喜歡後者,就說明你認為此事件的可信度在50%以下。
假設我們繼續比較如下兩種情況的預期,這個事件是否發生,還是猜第一張牌的花色,猜對獲得5英鎊。後者有25%的可能會發生,所以你對這兩種情況的選擇,會反映你認為這個事件的可信度是比25%低,還是在25%到50%之間。
更加精細地比較這些數值會讓我們無法確定更偏好哪一邊。你對這件事的可信度就會接近於那個選牌的客觀概率。你也許會想要使用裝有20或者100個完全一樣的球的罐子來明確地評估這個事件的可信度,而不是計算分數很困難的有52張牌的牌堆。
這裏給出一些具有合適精確度的結果。2010年,網球運動員約翰·伊斯內爾(John Isner)和尼古拉斯·馬胡(Nicolas Mahut)進行了溫布爾登網球錦標賽[5]史上最長的比賽。經過計算,他們在下一年再次成為對手(這的確發生了)的精確概率是2/285,或許應該四舍五入到“略低於1%”。但是《星際迷航》 [6]的一集中,史波克先生(Mr. Spock)告訴柯克(Kirk)他們逃脫的勝算“大約是7824.7比1”,這就很荒謬了。
第三種方法,想一筆金額大小合適的錢,別太少以至於對你來說無關緊要(比如一便士),也別太多以至於擁有了它就會對你的境遇產生巨大的影響(對大多數人來說是100萬,對於比爾·蓋茨就要數額大一些了)。我覺得10英鎊就行——把它叫作單位金額。
現在假設,不知何故某個事件的真實與否會在明天揭曉:並且如果這個事件是真實的你會獲得這個單位金額,如果它是假的就什麽也得不到。但有一種提議是:不用等到明天,今天你會獲得單位金額中確定比例p的一部分,但對你來說今天或者明天得到這筆錢沒有什麽差別。
如果p特別小,你可能就會拒絕這個提議,並且更願意等待;如果p接近於單位1,你可能會接受提議中這個確定比例的金額。但是中間會存在一個p的值讓你在接受這個提議與等待明天結果被揭曉中搖擺不定。這個p就是你認為這個陳述或者事件的可信度。
這裏我提供我自己的對上述五種斷言的主觀答案。我認為沒有合理的原因來解釋為什麽一方比另一方更可能在板球擲硬幣中獲勝,所以給出的第一個數字是50%;瀏覽奧斯卡獎的曆史,不僅是演員獎,其他類別的獎項也隻是零星地在相鄰年份中重複頒發——可能現在參選人更多了,所以我給出3%,或者更低;挪威人不以善於擊劍著稱,但是重劍、花劍、佩劍這些擊劍項目自1896年以來一直出現在所有的夏季奧運會中,一些奧斯陸出生的人也許曾經在某次獲得過金牌,但是我很懷疑——這裏我給出的數字大約是95%;出於對白玫瑰郡[7]的偏愛,而不是客觀證據,對於第四個斷言我給出10%;對於第五個斷言,考慮到每一個州的投票情況和納德獲得的貌似合理的票數,我給出20%。
在這兒停一下,給出你們自己對這五個斷言的意見。在事情不確定的時候,你越善於評估概率,你在生活中做的決定就越可能讓你開心。
賠率
無論我們使用古典概型、頻率詮釋還是可信度,賠率(odds)這個詞語在描述概率的時候經常出現。我們可能會說用公正的色子擲出6的賠率是“1賠5”——在一係列投擲中,每一次我們擲出6,預期都會有五次擲不出。如果一個結果預期比它的反麵更有可能發生,例如排名更高的網球選手獲得比賽的勝利,那這個結果就被叫作有勝算的(odds on)。
概率和賠率之間有確定的對應關係,我們能夠簡單地將其相互轉換。思考一下頻率將會很有幫助。如果概率是20%,或者說1/5,我們預期這個事件在五次機會中發生一次,所以賠率是“1賠4”。如果概率是75%,我們預期它會在四次中發生三次,給出“3賠1”的賠率。如果賠率是“5賠6”,這就表明每五次事件發生,就會有六次事件不發生,所以概率是5/11。
你不必拘泥於數字。在洗好的牌堆頂上的牌是K或者Q的概率是2/13。這可以被表述為“2賠11”,或者同樣精確的“1賠5.5”。喜歡哪個就用哪個。
雖然短語“賠率是1賠1”從來不被使用,但是它很有含義。它表明期望一個事件發生和不發生的機會是五五開,所以它的概率是1/2。然而,我們會板著臉說“賠率是均衡的”。
需要解決的問題
對於如何使用概率,我們沒有重大的分歧,但是我們曾經討論過的三種方法的信徒們可能會從不同的角度分別論述它們的價值。每一個觀點都有其用途。為了理解這門學科的運作方式,無論從哪個思路我們都要探尋適當的觀點。
客觀方法被限製於有限多個結果的情況,所有的這些結果都被判斷為等可能的。但是沒有硬幣或者色子是完美地對稱的,基於什麽我們可以把這些不完美當作無關緊要的元素而不去考慮它們呢?甚至於我們能否確定可能結果的數量呢?例如假設我們有一個裝有兩個球的罐子,這兩個球要麽均為白色,要麽均為黑色,要麽一白一黑。我們是否可以說有3種等可能的情況,或者球在按順序被置入的時候,實際上是白白、白黑、黑白或者黑黑這4種等可能情況?持不同看法的人會對兩個球均為黑球的概率給出不同的答案。或者假設你到達了一條分出三條岔路的路口,兩條路通往新城,第三條路通往海港,做一個“隨機選擇”:你去往海港的概率是1/3(三個出口中的一個)還是1/2(兩個目的地中的一個)?
一個頻率論者希望處理可重複試驗,它在完全相同的情況下能夠不限次數地進行。試驗結果的數量不需要是有限的——想想擲同一枚硬幣直到正麵連續出現3次,或者在一根棍子上取一個隨機的點。但是,無論我們多麽小心,試驗環境都不會保持絕對一致,而且任何極限值都隻能做估計。怎樣描述這種估計中的誤差?宣稱誤差在2%以下的概率是99%,就會引入循環論證——我們需要知道概率是多少,以便定義它!
一個國家入侵另一個國家的概率,或者特定的一次心髒移植成功的概率,這類問題中的情形隻出現一次,而且備選結果不能被減少為有限列表中的等可能的結果。客觀和頻率方法對這些事件都無能為力。這就需要主觀概率了。
主觀主義者必須確保她相信的事情都是自洽的。例如,在英國國家彩票[8]中,一個機器從列表{1, 2, 3,…, 49}中選取6個數字,蘇西也許會傾向於認為約1400萬種選擇均是等可能的。那麽,當問到下麵哪一個更有可能的時候:
(a)抽取的數字中沒有超過44的;
(b)那些抽取到的數字中不包括連續數字。
她或許會在想了一會兒之後選擇二者中的某一個。但是隻要她選擇了這些事件中的任何一個,她都會因為自己的觀點不能自洽而愧疚,因為合理的計算顯示這兩個事件發生的可能性正好是相等的!對於這種不自洽性,主觀概率方法僅僅要求它被解決,但是並未給出確切的解決方式。
因為相比具有有限多種等可能選擇的情形,我們希望考慮更寬泛的情況,在考慮不能不限次數地重複試驗的情況時,我們將主觀概率方法作為默認選項。而且一旦有客觀或者頻率方法的支持,我們將會更加堅信我們的觀點。
解讀
借用“袋子中的球”的視角,一些事件的概率被當作是袋子中紅色球的比例。所以僅當袋子中沒有紅色球的時候,概率的值才是0。在這種情況下,這個事件永遠不會發生。類似地,概率為單位1對應著每一個球都是紅色,所以這種情況下這個事件每次都會發生。隻有0和單位1這些值,才可能確鑿地被試驗證據證明是錯誤的:如果事件發生了,它的概率就不可能是0;當它沒有發生,它的概率就不可能是單位1。而且這從頻率或者主觀方法來說也是對的。假設概率是某些中間值,比如說3/4。
我們首先來處理一個十分細致的問題。無論一個輪盤賭輪被設計得多麽好,從本質上講所有標著數字的格子被轉到的概率精確相同是不可能的。賭場需要的是這些概率足夠接近理想情況,以至於不大可能分辨出任何數字的概率比其他數字更多或者更少。類似的說法也適用於色子、硬幣和紙牌。所以類似於“概率是3/4”的說法,意味著對於所有實際目的來說概率都足夠接近3/4。否則,一個書呆子就會沾沾自喜地告訴你,他知道概率不是3/4,並且不害怕引起爭執。
在可重複試驗的背景下,我們期望從這個斷言中得到什麽信息呢,“得到紅球的概率是3/4”?值得強調的是,我們並不會期望如果進行4次這個試驗(每次取球之後放回),我們會精確地在其中3次抽到紅球。可能的情況是,4次重複試驗根本沒抽到紅球,或者甚至每次都是紅球。但是在一係列漫長的重複之後,我們的確期望紅球出現的頻率接近3/4。
漫長的重複試驗有多長,或者結果需要多麽接近3/4?沒有一個確定的、非黑即白的答案。如果在前40次重複試驗中,我們隻有20次抽到紅球,我會強烈質疑概率是3/4的斷言,但是如果接下來的40次中得到28次紅球的結果,那些質疑就會被削弱。相信或者不相信這個斷言可能會在相當長的一段時間內是臨時立場。假設試驗條件的確一直保持不變,我們使用所有收集到的數據來做決定——試驗次數過少會引起誤導。
稍後我會提供一些準則,並且證明它們。我們以重複100次試驗為例,假設概率是一個中間值,接近一半。計算這個數字與由數據得到的真實頻率的差值:如果這個差值超過0.1,我會對這個斷言產生一些懷疑;如果差值超過0.15,我會產生強烈質疑。在重複試驗1000次而不是100次後,我期望結果有更強的一致性,所以用0.03和0.05代替原來的數字。如果假想的數字接近0或者單位1,比如說10%或者90%,我也會期望更強的一致性。在重複試驗的基礎上,特定的概率更容易讓人信服,而不是某個所謂的值。
對於一個主觀評估,例如明天降雨的概率是60%,情況是怎樣的呢?我們不能數百次地再現今天的天氣情況,然後檢查降雨是有多頻繁。這種“試驗”隻能夠進行一次。但是我們也許可以通過檢查這個數字產生的過程來檢驗這個斷言。天氣預報員使用天氣規律的模型來得到他們的結論,即使他們的電腦屏幕上的數字是31.067%,他們也會聰明地給出大約的數字,你會聽到“降雨的概率是30%”。所以現在你就能收集不同日期的數據,看看經驗證據——在去年給出降水概率為30%的83天中,有多少天真的下雨了?隻要那個比例合理地接近於30%,你對這個方法的信心就會增強,所以接受對“明天”的降雨概率就是個理性回應了。
概率是在不確定情況下做決定的關鍵。如果你真誠地相信特定的一件事或者一個論斷的概率是單位1,那麽你應該按照它無疑會發生一樣來行事;如果你真誠地相信概率是0,那麽就按照它好像絕不會發生一樣來行事。
如果你認為概率是從0到1之間的某個值,那麽就按照你預期它會發生的比例來行事。例如,如果你的判斷是概率為60%,想象你會麵臨這樣的情況100次,在60次中(但是你不知道是哪60次)這個事件會發生,而在40次中不會發生。努力理解,考慮到這種權衡,決定你的行動。如果你猜測概率是80%,說明你預期這個事件會更頻繁地發生,你的行動可能就會不同。
就像大主教約瑟夫·巴特勒(Bishop Joseph Butler)1736年在他的《宗教的類比》(Analogy of Religion)中寫的那樣:“對於我們來說,概率正是生活的準則。”
[1] 諾曼底登陸(The D-Day Invasion of Normandy)是第二次世界大戰時西方盟軍在歐洲西線戰場發起的一場大規模攻勢,為“霸王行動”的一部分。
[2] 這四種牌麵都算作10點,原文為“ten-card”。
[3] 塔中王子(the Princes in the Tower),指英格蘭國王愛德華四世(Edward IV)的兩個兒子:愛德華五世(Edward V)和約克公爵(Duke of York)。他們被理查三世關進倫敦塔之後失蹤。
[4] 原文為:“I think it is impossible for someone under twenty years of age to win a Nobel Prize.”本書成書於2014年馬拉拉·優素福·紮伊獲得諾貝爾和平獎之前,經與原書作者John Haigh溝通,此處添加“諾貝爾物理學獎”的限定。
[5] 溫布爾登網球錦標賽(The Championships, Wimbledon),網球運動中曆史最長和最具聲望的公開賽之一。
[6] 《星際迷航》(Star Trek),美國係列科幻娛樂影視劇。
[7] 指約克郡,白玫瑰為其與約克王朝的共同象征。理查三世為約克王朝最後一任國王。
[8] 英國國家特許經營的彩票,開始於1994年。