02 概率的運作 The Workings of Probability
除了主觀的、客觀的和頻率的理解方法,還有其他理解概率的視角。例如,一定要堅持將一個概率對應於某一個數字嗎?我們是否可以說一個概率更大,或者一件事情的可信度比另外一件事情更高?我們真的必須提出一組公理——不言而喻的事實——並據此建立一套理論?
許多傑出的作者都認為建立兩個獨立的理解概率的方法是有用的,一個是可信度,另一個是古典概率。兩者應該具有相同的邏輯規律,不自相矛盾,但兩者對於概率是如何生成的和被理解的可以不同。任何理論都應該與古典觀點一致,基於可重複實驗都會給出等可能的結果,所以我們將著眼於這些案例,尋找概率必須遵循的規則。
加法定理
從洗好的牌堆裏麵取一張牌。我們認為抽到所有牌都是等可能的,所以求出任何事件的概率——例如抽到梅花、黑桃或者A——就是計算這些事件占總事件的比例。我們如何求出兩個事件之中的每一個發生的概率呢?
如果兩個事件的所有可能結果中沒有任何相同,我們稱這兩個事件是相互排斥(mutually exclusive)或者不相容(disjoint)的。“抽到黑桃”和“抽到梅花”這兩個事件是不相容的,但是“抽到黑桃”和“抽到A”這兩個事件不是,因為“抽到黑桃A”同時屬於這兩個事件。當兩個事件互斥,這兩個事件中任何一個發生的結果總數就是其分別發生的結果數之和,所以我們有一個簡單的結論:
當兩個事件互斥時,至少一個事件發生的概率是兩個事件各自發生概率的和。
這就是概率的加法定理(the Additional Law)。它顯然適用於所有我們能夠以古典視角觀察的試驗:用袋子中的球作類比,這個定理可以被理解為抽中紅或藍球的結果總數是紅球的總數和藍球的總數之和。而且在任何可重複試驗中——例如擲色子或者旋轉輪盤賭輪——兩個不相交事件的頻率和一定是至少一個事件發生的頻率。所以加法定理從頻率角度看也成立。
一個持主觀視角的人也能接受這個定理。否則,存在兩個互斥事件,稱為A和B,加法定理對它們不成立。這種情況下,主觀主義者會麵臨三個賭局:一個賭事件A發生,一個賭事件B發生,一個賭事件A和B至少一個發生。而對他來說每個賭局都是公平的,他會接受,但他如果參與全部三個賭局,則必定會輸錢。加法定理就禁止了這樣的矛盾。
加法定理可以拓展到包含大量事件的集合中,前提是這些事件中任意兩個都沒有相同的結果——它們是兩兩不相交的(pairwise disjoint)。即使一個事件包含了1 000 000種不同的結果,其發生的概率也僅僅是每種結果單獨的概率的和。但是假設結果的個數不再有限,例如連續擲一枚硬幣直到正麵出現時擲硬幣的次數。
這個試驗可能的結果組成一個無限長的表{1, 2, 3, 4,…},表中的每一個數值都對應著其非零的概率。正麵出現時擲硬幣次數為偶數的概率是多少?在{2, 4, 6, 8,…}中的結果會讓這個事件發生。我們能通過計算其概率和來計算這個事件的概率嗎?
數學上這個加法計算沒有很大困難,但這個操作已經超出了古典概型的範圍,古典概型隻能處理有限多個可能的結果。這種無限長的表中的事件概率的加法定理是不是概率在起作用,人們對此還沒有達成共識。有利於將其包括到概率的範疇的是:我們也許可以得到更多種類事件的概率。不利於將其包括到概率的範疇的是:對這個事件的概率計算不是古典理論的一部分,我們需要在計算中小心會帶來陷阱的步驟。這個問題沒有正確或者錯誤的答案。
我是一個實用主義者,我滿意於加法定理這樣的拓展應用,而且我從沒有對這樣拓展帶來的結果失望過。這種態度是大學中講授這門學科的大多數教材中給出的標準詮釋。但是德·菲內蒂從謹慎的角度建議避免進行這種拓展,有一部分人也這樣認為。
乘法定理
擲一枚普通的硬幣,你會預期猜對正麵或者反麵的次數是總次數的一半。洗牌之後預測牌堆頂的牌是紅色或者黑色,你也會估計猜對的次數是總次數的一半。當你同時猜測擲硬幣的結果和牌堆頂牌的顏色,有多大可能兩個都正確?
假設做這種雙重試驗100次。預期你大約50次猜對擲硬幣的結果,當你猜對之後,預期你繼續在一半的次數中猜對牌的顏色。這意味著你大約有25次兩個都猜對,看起來得到了25%或者1/4作為兩個都猜對的概率。對這樣的試驗來說,兩個都正確的概率就是將兩個事件單獨成立的概率相乘。
10個大小和材質均相同的球被標有數字0到9,它們中的任何一個被抽中都是完全隨機的。所以球上寫著較小數字(0~4)或者較大數字(5~9)是等可能的。其中5個數字用綠色寫成,另外5個用藍色寫成,所以綠色和藍色也是等可能的。我們猜顏色或猜數字較小還是較大都分別有50%的概率。那麽球上既標有較小數字又是綠色數字的概率是多少?
前文關於硬幣和撲克牌的論斷意味著答案是1/4,但是想一會兒你就能發現這不對。在有10個球的情況下,不可能其中的1/4(2.5個)是較小的綠色數字!正確的答案取決於哪一些數字是綠色的,哪一些數字是藍色的。不妨假設1至5是綠色,其餘是藍色。
這種情況下,10個數字裏麵有4個(1、2、3和4)是較小的綠色數字,所以前述事件的概率是0.4。但就像我們處理第一個問題時一樣,我們也可以使用兩步走的過程:100次重複試驗中,我們預期得到較小數字50次。5個裏麵有4個較小數字是綠色的,所以在我們得到較小數字的情況下,我們預測綠色次數占4/5。總體上講,我們預期得到較小的綠色數字40次,再次指向了0.4這一答案。
在硬幣和撲克牌的問題中,擲硬幣的結果對撲克牌的結果沒有影響。我們不會因為得知了硬幣擲出正麵就改變頭腦中抽到紅色牌的概率——在給定第一個事件發生的條件下,另一個事件的條件概率(conditional probability)就是它的正常的概率。如果這成立,這兩個事件被稱為是獨立的(independent),兩個事件同時發生的概率就是兩個事件單獨發生的概率的乘積。
對於10個球的問題,兩個事件同時發生的概率也作為乘積出現,其中第一個乘數是一個事件(較小數字)的概率,而第二個乘數是得到較小數字時得到綠色數字的條件概率。所以兩個計算在形式上是相同的,唯一的不同就是第一個事件的結果會否影響第二個事件。這兩個計算中,我們都用到了概率的乘法定理(the Multiplication Law):
兩個事件同時發生的概率就是第一個事件發生的概率與第一個事件發生時第二個事件發生的概率的乘積。
獨立性
我們用“獨立的”這個術語來描述一種情況:第一個事件的發生並不影響我們對第二個事件概率的評估。假設這是成立的。但假如我們知道了第二個事件已經發生,這可能影響我們對第一個事件概率的評估嗎?
不會。一個事件的發生與否不會影響另一個事件發生的概率,第二個事件是否發生也並不會影響第一個事件的概率。當兩個事件中任何一個發生與否均不會對另一個事件的概率產生影響時,這兩個事件是獨立的。要計算兩個事件同時發生的概率,就將它們各自的概率相乘。
彼此不相互影響的事無疑是獨立事件,例如突尼斯今天下雨和巴黎新生兒的性別。但有時獨立性並不明顯。使用一個公正的普通色子,考慮事件“得到偶數”和“得到3的倍數”,它們的概率分別是1/2和1/3。隻有得到6的時候兩個事件同時發生,概率是1/6。因為1/2和1/3相乘等於1/6,這兩個事件是獨立的。得到偶數的概率並不會在我們得知是否得到3的倍數之後改變(反之亦然)。
現在,當你有一個8麵色子或者10麵色子的時候,考慮相同的問題,色子的每個麵都分別被標記了1~8或者1~10。再進行相應的算術過程:你會發現在其中一種情況下兩個事件是獨立的,但是在另一種情況下不是。判斷獨立性時,直覺是有用的,但是並不總是足夠的。
在兩個因素並不獨立的時候假設它們是獨立的,是評估概率過程中最常犯的錯誤。假設在一所大學的研究生院中一半的學生是女生,並且1/5的學生學習工程學科。隨機選擇一個學生:這個學生是女生的概率會被認為是1/2,這個學生學習工程的概率會被認為是1/5。然而你會發現這個學生是個女工程師的概率遠遠小於這兩個值的乘積——1/10。
具有重疊的事件
加法定理說明了如何計算兩個事件中至少一個發生的概率,隻要這些事件是互斥的。如果二者不互斥會怎麽樣?例如,隨機抽取一張卡片,是黑桃或者A的概率是多少?黑桃A同時屬於這兩個分類,所以如果我們隻是將各自的概率相加,我們就會將黑桃A計算兩次。為了計算兩個事件中至少一個發生的概率,並糾正可能會被重複計算的結果,就將各自的概率相加,然後減去兩個同時發生的概率。
如果兩個事件是互斥的,就不可能同時發生,所以這個額外項的值為0,我們就回到了原先的加法定理。
讓我們來看看在先前兩個例子中這種觀點的實際應用。在猜硬幣和紅牌黑牌的問題中,我們至少猜對一個的概率來自計算過程1/2 + 1/2 - 1/4,等於3/4。在另一個例子中,隨機地抽取有標號的球,是較小數字或者綠色的概率是1/2 + 1/2 - 0.4 = 0.6。
抽到黑桃或者A的概率就是13/52 + 4/52 - 1/52 = 16/52,這可以被證明,因為52張牌中剛好有16張滿足條件。
最後一個計算過程會警示你不要提前進行算術簡化。的確13/52與1/4相等,4/52與1/13相等,但是要將1/4和1/13相加,你最好用原始的分數。將一個像5/13這樣的美觀的分數寫成它的醜陋的近似小數(0.384 615 38……)幾乎沒有好處。
兩個以上的事件
由許多事件組成的集合中的一些事件發生與否,並不影響任何其他事件的概率時,這些事件就被描述為獨立的。在這種情況下,乘法定理意味著,以任何方式從這個集合中選取事件,它們均發生的概率僅僅是它們各自的概率的乘積。
但是在3個或者更多的事件不是獨立的時候,我們如何得到它們均發生的概率呢?例如惠斯特紙牌和橋牌[1]遊戲中,紙牌都被隨機洗好然後等量地分給四個玩家。他們全都恰好抽到一張A的可能性有多大?
考慮4個單獨的事件:甲恰好抽到一張A,乙恰好抽到一張A,丙恰好抽到一張A,丁恰好抽到一張A[2]。顯而易見,這4個事件並不是獨立的,因為如果任意3個均發生的時候,最後一個就一定發生了。我們會通過一個三段式過程來得到它們均發生的概率。
首先,我們計算甲恰好抽到一張A的概率。假設所有可能的分牌方式都是等可能的,我們有了一個計算練習:計算可能的分牌方式的總數,然後計算甲恰好抽到一張A的方式有多少種。相信我,這個概率算下來略低於44%。
假設甲隻有一張A(因此有12張非A)。這就給其他的玩家留下了3張A和36張非A,同時乙隨機地抽取了其中的13張。對這個較小的牌堆,相似的計數過程指出乙恰好抽到一張A的概率略低於46%。乘法定理告訴我們,兩個事件,即甲和乙均恰好抽到一張A發生的概率是這兩個值的乘積,略高於20%。
現在我們假設甲和乙每個人都恰好有一張A。然後丙從剩下的兩張A和24張非A中隨機地取13張牌:他恰好得到一張A的概率是52%。
最後一步就是再一次使用乘法定理,將最後的兩個計算過程組合起來:甲、乙和丙均恰好抽到一張A的概率略高於10%。如果這發生了,丁就不可避免地得到最後一張A,所以我們找到了我們所尋求的答案。
雖然分牌是隨機的,最公平的A的分配卻是頗不可能的。這個答案本身沒有什麽實際意義,但我們使用的方法是具有普遍意義的。為了得到集合中每一個事件均發生的概率,就應該將整個過程分成若幹階段。找到一個事件的概率;然後,假設這個事件真的發生,再找到第二個事件的概率;再假設前兩者均發生,找到第三個事件的概率;然後假設前三者均發生,找到第四個事件的概率——以此類推。最終,將所有的數據相乘。
在其他情形中我們是否也要依照這個過程?假設我的交通行程有三個階段,並且我可以評估它們各自不延遲的概率:但所有階段都會受天氣影響,並且一個階段延遲與否會改變其他階段延遲的概率。在製造業中,一件生產設備的安全依賴於數個並不獨立工作的組件——其中的一些可能使用相同的供水係統,另一些可能由同一個不可靠的員工做了不充分的測試。在手術中,可能會出現問題的事情和其他事情是否獨立會對全部過程能夠順利進行的概率產生巨大的影響。
如果事件是相互獨立的,那麽它們全都發生的概率就隻是它們各自概率的乘積。但我們很少會足夠幸運地處於這種情況,實際上在一個分段的評估中,隨著工作的推進概率在不斷變化,這是一種常態。
三個或者更多的事件中至少一個發生的概率是多少呢?加法定理的確可以拓展到這種情況,然而因為這個表達式實在是難以處理,我不會在這兒寫下來。它的推導過程與之前描述過的將乘法定理應用於許多事件均發生時所使用的過程一樣:一步一步來。
將獨立當作互斥是常見的錯誤,反之亦然。隨機地抽取一張牌的例子會幫助你認識到如何避免它。這裏,“抽到一張黑桃”和“抽到一張梅花”這兩個事件是互斥的,但絕不是相互獨立的,因為如果二者之中任何一個發生了,另一個就不可能發生,所以兩個同時發生的概率是0。同時“抽到一張黑桃”和“抽到一張A”是相互獨立的(是嗎?),但顯然不是互斥的。
記住:加法定理用來計算至少一個事件發生的概率,乘法定理用來推導它們全部發生的概率。
有時人們說:計數真的隻有1、2、無窮大。這個說法揭示了一條真理,如果我們可以完成從處理一件事到處理兩件事的過渡,那隨後到第3、4、5等的過渡相比而言就不那麽重要了。這個道理當然是對加法定理和乘法定理都成立的。
一個巧妙的把戲
任何事件要麽會發生,要麽不會發生。總概率被分成了事件發生和不發生兩部分。所以如果我們能夠找到事件不發生的概率,把這個概率從100%中減掉,就能夠推斷出它發生的概率。
舉例來說,我們要計算擲兩次公正的色子時,至少得到一個6的概率。任何結果都寫成表示第1次和第2次的投擲結果的一對數字,例如(5, 2)或(4, 4),並且我們認為所有這樣的結果都是等可能的。每次投擲都會有6個可能的結果,以至於總共有6×6=36種結果。我們的事件在沒有色子是6的時候不發生,一共5×5=25種情況。沒有6的概率是25/36,所以至少一個6的概率是11/36,比1/3略小一點。
這就引出了1654年布萊瑟·帕斯卡(Blaise Pascal)和皮埃爾·德·費馬(Pierre de Fermat)解決的一個點數問題的初級版本。我們必須擲多少次色子才能使我們至少擲出一次6是更有可能的,即擲出一個6的概率比1/2大?我們剛剛看到,擲兩次是不夠的。
每一次額外的投擲都會讓可能的結果數增加6倍,同時未擲出6的結果數乘以5。所以3次投擲一共有216種結果,而且其中125種(超過一半)沒有包含6,3次投擲也是不夠的。然而4次投擲得到1296種結果,並且其中隻有625種是未擲出6的,少於一半。這就使得包括6的結果多於不包括6的結果,所以這時包含6更有可能。4次投擲就足夠了。
實際上帕斯卡和費馬分析的遊戲中不隻包含了擲一個色子,還包含了同時擲兩個色子的情況;並且設問若要使兩個6同時出現至少一次更有可能,需要多少次重複同時投擲兩個色子。解法是相同的,但是原始的計算過程是艱難的。如今我們可以借助小型計算機或者袖珍計算器來快速地得到結果,然而直到17世紀,較便捷的對數和計算尺才被使用。直到第24次投擲沒有雙6產生的可能性都更大,但是第25次投擲就將扭轉這一局麵。
大多數具有“計算這些事件中至少一個發生的概率”這種格式的問題,都可以用這種方式解決:計算它們均不發生的概率,然後從單位1中減掉這個概率。
[1] 惠斯特紙牌(whist)和橋牌(bridge)均為經典的紙牌遊戲。
[2] 原文中,甲乙丙丁分別為:Anne、Brain、Colin和Debby。