04 概率試驗 Chance Experiments
對於以概率作為結果的任意試驗——買彩票、投注賽馬、相親、接受醫學治療,我們用分布這個詞來詳細說明其所有可能的結果,以及與它們相關的概率。我們討論泊鬆分析——大量重複試驗中多少稀有事件會發生——的時候提到過這個詞。
“分布”是分析概率試驗中結果變化範圍的中心概念。坦率地說,我們需要知道可能的結果的範圍。為了給出這些結果概率的合理數值,我們必須講清楚我們的假設,並且期望它們對於我們想要考察的試驗是合適的。
離散分布
首先,我們來看看那些可能的結果能夠被寫成一個列表的情況,每個結果都有它們自己的概率。術語離散分布(discrete distribution)適用於這種情況。
最簡單的情況就是我們認為結果具有相同可能性時計算結果的數量。這裏使用均勻分布(uniform distribution)這個術語,因為總體的概率均勻地分散在各個結果上。許多試驗都被認為滿足均勻分布——輪盤賭、擲色子、撲克牌、選擇彩票中的中獎號碼等。精確的計數給出了合適的答案。
術語“伯努利試驗”描述了一係列發生概率均為常數的獨立試驗。在伯努利試驗次數固定的情況下,有一個簡單的公式叫作二項分布(binomial distribution),分別給出了事件發生恰好0、1、2……次的概率。這個公式隻依賴於試驗的次數和事件發生的概率。當你依次瀏覽這些結果的時候,它們的概率先是升高到一個最大值,然後逐漸降至0。泊鬆分布也遵循這個模式。
我們能計算20次擲色子中數字6出現次數的二項分布;或者一個學生對30道多選題中的5個選擇隨機作答的時候,蒙對個數的二項分布。但是我們不能預測一個橋牌選手的13張手牌裏梅花張數的概率:雖然每一張單獨的卡片都有1/4的概率是梅花,但是連續的牌不是獨立的,因為下一張牌是梅花的概率會被所有前麵的結果影響。
永遠要留意(通常是小號字)附屬細則。使用二項分布需要3個條件:固定試驗次數,每個事件與其他事件相互獨立,並且事件發生的概率是常數。
在一係列伯努利試驗中,事件首次發生的時候經過了5輪試驗的概率是多少?這種情況發生的唯一方式就是前4次試驗中事件都未發生,隨後1次試驗中事件發生;因為所有的試驗都是獨立的,問題的答案就是將這些結果分別的概率乘在一起,給出了一個令人愉快的簡介表達式,這就是所謂的幾何分布(geometric distribution)。
事件首次發生需要恰好1、2、3……次試驗的概率穩定地下降。下一個概率值等於將現在的概率值乘以一次事件未發生的概率,一個小於單位1的固定值,每次都是這樣。因此,無論事件發生的概率是多大,事件首次發生時經過的試驗次數的最可能的值就是1。
假設在板球比賽中,連續的擊球構成了伯努利試驗。一位投球手,將事件發生理解為他投球成功,他可以樂觀地想:他開始投球的時候,下一次投球成功最可能的就是這一次;相反,一個具有相同視角的擊球手就得聽天由命地接受他這一局最有可能的持續時間就是他麵對這一個球的時間。(就算是最好的擊球手,記錄表明他們最有可能的總得分總是0!)
圖4 一些常見的離散分布
圖4舉例說明了一些常見的離散分布。對於每一個可能的數值,豎線的高度給出了它的概率,並且這些高度的和總是單位1。
連續分布
我們如何拓展古典的概率觀點來解決在一個長度為80cm的木棍上隨機選取一個點的試驗?可能的結果組成一個連續統(continuum),而不隻是一個列表。
“隨機”意味著所有單獨的點都具有相同的概率值。但如果這個相等的值超過了0,那麽,在取了足夠多的點之後,它們的總概率就會超過單位1,這是不可能的。每個單獨的點的概率一定是0,我們也不能使用像圖4一樣的圖片了。我們需要將概率、片段或者區間相關聯,而不是將概率和單獨的點相關聯。
為了對80 cm的木棍的每一部分一視同仁,所有具有相同長度的片段一定有相同的概率。想象一下將木棍砍成8個相等的片段:按照定義,一個“隨機的”點落在每個片段上的概率一定相同,舉例來說,落在20~30 cm的片段上一定具有1/8的概率。
圖5a展示了下一步操作,這可以用口頭禪“麵積表示概率”表述。標注了h的水平線的高度是設定好的,這條線下陰影部分的麵積是單位1,這呈現了一個事實,我們可以百分百地確定隨機點落在區間0~80 cm中的某處。接著圖5b展示了如何確定隨機點落在32~52 cm的片段上的概率,隻需要計算對應的陰影麵積即可。簡單地說,這個概率是1/4。
要得出隨機選擇的點落在木棍兩端10 cm內,或者中間20 cm內的概率,我們就可以使用圖5c,並且依據加法定理,要求的概率是三個陰影麵積的和,也就是1/2。
圖5a 陰影麵積是單位1
圖5b 落在32~52cm之間的概率是1/4
圖5c 見正文
圖6展示了對結果取連續值的另一些情況下相似的解決方式,例如一段特定的高速公路上下一次事故發生需要的時間。我們會在下麵論證展示圖片上的曲線在這種情況下是合理的,但核心觀點是圖線的尺度是特意選擇好的,以至於標注了“時間”的直線以上,和以點E為起始端點的曲線以下的總麵積是單位1,因為我們可以百分百確定我們考察的這段時間一定取非負值。
圖6 連續分布
時間至少是B但不大於C的概率就是陰影的麵積。我們可以用類似的方式得到考察的時間落在任意給定區間內的概率,還能像之前一樣根據加法定理,得到落在更複雜區間內的概率。
一個能按照這種方式生成概率的曲線被稱為概率密度(probability density)。已知麵積的計算方式是“長乘以寬”,任何直線的寬度都是0。因此圖6中在點A或者點D的豎直線的“麵積”都是0,所以這兩個單獨的點具有0值的概率,就像之前提過的那樣。但是點A的密度曲線比點D高,所以點A附近的值比點D附近的值更可能。簡單地說,圖片表明具有或高或低的概率的區域。在這裏我們使用連續分布(continuous distribution)這個術語。
在所有這些試驗中,因為單獨一個點具有的概率值為0,我們可以稍微草率一點:無論一個區間包括了兩個端點或一個端點,抑或都不包括,結果的概率都是一樣的。
為了限定一個概率密度,一條曲線一定必須具有兩個特性:不能取負值,在曲線下的全部麵積必須是單位1。這些保證了對概率的所有計算能得出合理的結果。
許多概率密度函數出現得足夠頻繁以至於可以被賦予名稱。對於從給定的一個區間內選取隨機點,密度函數在這個區間內完全平直,就像圖5中的一樣:簡單地說,所有相同長度的片段具有相同的概率。再一次,我們叫它均勻分布。
假設我們對一些特定事件在多長時間後發生感興趣。例如,210Pb是一種鉛的不穩定同位素,“它的半衰期是22年”這個斷言被印在物理教材上。它的意思是,如果我們有一塊這種物質,22年後隻有原來的一半保持原樣,其餘的都通過輻射衰變成其他物質了。
這塊物質由巨量的原子組成,所有這些原子的行為都是獨立的。如果關注單個原子,它通過放出一個粒子而衰變。我們不知道什麽時候這個過程會發生,但是因為在22年內這塊物質中的一半的原子都衰變了,所以這個特定的原子在這個時間段內發生衰變的概率是50%。假設它在5年後還沒有發生衰變:這時,它就是剩餘的210Pb塊中的一個原子,所以它在未來22年衰變的概率也是50%,並且如果它在接下來的3年中沒有發生衰變,情況也一樣,以此類推。
一個給定的原子的衰變時間隻有遵循所謂的指數分布(exponential distribution)的時候,上述情況才能發生,它的概率密度的一般圖形展示在圖6中,曲線的高度按照確定的比率下降。類似的場景也應用在交通事故中:過去的一周內沒有事故發生,那似乎不可能對未來的事故概率產生影響,所以我們預期交通事故下一次發生的時間也遵循指數分布。
這個分布和泊鬆分布密切相關。隻要事件本質上是隨機發生的——暴風雨中的閃電、細胞複製中的自發突變、顧客來到郵局——在固定的時間段內這樣的事件發生的數目傾向於遵循泊鬆分布,那麽一對事件之間的等待時間的概率分布就具有這種指數形式。
最重要的連續分布是我們已經提到過的高斯分布。就像圖7展示的那樣,這個分布家族中的成員關於單獨的一個峰對稱,並且在兩邊快速下降,然而永遠不會達到0。兩個數字就可以告訴我們任意一個分布實例在這個家族中的歸屬:一個數字表示峰的位置,另一個數字描述散布程度——較小的散布值導致像圖7a那樣的高且窄的圖形,較大的散布值給出像圖7c那樣的矮且寬的圖形。這個家族成員的任何位置的概率都可以借由這兩個數字來與圖7b的分布相關聯而得到,這個分布的峰在0,標準散布值為單位1。棣莫弗創製了對應數表之後,這些對應關係就很容易得到了。
圖7 高斯分布
一個問題的再解決
你也許已經注意到了一個問題。已知期望的結果組成的集合是有限的,或者是一個像{1, 2, 3,…}這樣的無盡的集合,那麽即使這個集合中的一些成員的概率是0,任何概率是0的事件也不會發生。然而,對於連續分布,即使每個單獨的點的概率是0,它們其中的一個在試驗進行過程中也是會發生的!我們不再能夠認為“不會發生”與“概率為0”具有相同的意義。
為了解決這個問題,我們來考慮從裝有100萬塊完全相同的大理石的盒子中隨機選取一塊。隻有在提前猜對了結果的情況下,我們才會感到驚訝,因為猜對的概率隻有一百萬分之一。但是,無論抽中了哪塊大理石,雖然的確出現了某個概率隻有百萬分之一的結果,但我們也不會感到驚訝。
把盒子做大一點——10億塊或100 000億塊大理石——實際產生結果對應的概率可以無限接近0——但是它的確發生了。這與在一條連續的線上選取一個點的過程並沒太大區別:對於任意的點來說,它的概率是0,但是它們其中的一個的確將會發生。
我們接下來開始說明,在一個可重複試驗中,如果猜對結果的概率是1/6,我們可以期望按順序進行的6次試驗中有1次猜對。將事件發生的概率除以100萬,我們預期等待正確結果出現的次數就被乘上了100萬。具有極小概率的結果的確會發生,但是越來越罕見。
如果概率下降到0,我們可以預期要等待比任意有限長都要長的時間——那它就是不會發生!在提前指定的情況下,認為任何概率為0的事件都不會發生是合理的。
平均值
已知一個概率試驗中結果的分布,我們就可以計算我們想要的任何概率。但是有些時候,所有的這些細節都成了障礙——隻見樹木,不見森林[1]:所以我們想要提取出分布的主要特征。
舉例說明,假設可能出現的結果隻有2、3和7,分別對應概率60%、10%、30%。我們預期在100次重複試驗中,2這個值會出現大約60次,3出現大約10次,7為剩下的30次。所有這些數值的和是120 + 30 + 210 = 360,所以所有這100個結果的平均值是360/100 = 3.6。這個值就是數值2、3和7的加權和(weighted sum),權重就是它們的概率。
無論我們有什麽樣的分布,相似的計算都會得出大量重複試驗結果的集中趨勢。“集中趨勢”是一個寬泛的詞,對於這類計算的結果,我們更喜歡使用平均值(mean)這個術語。可能有一些捷徑:如果值在一個範圍內均勻地分布,平均值就在兩個端點的正中間;在一係列伯努利試驗中事件發生的次數的平均值就是試驗次數和事件發生概率相乘。
擲一個公正的色子,得到4的概率是1/6。所以在600次投擲過程中,我們應該可以得到大約100個4:簡單計算表明,連續出現的4之間的平均間隔是6。大小為1/6的概率導致平均間隔是6,這不是一個巧合。任何間隔的長度就是下一個事件發生的等待長度,所以在一係列伯努利試驗中,我們就有了令人愉快的結果:
等待一個事件發生所需的平均時間是事件發生的概率的倒數。
在連續分布中,想法是類似的,但是加權和是由一種名為積分(integration)的數學方法來得出的。對於高斯分布,峰處就是平均值。按照整體特定的頻率發生的隨機事件發生的平均時間是一個指數分布:平均時間就是頻率的倒數,這並不奇怪。
除了“平均”和“平均值”,術語“期望”和“期望值”也會被使用。擲一個公正的硬幣12次,“期望”正麵朝上的數目為6;擲一個公正的普通色子,“期望”得到的分數是3.5。當然正是因為一次投擲中反麵朝上的期待值是0.5,我們實際上不能期望得到一半的反麵朝上!文字都很是奇妙。
平均值非常友好:和的平均值通常是平均值的和,無論不同的和是不是獨立出現的。大數定律告訴我們,從長遠看,平均值占據主導:如果你買一張彩票花費1英鎊,其中一半的錢都進入獎池中,那麽,無論獎金的分配結構如何,你的平均收益都是50便士,從(非常)長遠看,這就是你能得到的。
離散程度
用一種簡潔的方式描述一個分布的離散程度通常是有用的。我們可以計算每一個值和平均值的差值,然後得到這些差值的(適當地加權的)平均值。但是,就像所有計算上努力展示的那樣,這種方法是不成功的:負的差值不可避免地抵消了正的差值,最終結果總是0。
但是無論一個差值是正是負,我們都可以在將它平方之後得到一個正的值。所以我們可以通過將這些平方值加權來得到離散程度。得到的這個值就叫作方差(variance)。如果分布集中在平均值的附近,那麽方差就會比較小;當有合理的原因使一些值距離平均值比較遠的時候,方差就會變得很大。
當考慮以美元計收入的分布的時候,平方值的單位就是“平方美元”,不管它究竟是什麽意思。將方差取算術平方根就可以得到原始計量中的單位,這就得到了標準差(standard deviation)。
平均值和標準差合在一起,經常能給我們理解一個概率分布的快速且有用的方式。在高斯分布中,僅用這兩個數字就足夠計算所有的概率!就像點金石一樣,當分布為高斯分布的時候,在大約68%的試驗中,結果在平均值周圍1個標準差範圍內;在超過95%的試驗中,結果在平均值周圍2個標準差範圍內;而400次中大約有一次結果是在3個標準差之外。
這些數字就是在第1章中給出的,我們能夠有理由地期望事件發生的概率和事件發生的實際頻率有多麽接近的相關參考的基礎:關鍵就是中心極限定理,它說明了作為大量隨機成分的和而出現的數量預期接近遵循高斯分布。
在圖7中,展示了3個高斯分布的概率密度函數,這幾張圖的平均值分別是2、0和2,標準差分別是1/2、1和2。
但是注意:雖然和的平均值總是平均值的和,但是對方差和標準差來說可不是這樣。如果和的組成部分恰好是獨立的——比如說在拉斯維加斯一家賭場7天分別的收益——那麽和的方差就的確是分別的方差的和,否則就會偏高或者偏低。直接將標準差相加幾乎不會給出任何有意義的結果。
極端值分布
在概率的某些應用場景中,我們關注的重點在於隨機數量的最大值或者最小值。例如,線或者電纜的強度依賴於最弱的纖維;洪水防護設施要考慮的是下一個一百年中預期發生的最大規模的洪水;生存分析(survival analysis)這個學科調查一段給定時間後的剩餘人口。極端事件可能很少發生,但是當它們發生了的時候,結果就變得很重要了。
最簡單的看似可信的模型假定存在一些獨立的隨機變量,每個都分別遵循一個特定的分布。例如每一年中,對一家保險公司的索賠。對接下來的50年中它可能會收到的最大的總索賠額有多大,保險公司有一個經曆了漫長的數學推導的可用結果:無論在每一年中索賠額如何變化,在很大的年代跨度中,最大索賠額一共隻有三個可能的種類,它們被稱為極端值分布,具體的名字是弗雷歇(Fréchet)、岡貝爾(Gumbel)、韋布爾(Weibull)。有一個合理的數學原理,如果有一個關於最大值的理論,就一定有一個相對應的關於最小值的結果。所以如果感興趣的東西是最小值,也存在相似的結論。
能夠對這三種分布進行一些限製是非常有幫助的。通過估計極端值的平均值和方差,從三種分布中選擇一種最接近於實際數據的,就能計算分布中的另一些概率的合理估計,比如真實情況中極端和破壞性事件的概率。
[1] 原文為“we can t see the wood for the trees”。