03 曆史概要 Historical Sketch

開端

在1600年左右的佛羅倫薩,有一種關注三個普通色子總點數的遊戲。所有色子擲出1(即總點數為3)和所有色子擲出6(即總點數為18)這兩種情況出現得最少,其他大多總點數都接近於這個範圍的中間值。你應該能發現得到9點有6種方法(例如6 + 2 + 1、5 + 2 + 2,等等),得到10點也是有6種方法。通常認為,這就“應該”使色子總點數為9和10出現的頻率一樣。但是一段時間之後,玩家們注意到總點數為10出現得比9明顯多。他們就此向伽利略(Galileo)請教一個解釋。

伽利略指出他們計數的方法有缺陷。將色子塗成紅色、綠色和藍色,並按塗色的順序列舉出結果。從3 + 3 + 3得到總點數為9需要三個色子具有相同的點數,隻有一種方式能夠使其發生,(3, 3, 3)。但是5 + 2 + 2的組合可以通過(5, 2, 2)、(2, 5, 2)或(2, 2, 5)中產生,所以這個組合傾向於出現得比前者頻繁3倍;6 + 2 + 1通過(6, 2, 1)、(6, 1, 2)、(2, 6, 1)、(2, 1, 6)、(1, 6, 2)和(1, 2, 6)產生,所以這個組合有6種途徑產生。一個合理的尋求不同總點數出現頻繁程度的方法需要考慮這種因素,而且這種因素確實使得獲得10點比9點有更多的方式。佛羅倫薩的賭徒們(Florentine gamblers)學習了關於概率的重要一課——一定要學會正確地計數。

1654年夏天,帕斯卡(在巴黎)和費馬(在圖盧茲)就點數分配問題(the problem of points)進行了一次通信。假設史密斯和瓊斯約定進行一係列的比賽,首先贏得3局的是獲勝者;但不幸的是,當史密斯領先瓊斯的比分為2∶1時比賽必須中止。該如何分配賭金?

那時這樣的問題已經被提出了至少150年了,仍沒有令人滿意的解答,但帕斯卡和費馬各自獨立地找到了一個解決方案,對任意的目標得分和任意的比賽意外終止時的比分,都能夠在兩人之間公平地瓜分賭金。他們使用了不同的方法,但是得到了相同的結果,兩人都對對方的才華表示讚賞。對上述具體的問題,應該按照3∶1的比例分配,史密斯得到3/4的賭金,瓊斯得到1/4的賭金。

他們解法的關鍵是假設在未來的任何對局中兩個玩家獲勝是等可能的。他們就每一個玩家計算了能夠使其獲得最終勝利的可能的假想對局結果數量,並提議按照這兩個數量的比值分配賭金。換句話講,假設兩人在接下來的遊戲中旗鼓相當,賭金應該按照每個玩家在經曆一係列對局後最終取勝的概率來分配。對概率的係統研究由此拉開了序幕。

這個問題能被概率的客觀方法解決,但是帕斯卡考慮得更多。他提出了一個有關上帝是否存在的賭局。“上帝存在,或不存在,緣由無法回答。在無限遠的彼岸擲一枚硬幣,正麵或者反麵就要出現。你賭哪邊?”

他提出,如果上帝存在,相信或者不相信帶來的不同,就是在天堂獲得無限的幸福與在地獄忍受無限的痛苦之間的區別;如果上帝不存在,相信或者不相信隻會帶來塵世生活中細小的差別。所以一個不可知論者應該強烈傾向於相信上帝存在。

在這個賭局中,“正麵”或者“反麵”出現的概率大小是具有個人色彩的選擇,不能從對稱性抑或計數證據中推導出。所以帕斯卡也是概率的主觀方法的先驅者。

瑞士的伯努利家族

在17世紀和18世紀,來自巴塞爾的伯努利家族[1]的成員在數學(包括概率)領域取得了重要進展。家族內的競爭起到了鞭策作用:他們中的一個會提出難題,另一個就會回應,難題的提出者會說他發現了所謂的解決方案中的瑕疵,等等。

關於概率的遊戲激發了許多對概率運作的早期關注。在這些遊戲中,無論是擲色子、發牌,還是擲硬幣,一些“試驗”會在本質上相同的情況下被重複進行。之前提出過一個自然的問題:一個結果被觀察到的概率和客觀概率有什麽關係?

雅各布·伯努利(Jacob Bernoulli)在其遺作《猜度術》(The Art of Conjecturing)中,用他的例子巧妙地進行說明,給出了一個答案。假設罐子中60%的球是白色的,其餘的是黑色的,隨機抽取一個球。伯努利證明,隻要試驗抽取至少25 550回,每一次試驗中抽到白球的比例落在58% ~ 62%的範圍外部,就會有至少1000次試驗中抽到白球的比例落在這個範圍內部。不規範地說就是:在多次抽取的條件下,我們觀察到白球的頻率會壓倒性地傾向於接近它的客觀概率。

類似的分析過程適用於任意能在相同條件下不限次數地重複的試驗,一個試驗的結果不會對其他試驗結果產生影響。每一次試驗中,某些特定的結果代表著成功,它們的客觀概率是一個固定的值p。這個概念現在被稱為伯努利試驗(Bernoulli trials)。在p這個值附近取任意區間,你願意它有多小就有多小(±2%或±0.1%,都無所謂)。然後給出你想要讓成功的頻率落在這個區間內部比落在其外部高多少(100倍還是100萬倍,怎樣都行)。伯努利的方法證明了隻要試驗重複足夠多次,任意這樣的要求都會被滿足。觀察到的頻率會像你期望的那樣盡可能地接近於客觀概率,隻要給出充足的數據。這個斷言被稱為大數定律(the Law of Large Numbers)。

在1975年,一個主要致力於促進概率和數理統計發展的國際學會被命名為“伯努利學會”,以向這個家族致敬。

亞伯拉罕·棣莫弗

亞伯拉罕·棣莫弗(Abraham de Moivre)以胡格諾派[2]難民的身份在英國定居,依靠國際象棋和他的概率知識謀生。艾薩克·牛頓(Isaac Newton)那時已經50多歲而且事務非常繁忙,為了岔開有關數學的谘詢,他說:“去找棣莫弗吧,他比我對這些事情了解得更清楚。”棣莫弗的《機會的學說》(Doctrine of Chances)在1718年以英語出版,1738年的第二版包含了伯努利工作中的主要進展。了解他的成就要思考一個具體的問題:如果一個公正的色子被投擲1000次,我們能合理地預期數字6的產生頻率與平均頻率之間有多大偏差嗎?

棣莫弗提出了一個對這類問題具有廣泛應用的公式。他高超的洞察力表現在,他意識到數字6的實際數量與期待的平均數量之間的偏差,可以用投擲次數的算術平方根來進行最適當的描述。

如何誇大這個發現的重要程度都不為過。當你聽說一個民意測驗(opinion poll)中一個政黨的支持率是40%,它經常會附加一個暗示,這隻是一個估計,真實的支持率“非常可能”在一個範圍中,比如38% ~ 42%。這樣的區間寬度告訴你最初數字40%的精確度,而如果你想要更高的精確度,就需要更大的樣本:這個平方項意味著要將精確度變為2倍,樣本需要擴大4倍!我們有一個“報複式”的收益遞減法則——要達到原來的2倍效果,我們必須投入原來的4倍精力。

棣莫弗的方法可以用考察一個公正的硬幣投擲20次時有多少次正麵朝上來說明。基於所有的例如正正正反正……正反正反這樣的,長度為20的序列都是等可能出現的,我們可以繪製出圖1。其中垂直條的高度表示大約100萬種序列中有多少個恰好包含0、1、2、……19、20個正麵。這些數字各自的客觀概率就正比於這些高度。棣莫弗證明了經過這些豎條頂點的最佳擬合的光滑連續曲線非常接近於一個特別的形狀,現在通常稱之為正態分布(normal distribution)。

圖1 20次投擲中正麵朝上的相對頻率

這種曲線會生成於所有的多次擲硬幣過程中,並且還可以包括擲出正麵的概率不等於1/2的情況。所有曲線之間有一個簡單的關係,所以棣莫弗可以就一個基本的曲線製作一個簡單的數表,並能在任何情況下使用。整體的成功頻率在一個確定的限製範圍中,現在就能夠簡單地獲取對這樣的事件的發生比例的估計——需要的僅僅是獲勝的概率和將要進行的試驗的次數。將一個公正的色子擲200次,你想知道數字6出現次數在30~40間的可能性有多大嗎?或者一個公正的硬幣在100次投擲中擲出60次以上的正麵的可能性有多大?沒問題——棣莫弗有解決方案。

假設我們知道一群人死亡時的年齡,所有人都活到了至少第50個生日。棣莫弗的工作可以回答這樣的問題:“如果一個50歲的人在70歲之前死亡是更有可能的,我們能夠觀察到這些數目的各種變化的可能性有多大?”雖然這十分有用,但是它不能回答新興的人壽保險業提出的關鍵問題:“我們有多麽確信一個50歲的人在他70歲之前即死亡是更有可能的?”

逆概率

托馬斯·貝葉斯(Thomas Bayes)是一個在數學領域有建樹的長老會牧師,他的思想現在比在其生前更受重視。他的《機遇問題的解法》(Essay Towards Solving a Problem in the Doctrine of Chances)在他死亡三年後的1764年出版,給出了初步處理主觀概率的一般方法和從數據中推斷概率的保險精算師問題的一個解決方法。這本書也包含了一個處理概率的重要工具,被稱為貝葉斯法則(Bayes’ Rule)。

為了舉例說明這個法則,設想我們擲一個公正的色子兩次。已知第一次擲色子點數是3,很容易地就能夠得到總點數是8的概率,因為這個事件會在第二次投擲點數為5時發生。我們不假思索地就能給出解答為1/6。但是將問題調轉一個方向,設問:給出總點數是8,第一次擲出3的概率是多少?答案遠遠不那麽簡單了,但是我們可以應用貝葉斯法則來得到結果。在擲色子的標準模型下這個概率為1/5。

對於刑事審判中處理證據的方法,逆概率(inverse probability)這個概念至關重要。假設在犯罪現場找到的指紋被鑒別為屬於一個已知的人——史密斯。如果史密斯是無罪的,發現這個證據的概率很可能是非常低的。但是法院判決的依據不是“已知史密斯是無罪的,發現這個證據的可能性有多大”而是“已知發現了這個證據,史密斯無罪的可能性有多大”。貝葉斯法則是獲得答案唯一合理的方法。我們將會在後麵的章節中看到這個法則是如何幫助我們做出正確決定的。

貝葉斯展示的洞察力在很多年中被忽略了,但是他的確指出了中心問題:如果在一係列的伯努利試驗(例如擲色子)中,成功的概率是未知的,但是試驗和成功的次數都分別是已知的,這個不可知的概率落在指定區間內的可能性有多大?而另一位極其優秀的數學家拉普拉斯的計算優於貝葉斯。

從1774年試探性的開始到1812年的理論綜合體,拉普拉斯逐漸地完善著他的分析,並最終給出了解答貝葉斯問題的一係列明晰的公式。例如,利用巴黎男性和女性的出生人口數目,他得出結論,毫無疑問男性出生的概率高於女性——他估計這結論錯誤的概率是10-42。

貝葉斯被安葬在倫敦的邦丘原野公墓(Cemetery of Bunhill Fields),在皇家統計學會(the Royal Statistical Society)附近。其墓地曾經被修複過,來表達全世界統計學家對貝葉斯的敬意。

中心極限定理

將一些伯努利試驗的結果寫成由勝利(Success)和失敗(Failure)組成的序列,例如FFFSFFFSSFSFF……現在將每個S用數字1代替,每個F用數字0代替,得到0 001 000 110 100……這表明了一個巧妙地理解這些試驗中勝利的總數的方式:序列中的這些數字的和(同意嗎?)。棣莫弗利用他所謂的正態分布曲線,給出了一個描述這個和的分布的良好近似方法。

對於一個巨大的數值序列,我們要考慮的可能隻是其中隨機變化的各個值的和。例如,負責垃圾處理的政府部門主要感興趣的是整個城鎮中的垃圾總量,而不是來自每個家庭的數量。當一位園丁播種紅花菜豆時,他關心的不是每個豆莢的大小,而是總產量。一個賭場基於它的全部贏得的錢來評估其經濟收益,不論個別賭徒的收益如何。將著眼的事物看作大量隨機數據的和,這經常是卓有成效的。

拉普拉斯拓展了棣莫弗的工作以便能涉及像這樣的情況。他建立了中心極限定理(Central Limit Theorem),該定理說明了在很多情況下,大量隨機數據的和是棣莫弗的正態分布的理想近似狀態。我們不需要某個單獨數據如何變化的細節,整體數據變化的模式會緊密地貼合這個正態法則。

為了利用這個想法,我們隻需要兩個數字:第一個是全體數據的平均值,第二個是一個簡單地表示它的變化程度的數據。知道這兩個數據,任何一個概率都能夠從棣莫弗的表格中找到。

下麵談到卡爾·弗裏德裏希·高斯(Carl Friedrich Gauss),他是和牛頓、阿基米德(Archimedes)並列的頂級數學天才。當時他正在研究如何處理觀測恒星和行星位置時產生的誤差。他提出,平均而言誤差為0——觀測中向左偏差和向右偏差是等可能的——並且誤差大小遵循這個正態分布,他因為這個方法在數學上很簡潔而使用它。但是拉普拉斯看到高斯的書時,將這個結果引用到了自己的書中,同時提出,因為一次觀測中的全部誤差以許多隨機因素堆積總和的形式出現,這樣誤差應該遵循正態分布法則。高斯蹩腳的理由“數學上的便利”被拉普拉斯更加有說服力的“數學理論表明……”所替代。

“正態”這個術語應用在這個分布上是不恰當的。它暗示我們應該預期我們遇到的任何數據都遵循這個形式,但是遠非如此。為了避免這種暗示,並且為了紀念一個偉大的人,我們將會轉而使用另一個術語高斯分布(Gaussian Distribution)。如果你可以說服自己,你關注的值可以貌似可信地被當作大量隨機的較小數字的和,這些較小的數字的來源都是不相關的,那麽這個中心極限定理告訴我們可以預期這個值遵循高斯分布。

觀測中的誤差真的遵循這個規律嗎?亨利·龐加萊(Henri Poincaré)——對數學各分支具有全麵知識的最後一位數學家——說:“人人都相信它,因為數學家誤以為這是觀測中的事實,而觀測者認為這是個數學原理。”

西莫恩·德尼·泊鬆

西莫恩·德尼·泊鬆(Siméon Denis Poisson)出名是因為一個含有他名字的分布——概率在一個平均值周圍變化的方式。在物理學家歐內斯特·盧瑟福(Ernest Rutherford)及其同事的工作中——計算7.5秒長的時間間隔內有多少個α粒子從放射源中發射——相關的例子出現了。這個數字從0到十幾不等,平均值稍小於4。圖2展示了兩個經典的實驗,說明(在這些情況中)有四五個粒子發射。盧瑟福認為這些發射事件都是隨機的。

圖2 α粒子的發射時間

將7.5秒切成極多個極小的時間間隔,小到我們可以忽略其間發生一次以上發射的概率。除了幾個發生了一次發射,其他所有的小間隔都沒有出現發射這一事件。在各個小間隔之中,將一次發射事件看作遊戲勝利,所以粒子發射的總數就是勝利的次數——又是伯努利試驗。

極小間隔勝利的概率實際上和其長度成比例,所以隨著單個間隔長度的縮小,間隔的數目增多,每一個間隔發生勝利事件的概率減小。泊鬆計算出了小區間長度縮小至0的過程中,發生0、1、2……次發射的全部的確切概率。

這個泊鬆分布(Poisson Distribution)就經常出現在我們計算事件“隨機”發生概率的時候,至少是以一種良好近似的方式。它恰當地描述了盧瑟福的實驗數據;它適用於第二次世界大戰中投擲在倫敦南部不同地區的炸彈數量;它看起來是一本書中每1000個字中錯印字數的有效模型。如果你同時從兩個洗好了的牌堆發牌,正麵朝上,平均而言你會發現發牌恰好有一次是一樣的,但是實際的匹配次數會非常接近於泊鬆分布。有一個可怕的例子,在一項長達20年,涉及幾代普魯士特兵團學員的追蹤調查裏,被自己的馬踢死的軍官數量也滿足這個分布。

所有這些例子都符合一個相同的模式:大量的機會,每個機會中事件發生的概率很小。每當你正在研究的現象符合這種模式,泊鬆分布就很可能對它有用。

俄羅斯學派

一個數學定理具有這樣的特征:如果某一個假設是成立的,那麽一個預期的結論就會產生。我們主要的興趣在於應用這個預期的結論,所以所需的假設最好不要太複雜。有時候預期的結論隻存在於非常具有限製性的假設的情況下,或者極其難被證明:之後的研究者也許會找到使用相同假設的更簡單的方法,或者在較少的限製性條件下得到相同的結論。最好的情況是結論在非常寬鬆的假設成立時,能被簡短而優美地證明。巴夫尼提·切比雪夫(Pafnuty Chebychev)的工作給出了這種理想情形的良好案例。

切比雪夫展示了如何在更廣泛的情況中應用大數定律。最初的大數定律和伯努利試驗有關,它描述了在一係列試驗中事件發生次數的比例能夠多麽合適地用於估計事件發生的概率。如果我們想估計入伍士兵的平均身高,或者一個家庭一周的消費,我們似乎可以很明顯地從相關人員中抽取合適的樣本。但是這種估計有多合適呢?切比雪夫的工作給出了誤差足夠小以使得估計可靠的概率。

很多統計結果都是這些想法的應用。

切比雪夫最知名的學生是安德雷·馬爾可夫(Andrey Markov),馬爾可夫的教學啟發了又一代極有天賦的俄國人。馬爾可夫將他的想法應用於詩歌和文學作品。在將亞曆山大·普希金(Aleksandr Pushkin)的《葉甫蓋尼·奧涅金》(Eugene Onegin)中的元音字母(vowel)和輔音字母(consonant)分別替換為字母v和c之後,馬爾可夫得到了一個隻含有這兩個字母的序列。在原始的基裏爾字母[3]中,元音字母占有43%的文字比例。在一個元音字母之後,另一個元音字母出現的頻率是13%,而在輔音字母之後,元音字母出現的頻率是66%。在預測一個字母之後的字母是元音還是輔音的過程中,他發現,已知當前的字母時可以忽略它前麵所有的字母,因為它們基本不構成影響。

這個“可以忽略”的特性廣泛存在。有一些例子:賭徒手中的一係列連續的賭金數額;特拉維夫(Tel Aviv)每天的天氣(幹或者濕);在每一個顧客離開時隊列的長度;連續世代的基因組成;兩個相連的容器中的氣體擴散過程。如果知道序列中的前一個值,要預測隨機變化序列的下一個值的時候,我們都可以忽略更前麵的那些值,那麽這個序列被稱為具有馬爾可夫性質(Markov property)。描述這種序列的理論已經很好地發展起來了,這些理論也是許多概率成功應用的基礎。

馬爾可夫在政治上非常活躍,對數學史也知之甚詳。1913年,俄國政府組織了羅曼諾夫改革300周年的慶祝活動,馬爾可夫相應地開展了對伯努利發現第一個大數定律200周年的紀念活動。

這裏我偏離一下主題,討論一下在20世紀早期,法國人埃米爾·博雷爾(émile Borel)的工作。回想伯努利試驗中的大數定律:在大量試驗中,實際事件發生的頻率有極大的特別接近於事件發生概率的可能性。但是這仍然留下了這樣的可能:在無限次的試驗中,實際事件發生的頻率極其偶爾地會落到事件發生頻率附近任意給定的公差帶之外。但是博雷爾的工作完全消滅了這種概念難題。任意給定公差帶,一定會有一個時刻(我們不知道什麽時刻,但是的確有那麽一個時刻),在這個時刻之後,實際事件發生的頻率就會永久地停留在公差帶內部。這被稱為強大數定律(the Strong Law of Large Numbers)。

圖3 強大數定律圖示。p是事件發生的概率,虛線表示公差帶。在T次試驗之後,實際的事件發生的頻率永久地停留在公差帶內部

這個強大數定律也會延伸到更廣闊的情境中。我們可以將大數定律的含義濃縮到一個不正式的習語中:

從長遠來看,平均統領一切。

在1924年,亞曆山大·辛欽(Alexander Khinchin)發表了命名極佳的《重對數律》(Law of the Iterated Logarithm)。就像伯努利和拉普拉斯的早期工作一樣,這個理論應用於一個以和的形式出現的隨機數量時,它可以給出更加精確的有關這個和會多麽接近其平均值的信息。

在大約300年中,概率工作的前沿進展都是來自一些特別的方法。然而到了1933年,傑出的蘇聯科學家安德雷·柯爾莫哥洛夫(Andrey Kolmogorov)使用了近期發展出的測度論(measure theory)中的理念,將概率科學確立在了令人滿意的邏輯框架中。所有已知的理論都可以重新容納進柯爾莫哥洛夫的設定中,並能給出精確程度作為後續計算過程的催化劑。

柯爾莫哥洛夫和辛欽還有他們的學生鮑裏斯·格涅堅科(Boris Gnedenko)一起極大地拓展了拉普拉斯關於隨機數量和的工作。提高紡織業和其他製造業中機器的可靠性的方法,生產線上產品的質量控製,還有解決擁堵導致的問題都是他們研究的動機。

柯爾莫哥洛夫是一個卓越的研究者和教育者。他在1987年去世,當時的蘇聯總書記米哈伊爾·戈爾巴喬夫(Mikhail Gorbachev)還調整了自己的工作日程,以便能夠出席葬禮。

更近的近代

戰爭經常會驅動科學發展。1939—1945年的世界衝突促進了運籌學的發展,其中許多成就都起源於對概率論理念的合理利用。為了使一艘補給船不被敵軍潛艇擊沉的概率最大,一係列數據的組合和計算給出了艦隊比單艘船更好,大艦隊比小艦隊更好的結論。當這個結論被付諸實施,損失就顯著地降低了。布萊切利園(Bletchley Park)的密碼解讀工作現在大概已經廣為人知了。然而我們經常忽視貝葉斯公式在確定恩尼格瑪密碼機(Enigma machines)卷軸最有希望的布置方式中的應用。

在1950年,威廉·費勒(William Feller)出版了一本介紹概率的著作,並在1957年和1968年再版。這本書是我心目中有史以來最好的非虛構著作。憑借著直覺和嚴密論證的結合,這本書直接地或者間接地引發了人們對這門學科的巨大興趣。隨後,喬·杜布(Joe Doob)使用術語“鞅”(martingale,這個詞原本指每次損失後將賭金加倍的投注策略)來描述那些在未來某時刻的平均值與現在的值(大致上)相等的隨機量。他揭示了鞅的主要性質並給出了一些密切相關的概念:這些工作普遍有用,因為它指出許多有實用性的隨機量都會包含在這個理論研究的範疇中。之後我們會舉例說明概率這個概念是如何在一係列領域中被有效地應用的。

許多專攻概率的學術期刊已經發行,其中一些還產生了分支期刊,從來沒有聽說它們缺少可以發表的材料。現代計算機的算力已經轉變了計算概率的模式:它們的運算速度和存儲容量極大地拓展了可解決問題的範圍。在早期,許多概率問題隻受一個因素影響,比如說時間或者距離,人工的精確計算總是可能的;而現在,那些概率隨時間、空間的三維和其他因素的影響而變化的複雜問題也已經被成功解決了。

即便如此,使溝通交流更便利才是計算機對概率論發展最巨大的影響。TeX[4]語言已經成為數學和許多科學寫作的標準語言框架。研究者在互聯網上發布他們的想法和觀點,學術文章可以在家中或者辦公室中通過萬維網(the World Wide Web)輕易地取得。

[1] 伯努利家族(The Swiss Family Bernoulli)來自瑞士的一個商人和學者家族,有很多藝術家和科學家出自其中。

[2] 胡格諾派(Huguenot), 16世紀至17世紀法國基督新教歸正宗的一支教派,1685年被法王路易十四宣布為非法。

[3] 基裏爾字母(Cyrillic alphabet)又稱西裏爾字母、斯拉夫字母,是在使用斯拉夫語族語言的大多數民族中通行的字母書寫係統。

[4] 正式標誌為TEX,中間的E有點下沉,但在無格式純文本中寫為TeX。