第五章 語言種類統計的一些問題

在第二章中,我們比較了世界語言的使用人數,還比較了不同語係和地區的語言數目。兩次比較的數據來源都是目前最權威的“民族語”,並且兩次都假設計數方法相對清晰,計數行為意義深遠。但事實上,這些默認的假設是否真正如此,遠沒有那麽簡單。

語言使用者的計算

說到語言使用者,有一點不得不提,那就是“民族語”中所列數據實際上是“世界範圍內將該語言作為第一語言的使用者人數”。對一些“小”語種來說,這些數據的確可以反映該語言在現代人類中的重要程度,但有時候情況卻沒有那麽簡單。“民族語”所列的英語使用人數為3.28億,這個數字將把英語作為第二(第三,等等)語言的1.67億人全都排除在外了。印地語使用人數為1.82億,這一數據也忽視了一個事實,即無論是使用人數還是使用頻率,該語言的非母語使用者跟母語使用者均相差無幾。

有的官方數據也考慮到了這些複雜情況。瑞士2000年的人口普查就問了兩個語言相關問題:你最熟練掌握的語言是哪一種?你日常使用的是哪一種語言?以瑞士第四種官方語言羅曼什語為例,共有3.5萬人稱其為最熟練掌握的語言,“民族語”即采用了這一數字。但如果算上將其作為日常使用(居家、學校、辦公)語言的人,這一數字會增加到6萬,普查結果也提及了這一點。

在這方麵,阿拉伯語的情況尤其複雜:將各種通俗阿拉伯語的變體全部相加,“民族語”所列數字為2.21億人,盡管號稱是阿拉伯世界第二大用於“教育、官方用途、文字材料以及正式演說”的語言,現代標準(書麵)阿拉伯語也並未進入世界“最大”語言的榜單。同樣地,因為伊斯蘭教的關係,雖然很多人多多少少都會說點古典阿拉伯語,但該語言也未能進入榜單。因此,世界上到底有多少種語言?我們很難給出一個量化的確切答案,因為計數方法在很大程度上依賴於政治和社會因素。

數國旗

說到語言的數量,“民族語”的6909種顯然不是一個準確數字,但說這話的前提是我們了解世界語言種類的計算原則。可能有人認為產生誤差的原因跟其他普查差不多:可能“民族語”的計數員敲門的時候有的語言剛好“不在家”,或者是有些語言重名弄得我們很難確定它們到底是同一種還是好幾種。但從理論上說,這些問題都可以解決,並且這樣產生的誤差應該不會很大。事實上,區別兩種語言更多的是社會和政治因素,而非語言因素,並且“民族語”所列的很多數字所存在的更多是看法而非科學層麵上的問題。

“民族語”的編者當然知道這些,他們在前言部分也對此有所說明。例如,關於語言個體的問題,他們提到:

語言的定義取決於定義語言的目的。有些人以純粹語言學標準為依據,而有的人認為社會、文化和政治因素也應該被考慮在內。除此之外,關於到底什麽才是語言獨一無二的因素,語言使用者自身都有各自不同的看法。很多時候,相比語言因素,他們會更多考慮與傳統和身份相關的因素。

但為了呈現數據,他們總得做些選擇,而他們的選擇也不無道理。有一點我們必須明確,他們的數據既非完全客觀,也並非不可挑戰。“6909”是看待世界語言多樣性的一種方式,但同時也存在其他方式。本章的目標就在於考察造成這一問題困難重重的一些複雜因素。

已逝的馬克斯·魏因賴希(Max Weinreich)過去常說:“a shprakh iz a dialect mit an armey un a flot.”(所謂語言,不過就是擁有陸軍和海軍的方言)。他這話其實是在說意第緒語,因為沒有與任何政治上的重大實體相聯係,意第緒語長期以來都被認為是一種方言。把魏因賴希的妙語改一下,可以說:“所謂語言,不過就是擁有國旗的方言。”語言對應的是國家,而方言對應的是部落、城鎮或是其他不太重要的群體。所謂歐洲“語言”和非洲“方言”,也存在這樣一種暗示。語言要成為“語言”而不隻是一種“方言”,通常都要具備國家、經濟、文學傳統、書寫體係以及其他諸如權力、權威和文化等“配置”,純粹的語言本身反而沒那麽重要。

例如,中國的廣東話、客家話、上海話以及其他“方言”都屬於漢藏語係,並且相互之間(尤其是同占支配地位的普通話相比)差異很大,如同羅曼語言中的法語、西班牙語、意大利語和羅馬尼亞語之間的差別。這幾種語言的使用者相互之間無法交流,但它們都屬於“方言”,因為它們都與同一個國家相聯係,共享一套書寫體係,都在政府明確的政策規定中。同羅曼語言一樣,可以將其細化為幾個次級分組,歸入不同的語係,主要部分見下頁圖8。這張地圖隻顯示了最高級的語係分類,漢語普通話的使用範圍覆蓋了幾個不同的次級分組。

漢語語言的不同之處涉及語言結構的方方麵麵,至少包括發音、音係、單詞結構、句法和詞匯。漢語的方塊字對應詞匯整體(或部分)而非直接對應其發音,從某種程度上來說,這種書寫體係掩蓋了上述語言結構的不同之處,發音不同的詞在書寫方式上完全相同。事實上,某些漢字隻存在於某種語言中,書寫體係並非如描繪的那般放之四海而皆準。但即便如此,在表達方式的多樣性上,這一體係也比世界任何體係都更加包羅萬象。

圖8.中國漢語方言分布地圖(大圖請查看P202)

漢藏語言(普通話)——8.36億(全世界);晉語(通常與普通話一組)——4500萬;吳語——7700萬;徽語(通常與吳語一組)——3200萬;贛語——3100萬;湘語——3600萬;閩南話(包括台灣話)——6000萬;客家話——3400萬(全世界);粵語——7100萬;平話(通常與粵語一組)——2000萬)

雖說詞匯隻是語言的一個方麵,但相對更容易呈現。為了說明漢語語言之間的差異,表6列出了一些日常詞匯在不同語言中的差異。所有漢語語言的聲調都各具特色,且發音與所標注音標也並非完全對應。表6沒有呈現出來這些,但還是能幫讀者大致了解漢語語言的差別到底有多大。

公認的“中文”(作為一個涵蓋所有漢語語言的概念)其實建立在共享的書寫體係、作為共通語的普通話的標準形式以及現代中國的政治統一體這些因素之上,單獨的漢語方言沒有各自的“國旗”“陸軍”和“海軍”。

相反,印地語和烏爾都語本質上屬於同一體係(早先統稱為“印度斯坦語”),但二者分屬不同的國家(印度和巴基斯坦),擁有不同的書寫體係和不同的宗教信仰。雖然在印度和巴基斯坦,受過良好教育的使用者之間的語言差異明顯大於方言土語,但這種差別跟普通話和廣東話的差別比起來仍然不大,甚至可以說是小巫見大巫。

表6 不同漢語語言詞匯發音差異

這方麵的一個極端例子是塞爾維亞-克羅地亞語(Serbo-Croatian)。該語言通常(直到20世紀90年代早期)被認為是一種單一語言,擁有不同的地方方言和書寫體係,使用區域為南斯拉夫大部。塞爾維亞人(大部分屬於東正教)使用西裏爾字母,而克羅地亞人(大部分為羅馬天主教)使用拉丁字母。南斯拉夫作為一個政治統一體,在分裂後的幾年之內至少出現了四種新的“語言”(塞爾維亞語、克羅地亞語、波斯尼亞語和最近出現的黑山語)。但實際的語言學變化微乎其微,隻是“陸軍”和“海軍”數量大幅增加了。

現在這四種語言都分別有自己的字典,雖然這些字典上的語言材料同先前的“塞爾維亞-克羅地亞語”並沒有什麽區別。塞爾維亞前總統斯洛博丹·米洛舍維奇曾因戰爭罪在海牙受審,按照程序,他要確認法庭已經用其母語宣讀起訴書。他承認他能夠理解起訴書中的指控,卻否認法庭宣讀使用了其母語。很顯然,宣讀人員帶有波斯尼亞口音。

語言和方言

世界語言知多少?答案(假設這個問題有意義並且確實有一個答案)或許介於“民族語”的6909和數十億之間——每個人的表達和理解能力多多少少都與他人不同,並且很多人會使用不止一種語言。因此,世界上有多少人就會有多少種語言。要想進一步了解具體情況,首先需要分清“語言”和“方言”到底有何差別。

這可不是什麽詭辯問題——很多人認為二者的區別會對世界產生實實在在的影響。這一點從1996年加利福尼亞州奧克蘭學校董事會決議爭議事件中就可以看出來。爭議主要圍繞非洲裔美國學生的教學語言展開。該決議(1997年修訂版)申明:“作為非洲人文化和曆史的一部分,非洲裔美國學生擁有並使用的英語在不同的學術場合分別被稱為‘黑人英語’[1]或‘泛非洲傳播行為’或‘非洲語言體係’;非洲語言體係源於西非和尼日爾-剛果語族而不僅是英語的方言。(強調部分為原文形式)”並在政策聲明中闡明了他們所理解的語言上的證據:“一是非洲裔美國人在其語言的基礎層麵,保留了西非和尼日爾-剛果非洲語言的結構;二是以此為標準可以判定,他們並非黑人語言或其他任何英語方言的母語使用者。”

這件事可沒有看起來那麽簡單。我們無須過於在意諸如當代非裔美國英語與非洲語言的關係,而應注意到上例中,學生使用的語言是自成一個體係的,與通常認為的“標準英語”截然不同。自20世紀70年代開始,語言學研究就從音係學、形態學、句法、詞匯等多方麵詳細對“黑人(地方)英語”或“非裔美式地方英語”進行了探究並得出了上述結論。奧克蘭學校董事會決議的爭議之處在於,該決議堅稱黑人英語並非“僅僅是英語的方言”,而是自成體係的一種語言。因此在教育體製中,該語言應該同西班牙語、日語和苗語一樣,享有作為學生中非英語使用者的母語的權利。這一說法可以從兩方麵得到支撐:一是將該語言同一種獨特的文化身份相聯係;二是專門將其命名為同“英語”沒有關聯的“黑人英語”。

由此看來,認可一種語言體係為語言而非(另外某種語言的)方言,具有重大的社會和政治意義,這是完全獨立於不同體係之間的語言性差別。將語言與某個獨立的政治或社會實體組織相聯係,為其單獨命名,使其與其他語言的關係最小化等行為,都會將其地位從“方言”變為“語言”,進而使該語言使用者的地位和權利合法化。用“英裔愛爾蘭語”代替“愛爾蘭英語”即是如此,目的是為愛爾蘭裔的英語使用者爭取權利。同樣,用“南非荷蘭語”來稱呼南非及世界其他地區荷蘭語使用者後裔的語言也是如此。

但是,在計算世界語言種類的時候,我們是否可以基於其同社會和政治實體組織的聯係,把“黑人英語”“英裔愛爾蘭語”看作獨立於“英語”的語言單獨計算,而把諸如新英格蘭緬因州、阿巴拉契亞山脈、多塞特郡、約克郡等地的(英語)方言僅僅看作“英語”的一部分呢?如果真這樣處理,那我們所描繪的絕非真正的語言分類情況,而是一個超出語言學範疇的問題。從嚴格的語言學意義上說,不同語言、不同方言之間的界限不過是一個程度不同的模糊概念,並不成體係。到現在應該清楚的是,語言體係之間的差異程度各不相同,將有些看作“語言”而把另外一些看作“方言”,對於我們了解這些不同並無益處。

分辨語言

判斷我們遇到的是不同語言而非同一種語言的不同形態有一個常識性的標準,即談話雙方是否能互相理解:如果A的使用者能輕鬆理解B的使用者所說的話,那麽A和B肯定是同一種語言。“民族語”在區分語言時主要采用的就是這一標準,不過在實施時沒有一以貫之。例如,在記錄瑞士的語言時,將“瑞士德語”作為一種獨立語言區別於標準德語存在,但同時又標注“每個州又有各自的變體,很多都無法互相理解”。事實上,瑞士德語的變體比瑞士的行政州還多,有的相互之間確實無法理解。如果要將上述標準推行到底,那這些瑞士德語的變體都應該被看作單獨的語言。但顯然,這樣分類是有問題的。

事實上,根據是否互相理解來區分語言與第一章中提到的“生物種”概念類似。基於這個標準,生物在不能共同繁殖時則被歸為不同物種。雖然被廣泛接受,但這個標準也不是沒有問題。有些問題是生物界特有的,例如馬和驢分屬不同的物種,但二者卻可以通過**繁殖出騾子(英語中公驢和母馬所生為“mule”,公馬和母驢所生為“hinnies”)。而騾子無論是與馬、驢還是相互之間,都無法繁殖後代。那這些騾子該歸屬哪個物種呢?有一小部分母騾確實與公馬或公驢一起繁殖了後代,這會對分類有影響嗎?幸運的是,在語言中我們無須麵對類似的困境。

如同生物物種概念無法將生物清晰分類一樣,互相理解力的標準在實際操作中也無法將世界明確劃分為不同的語言單位。當然,相似之處遠非完全對等。語言間的互相理解更多是一個理解程度問題(說加泰羅尼亞語和說西班牙語的人若不了解對方的語言背景就不能完全理解對方的話,但他們彼此溝通起來肯定比跟隻會說日語的遊客溝通要容易得多),而生殖隔離卻更多是一個絕對問題。即便如此,二者之間仍有一些有意思的相似之處。

有時候,A的使用者可以理解B,但反過來卻不成立,或者至少B的使用者會堅稱自己不理解A。這種不對稱性可能並非虛言。在斯堪的納維亞語言中,以丹麥語為母語的人通常聲稱能夠聽懂大部分挪威語。這倒也不奇怪,因為在16世紀到19世紀初期的300年間,挪威受丹麥統治,丹麥語作為標準語在挪威使用,挪威語即起源於此;但反過來,以挪威語為母語的人理解現代丹麥語的能力卻差了很多,這可能是因為在經過了一係列語音變化之後,丹麥語的表層語音形式早已與以往不同。

除了能說明以互相理解力作為語言分類標準存在種種問題,斯堪的納維亞語還能幫我們理解語言中和生物分類類似的一個問題。相較於瑞典語,雖然曆史上丹麥語和挪威語關係更近,但從理解程度來說,瑞典語和挪威語其實更為接近,丹麥語反而不倫不類。同樣,物種的生物學概念也和曆史沒有關係。現在假設有一群人,他們之間的關係如下圖所示:

假設以上圖中的分支點來表示這群人特征性狀方麵的突變,這些突變還不足以打破A、B、C、D成員間的繁殖能力。現在假設D進化出一種新的特征並打破了原先的繁殖能力。如此一來,A、B、C之間仍然可以繁殖,但D卻遭遇生殖隔離。從生物物種的概念來看這一結果:A、B、C屬於同一物種,而D屬於另外一個物種。這種分類結果與曆史關係完全相反,因為其實C和D之間的關係要比C與A或B的關係更接近。這種情況與剛才講到的斯堪的納維亞語言多少有點相似之處。

在另外一些情況下,相互之間不理解與語言自身的客觀事實無關,而是植根於社會和文化態度之中。例如,保加利亞人認為馬其頓語是保加利亞語的一種方言,但馬其頓人認為它是一種獨立的語言。1995年,馬其頓總統格裏戈羅夫訪問保加利亞。雖然時任保加利亞總統的哲列夫宣稱他可以聽懂格裏戈羅夫說的所有話,但後者還是帶了一名口譯員。在簽署一項協議時,格裏戈羅夫堅持認為該草案應該“用馬其頓語言書寫”,簽字儀式也因此夭折。

再舉一個沒有那麽“高端”的例子。卡拉巴裏語和嫩貝語是尼日利亞的兩種語言,均被一些學者視為東伊交語(Eastern I·j?)的表現形式。嫩貝人聲稱可以毫不費力地聽懂卡拉巴裏語,但相對強勢的卡拉巴裏人卻把嫩貝人當成鄉下的“窮親戚”,認為他們說的話是高貴的卡拉巴裏人聽不懂的。

我們之所以說無法通過互相理解力的標準確定世界上有多少種語言,還因為方言連續體的存在。在德國、瑞士以及“比荷盧”(比利時、荷蘭、盧森堡)的廣大地區,人們都使用西日耳曼語,相鄰地區之間的語言僅有細微差異,相隔較遠的地區之間卻差異顯著。舉個例子,假設你從阿姆斯特丹出發,步行約300英裏到達法蘭克福,每天約行走10英裏。可以確定的是,每天早上為你提供早餐的人和當天晚上為你提供晚餐的人互相之間可以聽懂對方說的話。但是,旅行起點的荷蘭人和終點的德國人要想互相理解就沒那麽容易了,他們肯定自認為他們說的是兩種不同的(即便是相互聯係的)語言。他們會有這種感覺,部分原因在於這中間隔了國界線,國旗不一樣了。不過,在他們真正跨過國界線時(比如,經過馬斯特裏赫特和亞琛之間的時候),語言之間的變化(相對於其他方麵,比如公路標誌的變化)可能比其他時候也大不了多少。

在世界的某些地區,這樣的連續體可以綿延上千英裏,連續體上相鄰地區的居民可以互相理解,但處於兩端的居民之間卻是“雞同鴨講”,西澳大利亞沙漠地區就是如此。在這種情況下,語言種類又該如何計算呢?

類似的情況在生物界也同樣存在。生物界的“方言連續體”是指生物體的集合,被恩斯特·邁耶(Ernst Mayr)稱為“族圈”。這方麵的典型例子就是俄勒岡州和加利福尼亞州發現的蠑螈亞種(劍螈屬)集合。如圖9所示,這一物種顯然起源於北方,一路沿著加州中央穀向南擴展,擴展過程中雖然形態發生了變化,但種群間的某些基因仍然得以保留。但到了最南端,當內陸品種和海岸品種相遇時,彼此之間卻無法**。

族圈的存在還有一個經典例子是北極副極地地區的海鷗(鷗屬)族群。目前這一物種的準確數量存在爭議,但可以確定的是,西伯利亞鷗同美國鷗**,後者又與英國銀鷗**。與此同時,西伯利亞鷗也與歐洲的鷗類**,一路向西延伸到小黑背鷗,整個族圈內都有基因流動。但銀鷗和小黑背鷗之間卻無法**。

圖9.加利福尼亞州蠑螈亞種劍螈屬分布(從上到下依次為皮克塔劍螈、俄勒岡西斯劍螈、螺旋藻劍螈、黃花葉劍螈、克洛斯特劍螈、埃施沃爾齊爾劍螈、卡拉貝利劍螈,黑色區域為雜交區域)

青藏高原的亞洲森林中也有一個族圈,語言學家對此頗感興趣。這個族圈的主要物種為暗綠柳鶯(拉丁文學名:Phylloscopus trochiloides),是一種鳴鳥。同上述族圈一樣,相鄰種類可以相互**,但族圈兩端的種類卻無法**。對語言學家來說,這個案例中暗綠柳鶯**失敗的原因很有意思。它們無法**的部分原因在於無法通過識別對方的歌聲來判斷其所屬品種。彼此無法互相理解,因而造成了生殖隔離。

這種相互不理解對語言分類又有什麽影響呢?其中一個問題我們在第三章已經討論過了,那就是語言會隨著時間推移而變化,到底什麽才是“同一種”語言。我們把喬叟(15世紀)、莎士比亞(17世紀)、托馬斯·傑弗遜(19世紀)和喬治·W. 布什(21世紀)的語言統稱為“英語”,但毫無疑問,他們之間並非完全可以相互理解。莎士比亞還能勉為其難地和喬叟或傑弗遜說上點話,但傑弗遜(當然還有布什)要想跟喬叟交流,就必須帶翻譯了。語言會隨著時間推移不斷演化,相鄰時代的人能互相理解,但最終會形成不同的體係。要解決這個問題,必須通過第三章提到的語言的“係統發育”,這和生物學家研究物種進化史非常相似。

如此看來,要想給語言分門別類可沒有表麵上看起來那麽簡單。政治和社會因素勝過單純的語言現實,而以相互理解為標準又困難重重。

[1] “黑人英語”英語原文為“Ebonics”,音譯“埃波尼克斯”與英語“English”發音截然不同。