02 聲音的本質 The Nature of Sound
聲音的兩麵
森林裏有一棵樹倒了,但倒地聲沒有被人聽見,這算是發出了聲音嗎?“聲音”既是一種物理現象,又是一種感覺,這種雙重意義給了剛剛的問題一個明確的答案——樹倒的時候發出了、也沒發出聲音。聲音的物理和感官方麵的關係是複雜的,因為聲音給我們留下的許多印象與它的物理參數有關,但又不能僅僅簡化為物理參數。比如,高頻音通常聽起來音調更高,更大的聲音聽起來也更響亮。此外,從警報聲到風笛聲,從搖籃曲到獅子的吼叫聲,許多聲音對我們產生了情感上的影響,而這些影響與它們物理參數之間的關係卻非常模糊。
聲音在物理方麵遠比在情感方麵更容易被人理解,所以我們將從物理學開始講起。
壓力波
聲音通常是由物體的循環運動發出的,比如:揚聲器的膜片不斷地跳動,聲帶之間的間隙時而縮小時而擴大,或者吉他弦來回振動。正是這些運動向周圍介質(固體、**或氣體)的傳播及其在介質中的傳播過程構成了聲音。在某些情況下,運動的就是介質本身,比如有人在瓶口上方吹氣時瓶頸裏的空氣就是如此。非運動源包括突然釋放的熱能(如爆炸或火花)和快速振**的熱源。
當揚聲器的膜片運動時,膜片產生的聲波具有和電信號相同的變化規律。每當膜片向外移動時,它同步擠壓前麵的空氣分子,使它們彼此靠近,從而形成一個高壓區。這些分子接著對鄰近的分子施加壓力,使它們也依次靠得更近,因此一個緊密結合的分子形成脈衝(壓縮波)穿過介質,接著,又因為膜片向內運動而產生一個低壓區(稀疏波)。
然後膜片再次向外移動,產生第二個脈衝。膜片在1秒內由內向外移動的頻率決定了聲波的頻率(單位是赫茲,縮寫為Hz)。最簡單的聲波就是純音,例如音叉發出的聲音。空氣壓力隨音叉距離變化的波形是一個正弦波,波的瞬時形狀如圖1所示。
圖1 聲波壓力示意圖
相鄰的兩個波峰(或波穀)之間的距離定義為聲波波長(λ)。聲音以速度v在空氣中傳播,在室溫下速度約為每秒340米。頻率(f)由方程f=v/λ給出。空間中某一質點的壓力隨時間變化的曲線圖也是一個正弦波,所以我們其實也可以將圖1的橫軸標記為“時間”。
類似圖1這樣的圖像十分常見,而且通過這樣的圖像我們很容易想象出聲波的某種可視圖,事實上許多書就是以這種方式來使用這些圖像的。然而,實際上,聲波不像海浪那樣有上下(橫向)運動,唯一的運動是分子交替地從聲源向外或向聲源運動,就像牛頓擺[1]裏的球一樣。這種波被稱為縱波,如果我們能看到空氣分子的話,它們看起來就如圖2所示的樣子。
圖2 從分子角度看聲波
如果連續的聲音起源於一個點,那麽它就會像膨脹的球體一樣向四麵八方傳播。如果探測區域很小(如麥克風隔膜或鼓膜),距離聲源隻有幾米遠,那麽聲球的曲率可以忽略不計,此時聲音以平麵波的形式傳播。即使聲源有一個特定的方向(就像大多數揚聲器一樣),隻要膜片厚度大於聲音的波長,聲音仍然會以球狀形式傳播。而波長短的聲音在一定程度上保持其原始方向,在足夠高的頻率下它就可以形成聲波束(我們將會在第6章談到)。
聲音的載體
聲速隻取決於介質的彈性和密度(見第1章)。在空氣中,聲速隨濕度和溫度的增加而增大[2],但這僅僅是由於這些因素引起了空氣密度的變化。表1給出了聲音在一些介質中的傳播速度。
表1 不同介質和條件下的聲速
由於空氣中的聲速隨著溫度的升高而增加,而在白天,海拔較高處的空氣比近地麵處的空氣溫度高,所以高處聲音傳播的速度也更快一些。這種速度的增加使聲音在較熱的空氣中向下彎曲(折射),並在一定距離內返回地麵,如圖3所示。由於折射效應,有時聲音在很遠的地方比在近的地方聽得更清楚。
圖3 當離地麵較近的空氣比較高的空氣溫度低時聲音的傳播
折射也解釋了為什麽在迎風情況下人們很難聽見聲音。在迎風情況下,風會使聲波的傳播速度稍微變慢一些,越往高處風速越快,聲波速度降低得就更多一些,所以離地幾米高處的聲波的傳播速度相對來說要更慢一些。聲音從低速區域折射到高速區域,因此聲波將遠離地麵和人的耳朵,朝上方傳播(見圖4)。
圖4 芭芭拉可以聽到艾倫的聲音,但聽不到克裏夫的聲音
無論怎麽操作膜片,我們都無法使聲音在膜片周圍的空氣中傳播得更快。振動越快,產生的壓力脈衝就越接近,它們到達某處(比如說鼓膜)時的頻率就越高。也就是說,聲音的頻率會上升。如果一個人試圖通過加快膜片向內和向外移動的距離來更用力地推動空氣,那麽脈衝中的壓縮量和稀薄度就會增加,從而導致聲壓更高,聽起來聲音也就更大。如果我們強行讓膜片的運動速度超過介質中的聲速,那麽在下一個脈衝形成時,前一個脈衝還沒有來得及離開膜片,因此,它們就堆積成一個單一的、被稱為衝擊波的極高壓脈衝,這也是音爆和響鞭聲的成因。
快速地移動膜片並不是唯一可以用來增加聲音頻率的方法。如果揚聲器(或其他聲源)迅速接近你或你迅速接近它,壓力脈衝就會以更高的頻率到達你的耳朵,因為每一個脈衝都比它前麵的脈衝在離你更近的地方開始向你傳播,從而導致聲音的頻率上升。而當聲源從你身邊經過後,脈衝就會以更長的間隔到達你的耳朵,因為每一次脈衝的傳播距離都比前一次要長,相應地,頻率也會因此下降。這就是著名的多普勒效應。當你身邊開過一輛超速的摩托車或當你聽到跟在摩托車後麵呼嘯而過的警車的鳴笛時,就會注意到多普勒效應(見框2)。
與光類似,如果反射表麵光滑且堅硬,聲音就像光從鏡麵反射一樣能夠反射形成一個聲源的像。所以如果你位於聲源和反射表麵正中間的某個地方,你從兩側聽到的聲音是差不多的(反射的一側聲音會稍小些)。當然,“光滑”是一個相對的概念,它意味著“表麵凸起的大小比波長的長度小”。由於3千赫的聲波波長比黃色光的波長要長100萬倍,所以即便是粗糙如混凝土一般的表麵也可以成為很好的聲波反射鏡。凹麵聲波反射鏡能將反射的聲音聚焦。例如,在第一次世界大戰期間,英國南部海岸建造了這種凹麵混凝土聲波反射鏡,將飛機靠近時的聲音聚焦到正在監聽的士兵耳朵裏。當聲音在兩個或兩個以上的曲麵反射器之間回響時,可能會產生一個耳語廊[3],就像倫敦聖保羅大教堂的長廊一樣。
聲音能在任何兩種介質之間產生界麵反射,無論是在空氣和混凝土、水和空氣,還是地球上不同的岩層之間。反射聲音的多少取決於兩種介質聲阻抗的差值,而聲阻抗又取決於介質的密度和聲速。聲阻抗(見框3)與電阻相似,它測量的是聲音在介質中傳播的困難程度。它是聲音諸多應用的關鍵。例如,軟橡膠表麵會吸收聲音並將其轉化為熱量,因為軟橡膠具有極高的聲阻抗,潛艇上的隱形塗料就是利用了這一原理。但糟糕的是,橡膠的柔軟程度與溫度有關,所以,在20世紀80年代末,冷戰時期的潛艇從北大西洋重新部署到海灣時,由於水溫隨地域變化而逐漸升高,使得潛艇無處遁形,從而引發了一係列相關研究的熱潮。
聲音可以通過聲透鏡聚焦。聲透鏡通常由丙烯酸塑料製成,其工作原理是當波從一種介質傳播到另一種介質時,隻要它以一定角度入射介質之間的界麵,就會發生折射。聲波被折射的角度取決於它在兩種介質中的速度之比,這就是斯涅爾定律(見框4)。
通常,聲音比光更受關注的一個效應是聲音能夠在牆角和牆壁上彎曲,並在穿過一個開口後擴散開來,這種現象被稱為衍射或散射(見圖5)。
圖5 衍射
波長越長,彎曲程度就越大。所以如果在聲源(比如說一個樂隊)和聽者之間建一堵高牆,低音可以通過衍射效應繞過高牆返回地麵,而高音則不能被聽到(見圖6)。這種消聲效果對幫助我們評估戶外常見聲源的距離而言,是非常有用的線索。
圖6 不同波長產生的衍射
當光線落在一係列間隔約為單個波長的平行線、條紋或凸起之上時,它就會發生衍射現象。由於波長較短的光將產生更大角度的衍射,這樣的衍射光柵就會把白光分解成它的組成色,例如CD的背麵就是通過這種方式將陽光衍射成彩虹色。由於純音是一係列壓力增加的有規則的“條紋”,它也可以充當衍射光柵,通過這個光柵散射的光波,長度約等於條紋之間的距離(該距離是聲音波長的一半)。通常這裏涉及的介質是晶體固體,如熔融石英。這種聲光效應,即利用聲波散射光,在水下和空氣中都可被用作非攝動測量和成像工具(見圖7)。
圖7 聲光效應
當來自多個聲源的聲音相遇、相容混合時,就形成了一個由嘈雜和安靜區域組成的三維模式,稱為幹涉模式。安靜的區域形成於一個聲源的疏部與另一個聲源的密部相遇的地方,這就是相消幹涉;當疏部與疏部相遇,或者密部與密部相遇時,嘈雜的區域就出現了相長幹涉(見圖8)。
圖8 相長幹涉和相消幹涉
幹涉在立體聲產生和噪聲消除中發揮了重要的作用。它引入了聲波的另一個表征參數——相位,即聲波在空間和時間的某一特定點上的壓力的高低。相位隻在聲波相互作用時才真正起作用。在上麵的例子中,密部相互重合的一對聲波(因此形成一個較嘈雜的區域)稱為同相,而那些不重合的聲波則處於異相。當波最大限度地偏離相位時,我們說它們處於反相。人類的聽覺係統是無法識別相位的。
聲音的能量
定義和測量聲音的量的方法有好幾種,每種方法適用的領域都不相同。如果測量的內容是聽力或音樂,那麽聲壓是最好的選擇,因為它是與響度最直接相關的參數(盡管也不是很簡單,但請繼續讀下去)。但是,在討論聲源的效率時,人們可能希望知道每秒有多少能量從聲源中流出,即聲音的能量。要描述特定聲場對物體的影響,我們感興趣的參數是聲強,即每秒打在該物體1平方米麵積上的聲音能量。音量是一種定義不太嚴格的度量方法,用於標記音頻設備,但旨在模擬響度。
可聽頻率範圍內的聲波在通過空氣時的吸收損失很少(每100米約0.25分貝/6音分,但隨天氣條件變化很大)。聲音會隨著距離增加而消失的主要原因是它們可以自由地向許多方向擴散,所以它們的能量會隨著擴散越來越低,同時占據的體積越來越大。如果聲源懸浮在自由空氣中,其聲音可以向各個方向傳播(球麵擴散),則聲壓與接收者到聲源的距離成反比。也就是說,如果從聲源到測量點的距離加倍,聲壓就會減半。
聲音的強度下降得比這還快,它與距離的平方成反比。因此如果我們假設從聲源到測量點的距離加倍,聲音的強度就會下降1/4(1/22);如果距離擴大為10倍,則強度下降到之前的1/100(1/102)。但如果聲源在地麵上,則聲波呈半球麵傳播(見框5),聲壓和強度的下降率變為上述情況的一半。換句話說,當距離加倍時,聲音的強度大約下降到原來的一半。不過也有例外情況,當地麵是一個完美的反射器時(一塊大理石地板可以近似於完美的反射器),強度的下降會比這更快,這是由於反射介質吸收導致能量損失。聲功率隻取決於聲源,所以在任何距離上都是一樣的。
自然界中基本上不存在純音,最接近純音的可能是鳥類的歌聲。真實聲音的波形看起來各不相同,圖9顯示了基頻相似的不同聲音的壓力變化。
圖9 不同聲音的波形
困難的分貝
聲音是最早被人類理解的一種能量形式。早在公元前300年,我們就已經知道它是可以穿過空氣和水的某種形式的物理變化。但很久以後,聲音最明顯的特征——響度,才在一定程度上被真正量化。但是,直到2000多年後才出現的這種量化,並不能令人滿意。
到目前為止,最廣泛使用的量化聲音的度量是分貝(dB,見框6)。如果兩個信號在聲壓上相差1分貝,那麽它們的聲壓比值約為1.2∶1,這恰巧是我們在理想條件下能聽到的最小差異。10分貝的差異相當於聲壓比為3∶1, 100分貝的差異相當於聲壓比為100 000∶1。
分貝是1/10貝爾,貝爾這個詞由傳輸理論中最常用的三個字母(β,ε和l)結合而成,並且也是向亞曆山大·格雷厄姆·貝爾(Alexander Graham Bell)[4]致敬。分貝並不是單位,它其實是比值,所以它可以描述一種東西比另一種強大多少。如果你願意,你可以用它來比較一對加熱器的輸出,但這並不能告訴你它們實際上到底有多熱。
要用分貝來描述一個設備的聲音,重要的是要知道你在和什麽進行比較。對於空氣中的聲音,我們將其與某種剛好能被聽到的聲音(相當於20微帕斯卡的壓力)進行比較。當聲音的大小以這樣的參考水平給出時,就會加上“級”字,例如,聲壓級(Sound Pressure Level, SPL)。
所以,0分貝的聲音是你能聽到的最小聲音的“1倍大”(也就是說,和你剛好能聽到的聲音一樣大),1分貝大約是12倍,2分貝是26倍,以此類推。所有的聲學家都滿意這個解決方案嗎?不,他們並不滿意。超聲波工程師並不在意他們的超聲波比“你恰好能聽到的聲音”大多少倍,反正本來也沒有人能聽到。他們喜歡的是功率,因此他們測量數據的單位是瓦特。與此同時,水下聲學家理所應當地問道:“那麽聽力的閾值呢?當你的耳朵灌滿了水,頭上戴著橡膠耳機,這種閾值有什麽意義呢?”又或者:“如果你是鯨魚呢?這種閾值又有什麽意義?”所以,他們的分貝建立在1微帕斯卡的參考壓力上,因為這很好記,也很容易測量。於是現在我們有兩種“分貝”,一種用於水中,另一種用於空氣,這兩種分貝對於相同的聲音會給出不同的值。隻要每個人都記得他們所使用的分貝的參考水平是多少就不是什麽大問題,然而糟糕的是人們並不記得。
還有一個問題。很少有人關心一個物體究竟產生了多少聲音,我們想知道的隻是它的聲音聽起來有多大。聲音聽起來有多大取決於物體離我們有多遠,這似乎是顯而易見的,但這意味著我們不能說汽車喇叭的聲壓級是90分貝,隻能說它在一定距離上是這個值。通常情況下,即使是那些在教科書中非常流行的簡易分貝圖表也會出現這種錯誤,例如聲稱風鑽的聲壓級為100分貝,而實際上是“如果在10米的距離(或其他距離)處測量,聲壓級為100分貝”。不難看出這種“偷懶”的表述到處都是,比如“安靜的辦公室”,我們知道它指的是你工作時安靜的辦公室,而不是走廊盡頭或其他城鎮的安靜辦公室。
還有第三個問題,即一個聲源可能以任意一個、幾個或多個頻率產生聲波。讓我們暫且假設一下,聲音的來源是一個揚聲器,它的效率非常高,能把輸入的所有電能都轉換成聲音。而且我們假設它有一個頻率控製器,但沒有音量旋鈕。如果我們測量每秒從揚聲器中流出的總聲能(功率),同時改變頻率,那麽功率當然會保持不變。同樣地,揚聲器的聲壓級在一定距離上會保持不變,這點用一個麥克風就可以證明(假設它在所有頻率上都具有相同的靈敏度)。
然而,這和你的耳朵告訴你的完全不同。如果揚聲器在20赫茲時剛好可以聽到,它的音量會隨著頻率的增加而提高,直到大約4千赫時,它的音量會(非常粗略地)提高200倍。在更高的頻率下,它會再次變得安靜,最終在8~20千赫之間消失不見。你到底聽不到什麽頻率的聲音,取決於你的年齡,以及你在過去幾十年裏有沒有好好保護你的耳朵。
在實踐中,聲學家對麥克風所組成的電路的響應進行加權,從而使係統表現得像耳朵一樣,也就是對4千赫左右的頻率最敏感。頻率加權麥克風是聲級計(Sound Level Meter, SLM)的核心。實際應用中有很多不同的權重可供選擇,甚至可以選擇適合狗的權重。目前最受歡迎的是A權重,它近似人耳在中等音量下的反應。因此,對人類重要的分貝通常是A權重的,記為dBA,其全稱是“A級加權聲壓級(以分貝記)”。
聲級計會受聲音時長的影響。這很重要,如果一個聲音持續的時間短於0.1秒,它聽起來就會更安靜,因為人的聽覺係統會將聲音持續時間之內的能量積累起來去感受。
更複雜的是,音量的大小也取決於其來源的性質。例如,人們非常不喜歡飛機的聲音,一般來說,他們認為飛機的聲音就和實際上要大5分貝的無特征聲音一樣令人討厭。相反,人們更喜歡火車的噪聲,他們甚至覺得火車聲音的煩人程度和實際上低5分貝的無特征聲音一樣。這些反應如此明確,以至於許多涉及飛機或鐵路噪聲的規劃應用程序將其數字調整了5分貝,這種調整被稱為“飛機懲罰”和“鐵路獎勵”。這意味著,沒有任何儀表可以真正測量建築師、房主、噪聲活動家、嘈雜的機器購買者和聲學家真正需要知道的東西——音量有多大。
考慮到所有這一切,用高精度聲級計測量聲壓級幾乎沒有意義。大多數聲級計測量10千赫聲音的精度為±1.4分貝(稱為2類儀表)。即使在實驗室工作中,測量精度為±1.1分貝基本上是足夠的(由1類聲級計提供)。比準確度更重要的是遵守標準測量程序,包括通過與標準測量麥克風的比較來頻繁地校準聲級計。
盡管響度具有複雜性,而且會根據聲源和用戶的不同而產生變化,但科學家通過精心選擇聲音,然後對大量被測者的反應進行調查,大致確定了響度與聲壓級之間的關係,並在此基礎上定義了單位,也就是方(Phon)。方被定義為與1千赫單音的聲壓級具有相同的值,因此聲壓級為10分貝的1千赫音調的響度級別為10方。但是一個和10方相同響度的50赫茲聲音,其聲壓級是73分貝,因為我們的耳朵對50赫茲的敏感程度遠低於1千赫的聲音,一個50赫茲的聲音需要比一個1千赫的聲音高63分貝才能聽起來同樣響。
響度隻是眾多心理聲學測量的指標之一,也被稱為聲音質量參數(此處“質量”指的是“性質”而不是“好壞”)。響度是目前最常用和發展最好的指標,其他的指標還包括銳度(單位是acums)、粗糙度(單位是aspers)、起伏度(單位是vacils)和柴油度(diesel)(柴油度沒有單位,不同的汽車隻是根據人們認為它們的聲音有多“柴油”而進行主觀排序的)。從最後一個名字能看出,這些指標主要是由汽車行業開發的,其目的是使門的咣當聲、發動機的聲音,甚至指示器的聲音聽起來更有力、男性化、可靠等。原則上講,如果電子產品和噪聲源都能用這些參數來描述的話,對用戶是非常有用的。
聲音質量這個話題是心理聲學學科的一部分,即研究聲音的心理效應,它本身可以被認為是現在所說的聲音研究的一個組成部分。聲音研究涉及各種聲音在曆史和不同文化中是如何產生和消耗的。關於這類主題的研究工作自20世紀40年代以來一直在進行,而自20世紀90年代初開始,這類研究的數量也在大大增加。
駐波
在聲學史上,實現聲音的可視是人們不斷嚐試的目標。在18世紀80年代,恩斯特·克拉德尼(Ernest Chladni)研究了金屬板被小提琴的琴弓劃過發聲時振動的方式。撒在板上的細粉會偏離振動強烈的區域,並聚集在靜止的區域。因強烈振動而沒有粉末的區域對應於波腹(如圖1中的波峰或波穀),而靜止且有粉末的區域是節點,即沒有壓力變化的點(圖1中的曲線與軸線相交的地方)。
克拉德尼之所以能夠以這種方式“看到”聲波,僅僅是因為聲波沒有在空間中前進。它們是靜止的,或者是“停駐的”聲波,即駐波。對於駐波,圖1隻表示波的壓力隨位置的變化,而不是特定點的壓力隨時間的變化方式(駐波中任何一點基於時間的壓力示意圖都是一條水平線)。
這種原理在下麵的例子中會展示地更清楚。假設有一根長12厘米的管子,一端開口,一端封閉。如果有人從開口端吹氣,管內就會形成駐波。在這類波中,由於空氣與閉合端管壁有摩擦,那裏的空氣無法移動,所以這一點是波節點。最簡單的一種駐波是這樣的:空氣分子離閉合端越遠,運動幅度越大,在開口端幅度達到最大(這一點稱為波腹)。在這種駐波中,波長的1/4與管長相等,所以它的波長為4×12 = 48厘米。如果你吹得足夠用力,管中就會形成一係列其他形式的駐波,每個駐波都有節點和波腹分別出現在管的兩端,如圖10所示。這些其他波的波長是第一種駐波的簡單倍數,這樣的一組波被稱為諧波。
圖10 一端開口管中的駐波
與上述的管子類似,在任意充滿**的腔或任何堅硬的物體裏,都存在非常容易被激發的特定波長的聲音。這被稱為共振模式(或簡稱為共振),共振的主要模式是可以預測的,因為它們隻依賴於尺寸。例如,如果把一根12厘米長的杆子的兩端固定,猛擊它將產生24厘米波長的聲波,以及波長為12厘米、8厘米、6厘米、4厘米的聲波,還有所有其他節點間距能達到12厘米[5]的聲波,這同樣是一組諧波。
一個12厘米長的盒子裏的空氣或水也會產生上述所有波——在這種情況下,流體的“末端”靠近盒壁,在那裏摩擦力阻止了流體的自由運動。盒子還會產生與它的高度、寬度和對角線相對應的波族。
共振是室內聲學領域的一個主要研究問題,也是大多數樂器的基礎。如果樂器的一端是開放的(比如風琴管),開口的一端就是腹點,其基頻的波長會是相同長度的封閉管波長的兩倍(實際上波腹在管道的末端之外形成,需要進行末端校正,請參見框7)。
通常,最低共振頻率是最強的。然而,如果給一個樂器提供大量的能量,它可能會產生一個八度共振,甚至更高到兩個八度。例如,如果吹得足夠用力(“超吹”),長笛就可以做到這一點。
共振在我們的生活中隨處可見。當你敲擊盤子、杯子或叉子的時候它們會發出聲響,隻要你別把它們握得太緊,否則聲音會被抑製住(音叉在緊緊握住的時候仍然可以產生共鳴,是因為音叉有兩個相同的尖頭叉子且移動方向相反,這樣共鳴就在把手處相互抵消,因而沒有在把手那裏產生振動)。利用共振,我們可以檢查陶器是否有裂紋。如果沒有裂紋,陶器材料中每一毫米的運動都會緊隨相鄰毫米的移動,讓波通過,就像墨西哥人浪[6]一樣,這表明陶器確實是完好無損的。但是,即使是一個非常細小的裂紋也會將相鄰區域分開,此處的拖曵和摩擦也會抑製共振,產生反常的“叮當聲”。
如果一個力以與該物體的共振頻率相同的頻率作用在物體上,耦合的效應就會非常明顯,因此吉他弦會呼應房間另一端的撥弦聲發出聲音,或者電視機的一些部件伴隨著節目聲音突然發出惱人的嗡嗡聲。
在聲學的幾個領域中,一個重要的效應是亥姆霍茲諧振(Helmholtz resonance),任何聽過吹瓶口時產生的音調的人都很熟悉這種效應。隻要是有開口的空心物體或腔體都可以作為亥姆霍茲諧振器(見框8)。如果一股氣流從開口上吹過,一些空氣會進入腔體,增大腔內的壓力。壓力又把空氣推出去,就像鍾擺一樣,讓這個空氣“過度衝出去”,留下一個輕微的低壓環境,這樣就會吸入更多的空氣,循環往複。這種有規律的循環包含了共振頻率的聲波。如果把這個頻率的聲波供給諧振器,它就會發出非常強的聲音。
繪製聲音
駐波是聲波的一個小子集,大多數情況下,波中的高壓區和低壓區在空間中運動(這種波被稱為前進波或行波)。如果你想“看到”行波,就必須記錄氣壓隨時間的變化。亞曆山大·格雷厄姆·貝爾是第一個嚐試這種方法的人。1874年,他設法從一具屍體上弄來一隻耳朵,給它塗上油以保持其柔軟,並在鼓膜上綁上一根細稻草。稻草的另一端可以在一塊帶著煤灰的玻璃上畫一條線,這樣一來,當有人對著這個耳朵大喊大叫時,玻璃就會隨之移動。這條搖擺不定的線是聲波的第一次記錄,這個裝置被稱為人耳記音器。為了減輕那些需要製作這種裝置的人的負擔,後來的版本不再使用死人的耳朵,取而代之的是金屬振動膜。
然而,記音器對於聲波的實際測量並沒有什麽用處。實際的測量最終由在20世紀30年代開發的陰極射線示波器(cathode ray oscilloscope, CRO)實現。CRO可以設置不同的時基,這樣高頻的聲音就可以在屏幕上傳播,而低頻的聲音則被壓縮,於是就可以看到它們的波形,由此可以讀出它們的波長並確定它們的頻率。
今天,CRO在計算機上被廣泛使用。然而,二維圖仍然隻能顯示聲音的一些特征。大多數聲波的頻譜和壓力變化都很快,隻有在一種叫作聲譜圖的三維示意圖上才能正確地同時顯示出來。這種聲譜圖需要依靠計算機才能生成。在聲譜圖中,屏幕上方的高度通常代表頻率,亮度或顏色代表聲壓(或強度)。在其他情況下,可以在屏幕上顯示三維形狀,結果通常類似山脈(見圖11)。
圖11 聲譜圖
解碼聲音
能夠看到聲音,意味著人們可以對很多與它相關的信息進行定性,也可以對顯示結果進行粗略的測量,但是很多時候我們還需要聲音的精確定量信息(例如為了消除噪聲或改進樂器的設計)。為此,我們需要進行數學分析,這是最廣泛和最基本的分析方法之一,是基於約瑟夫·傅裏葉(Joseph Fourier)在19世紀所做的工作而產生的。
傅裏葉意識到任何周期函數(以穩定速率重複的函數)都可以通過將一係列正弦波(現在稱為傅裏葉級數)加在一起來構造,他還想出了一種方法來確定這個級數的元素(項)是什麽。從數學上講,傅裏葉級數是由一係列正弦和餘弦組成的——考慮到餘弦隻是一個從最大值而不是從0開始的正弦波,所以我在這裏隻提到了正弦波。如圖12所示,三個正弦波就可以近似一個方波。為了使後者的側邊更垂直,必須添加更高頻率的音調。方波聽起來像哢嚓聲,傅裏葉分析表明,突然(聲級快速增加)的哢嚓聲會包含一些非常高頻的成分。
圖12 用正弦波求和來近似一個方波
傅裏葉的原始工作隻適用於周期波,但它進一步發展為一種被稱為傅裏葉變換的方法,可以用來處理非周期波。快速傅裏葉變換(fast Fourier transform, FFT)是一種計算信號正弦波分量的高效數學方法。當加入這樣的波時,人們就必須考慮它們的相位。在一個波長內,聲波的聲壓從零(與周圍空氣壓力相等)上升到最大值,然後下降到最小值,然後又上升到零。這類似旋轉的輪子邊緣某一點的垂直運動軌跡,因而相位可以用角度的方式來描述,即從0°開始上升到最高相位的90°,再落回水平位置180°,接著降至最低位置270°,最後回到360°(與0°是一樣的)。
所有真實的聲音都會隨著時間的推移而改變,所以轉換成正弦波的過程必須頻繁地重複。這種對聲音的時變頻率分析有許多應用。例如,組成一個人聲音的聲波的某些參數對那個人來說是獨一無二的,因此,這些參數可以作為“聲學指紋”(即聲紋),並可以由機器進行自動語音識別。
相反,由於每個單詞都有獨特的發音(除了同音異義詞,比如“sew”和“so”),無論由誰來說這個單詞,理論上機器都可以自動識別出來。雖然不同的人有發聲差異,但某些特定的因素隻是略有不同,或者是可以預測的。這也是為什麽(在一定條件下)不管說話者是誰,我們都能夠識別一個單詞的含意。
然而,自動語音識別離完美還有很長一段路要走,主要的問題在於判斷一個單詞的結尾和下一個單詞的開始位置。這個問題很難,試著聽自己說“麵包和黃油”,你聽到的可能是像“brembudder”這樣的詞[7],沒有任何的停頓。人類之所以能夠如此容易地識別單詞,是因為我們聽到的聲音模式隻是所說內容的表征之一,正如第4章將要解釋的那樣。
合成聲音
由於任何聲音都可以被拆分成正弦波,因此任何聲音都可以從正弦波合成而來。從聲音中生成語音的合成器已經問世多年,而且效果比識別器要好得多。然而,在實踐中,通過將預先錄製或預先生成的聲音片段組合到一起來生成語音通常要容易得多,這是一種被稱為語音編碼的技術。
目前的電子係統幾乎可以合成任何聲音,不管它是否原本就存在於自然界中。比如怪異的謝潑德音調(Shepard tone),它是由逐漸降調又漸出的音調組合而成,其間會有更高的音調漸入,然後也開始下降,給人的印象是聲音不斷下降卻又不會下降。然而,通常人們並不需要新的聲音,而是需要現有聲音的改進版本,例如一場沒有噪聲的音樂表演。在20世紀60年代,對流行音樂製作人來說最著名的電子產品就是電子琴,其加載的預錄元素是流行音樂常用的非語言聲音。這種樂器上加載的庫中有錄製在磁帶上的小段聲音,演奏者可以迅速用他們想要的頻率和音量來播放任何片段。
選擇聲音:濾波器
最常見又最簡單的修改聲音的方法是過濾,即使用電子電路或軟件刪除或減少選定的頻率範圍。高通濾波器去除低頻,低通濾波器處理高頻,帶通濾波器則同時去除低頻和高頻。曾經有一種很常見的可變濾波器是圖形均衡器,它是高保真音響放大器上的一係列滑塊(約七個),可以抑製選定的預置頻率範圍。簡單的“音調”控製同樣可以使高(高音)或低(低音)頻率變得安靜。
各式各樣的其他功能也出現在電腦聲音藝術家或工程師的工具箱中。例如,有些軟件可以添加混響或回聲,創造一個人造聲景,或在用揚聲器播放之前,用這種實時變化的頻率改變之前預錄的流行歌曲的聲音。這是卡拉OK係統的基礎,在卡拉OK係統中,歌曲的音調可以被升調或降調,以匹配用戶認為最容易唱的方式。
[1] 牛頓擺(Newton's Cradle)是一種由5個緊貼的同樣質量和大小的金屬小球構成的玩具,當拉起一端的小球使其擺動撞擊其他4個時,另一端的小球將會繼續擺動,而中間的3個小球保持不動。
[2] 原文為decrease with increasing temperature,疑有誤。
[3] 當兩個人貼牆站立時,即使一個人隻是對著回廊壁竊竊私語,走廊另一端與他遙遠相隔的人也可以清楚地聽到。
[4] 這裏Bel與物理學家貝爾(Bell)的名字諧音且拚寫方式相近,故有致敬的含義。
[5] 原文為24厘米,疑有誤。例如波長16厘米的聲波,不能由文中的長杆生成,但其節點間距可達24厘米。
[6] 球迷在看台上有序地舉手站起再坐下。
[7] 這裏由於連讀現象使得原來三個詞的短語“Bread and butter”聽起來像一個詞。在漢語中類似的例子有“這樣子”,由於連讀聽起來像“醬紫”。