MP3各項引數的意義 頻率(如44100Hz),位元(如16Bits),位元速率(如128Kbps)
首先了解一下:音訊取樣
數碼音訊系統是透過將聲波波形轉換成一連串的二進位制資料來再現原始聲音的,實現這個步驟使用的裝置是模/數轉換器(A/D)它以每秒上萬次的速率對聲波進行取樣,每一次取樣都記錄下了原始模擬聲波在某一時刻的狀態,稱之為樣本。將一串的樣本連線起來,就可以描述一段聲波了,把每一秒鐘所取樣的數目稱為取樣頻率或採率,單位為HZ(赫茲)。取樣頻率越高所能描述的聲波頻率就越高。取樣率決定聲音訊率的範圍(相當於音調),可以用數字波形表示。以波形表示的頻率範圍通常被稱為頻寬。要正確理解音訊取樣可以分為取樣的位數和取樣的頻率。
1.頻率(如44100Hz):音訊取樣級別(音訊取樣頻率)
取樣位數可以理解為採集卡處理聲音的解析度。這個數值越大,解析度就越高,錄製和回放的聲音就越真實。我們首先要知道:電腦中的聲音檔案是用數字0和1來表示的。所以在電腦上錄音的本質就是把模擬聲音訊號轉換成數字訊號。反之,在播放時則是把數字訊號還原成模擬聲音訊號輸出。採集卡的位是指採集卡在採集和播放聲音檔案時所使用數字聲音訊號的二進位制位數。採集卡的位客觀地反映了數字聲音訊號對輸入聲音訊號描述的準確程度。8位代表2的8次方--256,16位則代表2的16次方--64K。比較一下,一段相同的音樂資訊,16位音效卡能把它分為64K個精度單位進行處理,而8位音效卡只能處理256個精度單位,造成了較大的訊號損失,最終的取樣效果自然是無法相提並論的。
如今市面上所有的主流產品都是16位的採集卡,而並非有些無知商家所鼓吹的64位乃至128位,他們將採集卡的複音概念與取樣位數概念混淆在了一起。如今功能最為強大的採集卡系列採用的EMU10K1晶片雖然號稱可以達到32位,但是它只是建立在Direct Sound加速基礎上的一種多音訊流技術,其本質還是一塊16位的音效卡。應該說16位的取樣精度對於電腦多媒體音訊而言已經綽綽有餘了。
2.位元(如16Bits):音訊取樣的位數
數碼音訊系統是透過將聲波波形轉換成一連串的二進位制資料來再現原始聲音的,實現這個步驟使用的裝置是模/數轉換器(A/D)它以每秒上萬次的速率對聲波進行取樣,每一次取樣都記錄下了原始模擬聲波在某一時刻的狀態,稱之為樣本。將一串的樣本連線起來,就可以描述一段聲波了,把每一秒鐘所取樣的數目稱為取樣頻率或採率,單位為HZ(赫茲)。取樣頻率越高所能描述的聲波頻率就越高。
取樣頻率是指錄音裝置在一秒鐘內對聲音訊號的取樣次數,取樣頻率越高聲音的還原就越真實越自然。在當今的主流採集卡上,取樣頻率一般共分為22.05KHz、44.1KHz、48KHz三個等級,22.05 KHz只能達到FM廣播的聲音品質,44.1KHz則是理論上的CD音質界限,48KHz則更加精確一些。對於高於48KHz的取樣頻率人耳已無法辨別出來了,所以在電腦上沒有多少使用價值。
5kHz的取樣率僅能達到人們講話的聲音質量。
11kHz的取樣率是播放小段聲音的最低標準,是CD音質的四分之一。
22kHz取樣率的聲音可以達到CD音質的一半,目前大多數網站都選用這樣的取樣率。
44kHz的取樣率是標準的CD音質,可以達到很好的聽覺效果。
3.位元速率(如128Kbps):位元速率就是位元率的另一種叫法,也叫位速
位元是二進位制單位,就是位元組,8位二進位制為1位元。位速是指在一個數據流中每秒鐘能透過的資訊量。您可能看到過音訊檔案用 “128–Kbps MP3” 或 “64–Kbps WMA” 進行描述的情形。Kbps 表示 “每秒千位元組數”,因此數值越大表示資料越多:128–Kbps MP3 音訊檔案包含的資料量是 64–Kbps WMA 檔案的兩倍,並佔用兩倍的空間。(不過在這種情況下,這兩種檔案聽起來沒什麼兩樣。原因是什麼呢?有些檔案格式比其他檔案能夠更有效地利用資料,64–Kbps WMA 檔案的音質與 128–Kbps MP3 的音質相同。)需要了解的重要一點是,位速越高,資訊量越大,對這些資訊進行解碼的處理量就越大,檔案需要佔用的空間也就越多。
為專案選擇適當的位速取決於播放目標:如果您想把製作的 VCD 放在 DVD 播放器上播放,那麼影片必須是 1150 Kbps,音訊必須是 224 Kbps。典型的 206 MHz Pocket PC 支援的 MPEG 影片可達到 400 Kbps—超過這個限度播放時就會出現異常。
VBR(Variable Bitrate)動態位元率。也就是沒有固定的位元率,壓縮軟體在壓縮時根據音訊資料即時確定使用什麼位元率。這是Xing發展的演算法,他們將一首歌的複雜部分用高Bitrate編碼,簡單部分用低Bitrate編碼。主意雖然不錯,可惜Xing編碼器的VBR演算法很差,音質與CBR相去甚遠。幸運的是,Lame完美地優化了VBR演算法,使之成為MP3的最佳編碼模式。這是以質量為前提兼顧檔案大小的方式,推薦編碼模式。
ABR(Average Bitrate)平均位元率,是VBR的一種插值引數。Lame針對CBR不佳的檔案體積比和VBR生成檔案大小不定的特點獨創了這種編碼模式。ABR也被稱為“Safe VBR”,它是在指定的平均Bitrate內,以每50幀(30幀約1秒)為一段,低頻和不敏感頻率使用相對低的流量,高頻和大動態表現時使用高流量。舉例來說,當指定用192kbps ABR對一段wav檔案進行編碼時,Lame會將該檔案的85%用192kbps固定編碼,然後對剩餘15%進行動態最佳化:複雜部分用高於192kbps來編碼、簡單部分用低於192kbps來編碼。與192kbps CBR相比,192kbps ABR在檔案大小上相差不多,音質卻提高不少。ABR編碼在速度上是VBR編碼的2到3倍,在128-256kbps範圍內質量要好於CBR。可以做為VBR和CBR的一種折衷選擇。
CBR(Constant Bitrate),常數位元率,指檔案從頭到尾都是一種位速率。相對於VBR和ABR來講,它壓縮出來的檔案體積很大,但音質卻不會有明顯的提高。
對MP3來說Bitrate是最重要的因素,它用來表示每秒鐘的音訊資料佔用了多少個bit(bit per second,簡稱bps)。這個值越高,音質就越好。
心理聲學音訊壓縮
心理聲學 一詞似乎很令人費解,其實很簡單,它就是指“人腦解釋聲音的方式”。壓縮音訊的所有形式都是用功能強大的演算法將我們聽不到的音訊資訊去掉。例如,如果我扯著嗓子喊一聲,同時輕輕地踏一下腳,您就會聽到我的喊聲,但可能聽不到我踏腳的聲音。透過去掉踏腳聲,就會減少資訊量,減小檔案的大小,但聽起來卻沒有區別。
(附:心理視覺影片壓縮
心理視覺影片壓縮與和其對等的音訊壓縮相似。心理視覺模型去掉的不是我們聽不到的音訊資料,而是去掉眼睛不需要的影片資料。假設有一個在 60 秒的時間內顯示位於同一位置的一把椅子的未經壓縮的影片片段,在每幀影象中,都將重複這把椅子的同一資料。如果使用了心理視覺壓縮,就會把一幀影象中椅子的資料儲存下來,以在接下來的幀中使用。這種壓縮型別—叫做“統計資料冗餘”—是 WMV、MPEG 和其他影片格式用於壓縮影片並同時保持高質量的一種數學竅門。)
一首MP3音樂主要有這麼幾個引數:頻率,位元,位元速率,長度等。
要理解這些東西,還需要說到音樂檔案是怎麼在計算機上儲存的。請看:
讓我們來看看一個很短的例子。要把自然界的模擬聲音變成計算機儲存的數字檔案,需要進行模、數轉換。如果按CD質量儲存,所以你以44.1KHz的取樣頻率,立體聲,每個取樣值16位元的方式進行取樣。44.1KHz意味著每秒鐘有44100個取樣值從你的聲音卡(或輸入檔案)裡出來。乘以2是因為你有兩個通道。再乘以2是因為每個取樣值有兩個位元組(這是16位元的意思)。那首歌總共會佔據:
44100 (樣本值/秒) * 2(兩個通道)* 2(每樣本值兩個位元組)*60(每分鐘60秒) =10584000 (位元組)
壓縮率,位元率和質量
因為壓縮率是比較難以測量,專家們在談及壓縮的強度時使用術語位元率。位元率表示一秒的聲音資料會消耗的平均BITS的數量。這裡的通常單位是KBPS,即每秒1000 BITS.
在CD上的數字音訊訊號,位元率是1411.2KBPS。使用了MPEG-2ACC,如同CD音質的聲音質量可以達到96KBPS的位元率。
一首標準的MP3,頻率,位元,位元速率這幾個引數的值一般都是這樣的:44100 Hz,16 Bits,128 Kbps.需要宣告的是位元和位元率是不一樣的概念:位元就是每個取樣值用幾位元的二進位制程式碼表示,一般都是8位元,因為是2個通道,所以是16位元。其中位元速率就是位元率的另一種叫法。128Kbps的意思就是每秒鐘消耗128位元的儲存空間
說說立體聲吧:我們人的耳朵有兩個,當一個聲源發出聲音的時候,因為我們的兩隻耳朵分別接受到聲音,而且因為聲音傳輸的距離不同,造成給兩隻耳朵的感覺就不同,我們人就透過這二者的差別來判斷聲源的位置。如果只有一隻耳朵的話,那麼我們不能判斷聲源的位置,只能知道聲音的大小。立體聲音樂至少需要兩個通道,當然可以有很多個,來儲存不同位置的聲音資訊,我們聽起來就有一種身臨其境的感覺。如果我們聽的是單聲道音樂,給我們的感覺就是聲源始終在我們腦袋中間位置。假如你玩立體聲的射擊遊戲,你可以真實的感覺子彈是從哪裡打到你身上。
flv轉換mp3或者錄製MP3的時候,只有位元這個引數影響生成檔案的大小,所以取樣率儘量選高點吧,聲音層次感更清楚。
MP3各項引數的意義 頻率(如44100Hz),位元(如16Bits),位元速率(如128Kbps)
首先了解一下:音訊取樣
數碼音訊系統是透過將聲波波形轉換成一連串的二進位制資料來再現原始聲音的,實現這個步驟使用的裝置是模/數轉換器(A/D)它以每秒上萬次的速率對聲波進行取樣,每一次取樣都記錄下了原始模擬聲波在某一時刻的狀態,稱之為樣本。將一串的樣本連線起來,就可以描述一段聲波了,把每一秒鐘所取樣的數目稱為取樣頻率或採率,單位為HZ(赫茲)。取樣頻率越高所能描述的聲波頻率就越高。取樣率決定聲音訊率的範圍(相當於音調),可以用數字波形表示。以波形表示的頻率範圍通常被稱為頻寬。要正確理解音訊取樣可以分為取樣的位數和取樣的頻率。
1.頻率(如44100Hz):音訊取樣級別(音訊取樣頻率)
取樣位數可以理解為採集卡處理聲音的解析度。這個數值越大,解析度就越高,錄製和回放的聲音就越真實。我們首先要知道:電腦中的聲音檔案是用數字0和1來表示的。所以在電腦上錄音的本質就是把模擬聲音訊號轉換成數字訊號。反之,在播放時則是把數字訊號還原成模擬聲音訊號輸出。採集卡的位是指採集卡在採集和播放聲音檔案時所使用數字聲音訊號的二進位制位數。採集卡的位客觀地反映了數字聲音訊號對輸入聲音訊號描述的準確程度。8位代表2的8次方--256,16位則代表2的16次方--64K。比較一下,一段相同的音樂資訊,16位音效卡能把它分為64K個精度單位進行處理,而8位音效卡只能處理256個精度單位,造成了較大的訊號損失,最終的取樣效果自然是無法相提並論的。
如今市面上所有的主流產品都是16位的採集卡,而並非有些無知商家所鼓吹的64位乃至128位,他們將採集卡的複音概念與取樣位數概念混淆在了一起。如今功能最為強大的採集卡系列採用的EMU10K1晶片雖然號稱可以達到32位,但是它只是建立在Direct Sound加速基礎上的一種多音訊流技術,其本質還是一塊16位的音效卡。應該說16位的取樣精度對於電腦多媒體音訊而言已經綽綽有餘了。
2.位元(如16Bits):音訊取樣的位數
數碼音訊系統是透過將聲波波形轉換成一連串的二進位制資料來再現原始聲音的,實現這個步驟使用的裝置是模/數轉換器(A/D)它以每秒上萬次的速率對聲波進行取樣,每一次取樣都記錄下了原始模擬聲波在某一時刻的狀態,稱之為樣本。將一串的樣本連線起來,就可以描述一段聲波了,把每一秒鐘所取樣的數目稱為取樣頻率或採率,單位為HZ(赫茲)。取樣頻率越高所能描述的聲波頻率就越高。
取樣頻率是指錄音裝置在一秒鐘內對聲音訊號的取樣次數,取樣頻率越高聲音的還原就越真實越自然。在當今的主流採集卡上,取樣頻率一般共分為22.05KHz、44.1KHz、48KHz三個等級,22.05 KHz只能達到FM廣播的聲音品質,44.1KHz則是理論上的CD音質界限,48KHz則更加精確一些。對於高於48KHz的取樣頻率人耳已無法辨別出來了,所以在電腦上沒有多少使用價值。
5kHz的取樣率僅能達到人們講話的聲音質量。
11kHz的取樣率是播放小段聲音的最低標準,是CD音質的四分之一。
22kHz取樣率的聲音可以達到CD音質的一半,目前大多數網站都選用這樣的取樣率。
44kHz的取樣率是標準的CD音質,可以達到很好的聽覺效果。
3.位元速率(如128Kbps):位元速率就是位元率的另一種叫法,也叫位速
位元是二進位制單位,就是位元組,8位二進位制為1位元。位速是指在一個數據流中每秒鐘能透過的資訊量。您可能看到過音訊檔案用 “128–Kbps MP3” 或 “64–Kbps WMA” 進行描述的情形。Kbps 表示 “每秒千位元組數”,因此數值越大表示資料越多:128–Kbps MP3 音訊檔案包含的資料量是 64–Kbps WMA 檔案的兩倍,並佔用兩倍的空間。(不過在這種情況下,這兩種檔案聽起來沒什麼兩樣。原因是什麼呢?有些檔案格式比其他檔案能夠更有效地利用資料,64–Kbps WMA 檔案的音質與 128–Kbps MP3 的音質相同。)需要了解的重要一點是,位速越高,資訊量越大,對這些資訊進行解碼的處理量就越大,檔案需要佔用的空間也就越多。
為專案選擇適當的位速取決於播放目標:如果您想把製作的 VCD 放在 DVD 播放器上播放,那麼影片必須是 1150 Kbps,音訊必須是 224 Kbps。典型的 206 MHz Pocket PC 支援的 MPEG 影片可達到 400 Kbps—超過這個限度播放時就會出現異常。
VBR(Variable Bitrate)動態位元率。也就是沒有固定的位元率,壓縮軟體在壓縮時根據音訊資料即時確定使用什麼位元率。這是Xing發展的演算法,他們將一首歌的複雜部分用高Bitrate編碼,簡單部分用低Bitrate編碼。主意雖然不錯,可惜Xing編碼器的VBR演算法很差,音質與CBR相去甚遠。幸運的是,Lame完美地優化了VBR演算法,使之成為MP3的最佳編碼模式。這是以質量為前提兼顧檔案大小的方式,推薦編碼模式。
ABR(Average Bitrate)平均位元率,是VBR的一種插值引數。Lame針對CBR不佳的檔案體積比和VBR生成檔案大小不定的特點獨創了這種編碼模式。ABR也被稱為“Safe VBR”,它是在指定的平均Bitrate內,以每50幀(30幀約1秒)為一段,低頻和不敏感頻率使用相對低的流量,高頻和大動態表現時使用高流量。舉例來說,當指定用192kbps ABR對一段wav檔案進行編碼時,Lame會將該檔案的85%用192kbps固定編碼,然後對剩餘15%進行動態最佳化:複雜部分用高於192kbps來編碼、簡單部分用低於192kbps來編碼。與192kbps CBR相比,192kbps ABR在檔案大小上相差不多,音質卻提高不少。ABR編碼在速度上是VBR編碼的2到3倍,在128-256kbps範圍內質量要好於CBR。可以做為VBR和CBR的一種折衷選擇。
CBR(Constant Bitrate),常數位元率,指檔案從頭到尾都是一種位速率。相對於VBR和ABR來講,它壓縮出來的檔案體積很大,但音質卻不會有明顯的提高。
對MP3來說Bitrate是最重要的因素,它用來表示每秒鐘的音訊資料佔用了多少個bit(bit per second,簡稱bps)。這個值越高,音質就越好。
心理聲學音訊壓縮
心理聲學 一詞似乎很令人費解,其實很簡單,它就是指“人腦解釋聲音的方式”。壓縮音訊的所有形式都是用功能強大的演算法將我們聽不到的音訊資訊去掉。例如,如果我扯著嗓子喊一聲,同時輕輕地踏一下腳,您就會聽到我的喊聲,但可能聽不到我踏腳的聲音。透過去掉踏腳聲,就會減少資訊量,減小檔案的大小,但聽起來卻沒有區別。
(附:心理視覺影片壓縮
心理視覺影片壓縮與和其對等的音訊壓縮相似。心理視覺模型去掉的不是我們聽不到的音訊資料,而是去掉眼睛不需要的影片資料。假設有一個在 60 秒的時間內顯示位於同一位置的一把椅子的未經壓縮的影片片段,在每幀影象中,都將重複這把椅子的同一資料。如果使用了心理視覺壓縮,就會把一幀影象中椅子的資料儲存下來,以在接下來的幀中使用。這種壓縮型別—叫做“統計資料冗餘”—是 WMV、MPEG 和其他影片格式用於壓縮影片並同時保持高質量的一種數學竅門。)
一首MP3音樂主要有這麼幾個引數:頻率,位元,位元速率,長度等。
要理解這些東西,還需要說到音樂檔案是怎麼在計算機上儲存的。請看:
讓我們來看看一個很短的例子。要把自然界的模擬聲音變成計算機儲存的數字檔案,需要進行模、數轉換。如果按CD質量儲存,所以你以44.1KHz的取樣頻率,立體聲,每個取樣值16位元的方式進行取樣。44.1KHz意味著每秒鐘有44100個取樣值從你的聲音卡(或輸入檔案)裡出來。乘以2是因為你有兩個通道。再乘以2是因為每個取樣值有兩個位元組(這是16位元的意思)。那首歌總共會佔據:
44100 (樣本值/秒) * 2(兩個通道)* 2(每樣本值兩個位元組)*60(每分鐘60秒) =10584000 (位元組)
壓縮率,位元率和質量
因為壓縮率是比較難以測量,專家們在談及壓縮的強度時使用術語位元率。位元率表示一秒的聲音資料會消耗的平均BITS的數量。這裡的通常單位是KBPS,即每秒1000 BITS.
在CD上的數字音訊訊號,位元率是1411.2KBPS。使用了MPEG-2ACC,如同CD音質的聲音質量可以達到96KBPS的位元率。
一首標準的MP3,頻率,位元,位元速率這幾個引數的值一般都是這樣的:44100 Hz,16 Bits,128 Kbps.需要宣告的是位元和位元率是不一樣的概念:位元就是每個取樣值用幾位元的二進位制程式碼表示,一般都是8位元,因為是2個通道,所以是16位元。其中位元速率就是位元率的另一種叫法。128Kbps的意思就是每秒鐘消耗128位元的儲存空間
說說立體聲吧:我們人的耳朵有兩個,當一個聲源發出聲音的時候,因為我們的兩隻耳朵分別接受到聲音,而且因為聲音傳輸的距離不同,造成給兩隻耳朵的感覺就不同,我們人就透過這二者的差別來判斷聲源的位置。如果只有一隻耳朵的話,那麼我們不能判斷聲源的位置,只能知道聲音的大小。立體聲音樂至少需要兩個通道,當然可以有很多個,來儲存不同位置的聲音資訊,我們聽起來就有一種身臨其境的感覺。如果我們聽的是單聲道音樂,給我們的感覺就是聲源始終在我們腦袋中間位置。假如你玩立體聲的射擊遊戲,你可以真實的感覺子彈是從哪裡打到你身上。
flv轉換mp3或者錄製MP3的時候,只有位元這個引數影響生成檔案的大小,所以取樣率儘量選高點吧,聲音層次感更清楚。