(一)
1906年,偉大的科學家兼噁心的人種改良倡導者高爾頓(Francis Galton)參加了年度西英格蘭家畜展,即興做了個數學實驗。
在集會上閒逛的他碰到了一個猜重量競賽。人們猜測一隻的公牛的重量,猜的最準的人將獲得大獎。
高爾頓曾公開鄙視過普通大眾的愚笨。他相信只有專業人士才能做出準確的估測。787位猜測者中根本沒幾個專業人士。為了體現群眾的無知,他算出了所有猜測的平均數(而不是當時統計學家常用的中位數):1197磅。得知實際重量後他嚇了一跳:1198磅。
在如今的世界裡,我們只能見到平均數的身影:紐約4月均溫為52華氏度;庫裡場均拿到30分……只有在某些統計裡(美國家庭年收入中位數為51939美金)中位數才會露下頭角。
那麼,中位數是如何消失的?平均數又是如何成為了當今世界最流行的量數?
(二)
俗稱的平均數(average)在數學上的其實是“算數平均數”(arithmetic mean),意為所有資料之和除以資料的個數。算數平均數中的“平均數”(mean)一詞源自拉丁語的“中間”(medianus)。Mean這一概念最初由希臘數學家畢達哥拉斯提出。
畢達哥拉斯時代的mean並不具有表徵作用,它指的只是三個數字中間的那個數字,那個數字必需與兩頭的數字呈“相等的關係”。這三個數字可以是等距(如2,4,6),也可以是等比(如1,10,100)。
花了十年時間探尋average和mean起源的統計學家Churchill Eisenhart表示,與現代人依賴於大量資料進行計算不同,早期科學測量非常不準,科學家們需要藉助理論來選出多個數據中最好的一個。
正是藉助mean這一理論的力量,古希臘天文學家托勒密從極少數的觀測中,選擇出了31’20作為月球的角直徑。如今我們知道根據所在地點的不同,月球的角直徑為29’20到34’6不等。
在英語中,average一詞在1500年左右開始出現,指代船隻或船上貨物受損所帶來的經濟損失。如果因為船隻受損,船員們必需扔掉一些貨物來減輕重量,那投資者就會用arithmetic mean的方式來計算出總體經濟損失。漸漸地,這兩個概念融合在了一起,稱為了我們通常所說的平均數。
多年之後,科學家才會開始使用一種集中量數來表徵一組資料。但首先站上歷史舞臺的,不是平均數,也不是中位數,而是中列數。
(三)
科學工具往往是為了解決某些學科內特定問題而創造出來的。在集中量數的尋找過程中,人們希望解決的問題是為導航而進行的地理測量。
11世紀波斯知識界巨匠比魯尼是集中量數已知最早的使用者之一。他嘗試測量了古城伽茲尼的經度。那個時代的人們在拿到一組測量資料之後,會去掉兩頭之間的資料,取最大值和最小值中間的算術平均數。我們今天把這個數稱為中列數(midrange)。
Eisenhart發現,17和18世紀時中列數依然盛行。牛頓和其它Nautilus為了計算地理位置都使用過中列數。但近幾百年來,在這被平均數佔領的世界中,中列數已經下落不明。
(四)
19世紀早期,算術平均數已經成為了一種常用的集中量數。那個時代最傑出(也最暴躁)的數學家高斯在1809年寫道:
如果要在同一情況下用同種方式,從幾次直接觀測中選出一個數,那這些數的算術平均數便是最接近真值的數。習慣上,這假設已經已經被當成一個公理。
史書上並沒有明確的記載。Eisenhart發現,算術平均數可能在地理大發現時代被探索磁偏角(磁北方向與正北方向之間的夾角)數學家們首次採用。
直到16世紀後期,大部分科學家都在使用某種特定的演算法來取測量中的最佳值。但在1580年,William Borough用了一種新演算法,把8個數據“結合在了一起”,宣稱磁偏角在11°15’至11°20’之間。雖沒有明確記載,但他可能用了算術平均數。
1635年時,英國天文學家Henry Gellibrand稱為了已知最早使用平均數作為集中量數的人。一天早上,他測出磁偏角為11°,當天下午則測出11°32’。然後他寫道:
“如果我們取算術平均數,我們或許能確定,正確的測量為11°16’。”
這可能便是人類在使用平均數來估測真值的路上走出的第一步。
(五)
在數學界,中位數幾乎是與平均數在同一時間出現。1599年,數學家Edward Wrights首次在記錄中推薦了中位數。
“許多支箭射向一個標記,標記被移走,想找出標記原來所在位置的人,或許能想到這樣一種方法。他應該找到箭頭最集中的地方:在那麼多次觀測中,最中央的地方離真值最近。”
19世紀時,中位數仍是資料分析中不可或缺的一部分。在較小的資料集中比較容易計算出中位數。而且那個時代的人認為中位數比平均數更具普遍性。
(六)
然而由於平均數獨特的統計學性質以及與正態分佈的關係,中位數自始至終都被平均數在人氣上所壓制。
當資料呈正態分佈,平均數往往處在鍾型曲線的最高點,而絕大部分資料都會處在中位數的旁邊。透過標準差,我們還能計算出距離平均數某段距離內資料的個數。
標準差,即資料內數值與平均數之間距離的平方的平均數的平方根,讓平均數在分析實驗資料和統計推斷方面具有突出的價值。沒有此類特性的中位數漸漸在科學和統計用上失去了光芒。
計算機的出現也讓平均數變得更加普及。編寫計算平均數的電腦程式要比編寫中位數的程式容易得多。以至於在Excel中,計算某些資料的中位數都要多下一番功夫。漸漸地,平均數成為了最被人熟知,但不一定是最好的代表值。
因為平均數容易受到極端值的影響,所以很多情況下,中位數才是幫助找到分佈中心的最好的數值。許多分析師相信,不分黑白地使用平均數損害了我們對定量資訊的理解。
回想一下最近讀到過的房屋均價、人均收入等資料,你就能發現,中位數才是最能反映普遍性的代表值。最富有的1%能極大地改變平均數所處的位置。正因如此,美華人口普查局決定使用中位數來衡量美國家庭年收入。
中位數同時也很難受到髒資料(dirty data)的影響。隨著統計學家需要應對的網際網路資料越來越多,當工作人員遇到不準確的資料,或者是打字時多加了一個零,中位數便顯現出了自己的優越性。
(七)
隨著資料收集和分析在我們的日常生活中的作用不斷凸顯,我們必需重新審視用來代表這些數字的集中量數。在一個理想的世界裡,分析師會同時使用平均數、中位數和眾數,配以影象來展現資料。
但我們生活在精力有限、時間倉促的社會里。如果只能選擇一個數字,我們應該選擇中位數。
中位數還是平均數之間的抉擇有著重要的意義。選擇了平均數,心理學家容易做出錯誤的診斷,金融家可能誤估市場的發展。平均數已經統治了人類世界數百個春秋,或許是時候讓我們做出一些改變了。
(一)
1906年,偉大的科學家兼噁心的人種改良倡導者高爾頓(Francis Galton)參加了年度西英格蘭家畜展,即興做了個數學實驗。
在集會上閒逛的他碰到了一個猜重量競賽。人們猜測一隻的公牛的重量,猜的最準的人將獲得大獎。
高爾頓曾公開鄙視過普通大眾的愚笨。他相信只有專業人士才能做出準確的估測。787位猜測者中根本沒幾個專業人士。為了體現群眾的無知,他算出了所有猜測的平均數(而不是當時統計學家常用的中位數):1197磅。得知實際重量後他嚇了一跳:1198磅。
在如今的世界裡,我們只能見到平均數的身影:紐約4月均溫為52華氏度;庫裡場均拿到30分……只有在某些統計裡(美國家庭年收入中位數為51939美金)中位數才會露下頭角。
那麼,中位數是如何消失的?平均數又是如何成為了當今世界最流行的量數?
(二)
俗稱的平均數(average)在數學上的其實是“算數平均數”(arithmetic mean),意為所有資料之和除以資料的個數。算數平均數中的“平均數”(mean)一詞源自拉丁語的“中間”(medianus)。Mean這一概念最初由希臘數學家畢達哥拉斯提出。
畢達哥拉斯時代的mean並不具有表徵作用,它指的只是三個數字中間的那個數字,那個數字必需與兩頭的數字呈“相等的關係”。這三個數字可以是等距(如2,4,6),也可以是等比(如1,10,100)。
花了十年時間探尋average和mean起源的統計學家Churchill Eisenhart表示,與現代人依賴於大量資料進行計算不同,早期科學測量非常不準,科學家們需要藉助理論來選出多個數據中最好的一個。
正是藉助mean這一理論的力量,古希臘天文學家托勒密從極少數的觀測中,選擇出了31’20作為月球的角直徑。如今我們知道根據所在地點的不同,月球的角直徑為29’20到34’6不等。
在英語中,average一詞在1500年左右開始出現,指代船隻或船上貨物受損所帶來的經濟損失。如果因為船隻受損,船員們必需扔掉一些貨物來減輕重量,那投資者就會用arithmetic mean的方式來計算出總體經濟損失。漸漸地,這兩個概念融合在了一起,稱為了我們通常所說的平均數。
多年之後,科學家才會開始使用一種集中量數來表徵一組資料。但首先站上歷史舞臺的,不是平均數,也不是中位數,而是中列數。
(三)
科學工具往往是為了解決某些學科內特定問題而創造出來的。在集中量數的尋找過程中,人們希望解決的問題是為導航而進行的地理測量。
11世紀波斯知識界巨匠比魯尼是集中量數已知最早的使用者之一。他嘗試測量了古城伽茲尼的經度。那個時代的人們在拿到一組測量資料之後,會去掉兩頭之間的資料,取最大值和最小值中間的算術平均數。我們今天把這個數稱為中列數(midrange)。
Eisenhart發現,17和18世紀時中列數依然盛行。牛頓和其它Nautilus為了計算地理位置都使用過中列數。但近幾百年來,在這被平均數佔領的世界中,中列數已經下落不明。
(四)
19世紀早期,算術平均數已經成為了一種常用的集中量數。那個時代最傑出(也最暴躁)的數學家高斯在1809年寫道:
如果要在同一情況下用同種方式,從幾次直接觀測中選出一個數,那這些數的算術平均數便是最接近真值的數。習慣上,這假設已經已經被當成一個公理。
史書上並沒有明確的記載。Eisenhart發現,算術平均數可能在地理大發現時代被探索磁偏角(磁北方向與正北方向之間的夾角)數學家們首次採用。
直到16世紀後期,大部分科學家都在使用某種特定的演算法來取測量中的最佳值。但在1580年,William Borough用了一種新演算法,把8個數據“結合在了一起”,宣稱磁偏角在11°15’至11°20’之間。雖沒有明確記載,但他可能用了算術平均數。
1635年時,英國天文學家Henry Gellibrand稱為了已知最早使用平均數作為集中量數的人。一天早上,他測出磁偏角為11°,當天下午則測出11°32’。然後他寫道:
“如果我們取算術平均數,我們或許能確定,正確的測量為11°16’。”
這可能便是人類在使用平均數來估測真值的路上走出的第一步。
(五)
在數學界,中位數幾乎是與平均數在同一時間出現。1599年,數學家Edward Wrights首次在記錄中推薦了中位數。
“許多支箭射向一個標記,標記被移走,想找出標記原來所在位置的人,或許能想到這樣一種方法。他應該找到箭頭最集中的地方:在那麼多次觀測中,最中央的地方離真值最近。”
19世紀時,中位數仍是資料分析中不可或缺的一部分。在較小的資料集中比較容易計算出中位數。而且那個時代的人認為中位數比平均數更具普遍性。
(六)
然而由於平均數獨特的統計學性質以及與正態分佈的關係,中位數自始至終都被平均數在人氣上所壓制。
當資料呈正態分佈,平均數往往處在鍾型曲線的最高點,而絕大部分資料都會處在中位數的旁邊。透過標準差,我們還能計算出距離平均數某段距離內資料的個數。
標準差,即資料內數值與平均數之間距離的平方的平均數的平方根,讓平均數在分析實驗資料和統計推斷方面具有突出的價值。沒有此類特性的中位數漸漸在科學和統計用上失去了光芒。
計算機的出現也讓平均數變得更加普及。編寫計算平均數的電腦程式要比編寫中位數的程式容易得多。以至於在Excel中,計算某些資料的中位數都要多下一番功夫。漸漸地,平均數成為了最被人熟知,但不一定是最好的代表值。
因為平均數容易受到極端值的影響,所以很多情況下,中位數才是幫助找到分佈中心的最好的數值。許多分析師相信,不分黑白地使用平均數損害了我們對定量資訊的理解。
回想一下最近讀到過的房屋均價、人均收入等資料,你就能發現,中位數才是最能反映普遍性的代表值。最富有的1%能極大地改變平均數所處的位置。正因如此,美華人口普查局決定使用中位數來衡量美國家庭年收入。
中位數同時也很難受到髒資料(dirty data)的影響。隨著統計學家需要應對的網際網路資料越來越多,當工作人員遇到不準確的資料,或者是打字時多加了一個零,中位數便顯現出了自己的優越性。
(七)
隨著資料收集和分析在我們的日常生活中的作用不斷凸顯,我們必需重新審視用來代表這些數字的集中量數。在一個理想的世界裡,分析師會同時使用平均數、中位數和眾數,配以影象來展現資料。
但我們生活在精力有限、時間倉促的社會里。如果只能選擇一個數字,我們應該選擇中位數。
中位數還是平均數之間的抉擇有著重要的意義。選擇了平均數,心理學家容易做出錯誤的診斷,金融家可能誤估市場的發展。平均數已經統治了人類世界數百個春秋,或許是時候讓我們做出一些改變了。