其實問題可以等價成“單位球球面上的資料點離散程度應該如何刻畫”離散程度小的時候直接用平面近似就行了。大的時候,其實“方差”的概念已經不合適了。“方差”概念的引入,其實基於對資料的兩個假設:1.資料的偏差位置在機率上滿足正態分佈。2.每個資料點的偶然偏差正態分佈的σ是相同的。雖然實際中往往人們強行用方差仍然能得到還不錯的結果。但嚴格的來說,只有在以上兩個條件滿足的時候,方差才能表示離散程度。=============下面以一維為例做個解釋:我們測了三次某物的長度,測量結果為x1、x2、x3,但是我們深知除了這個物體本身的固有原因,溫度變化導致的熱脹冷縮、測量誤差等很多原因,均會對測量值造成影響。我們想知道如下兩個資料:1.下次測量時,得到哪個數的機率密度最大?2.那些造成測量值波動的因素,它們到底有多大?在通常情況下(滿足前面說的兩個條件),第一個問題的結果是“平均數”,第二個問題的結果是“方差”。推導如下:測量值是有固定值x0和變化值Δx相加得到的。Δx是有很多獨立的微小的影響因素疊加而成的,可以用隨機行走的機率分佈模擬。易證在平直空間中這個分佈為正態分佈g(x)=exp-((x-x0)/σ)²,由問題本身的物理背景可以基本確定三次測量中這個σ相同。由於x0和σ的具體值是不可知的,我們試圖得到一個x0"和σ"使得實際值等於它們的機率最大。那麼,也就是說,我們要使得exp-((x1-x0")/σ)² × exp-((x2-x0")/σ)² × exp-((x3-x0")/σ)² 的值最大。由於σ相同,所以也就是說問題等價於選取x0"使得(x1-x0")²+(x2-x0")²+(x3-x0")²的值最小。故x0"=(x1+x2+x3)/3 。x0"為x0的機率分佈極大值。也就是我們說的“平均數”。同時,我們也用(x1-x0")²+(x2-x0")²+(x3-x0")²來定義了殘差(乘常數項不造成影響)s≡⅓[(x1-x0")²+(x2-x0")²+(x3-x0")²]易證s同樣為σ²的機率極大值。===========我們也可以用同樣的方法得到二維的線性擬合公式——恩就是教科書上教我們的那個。同樣思想,就是找實際斜率和截距的機率最大值。===========但是球面上這就出問題了,因為球面上的隨機行走結果分佈它不!是!正!態!分!布!所以說“方差”的概念已經不存在了,我們需要根據球面隨機行走的分佈函式重新定義一個引數來作為離散度指標。============= 這也是同樣此問題不能用協方差的原因,協方差計算方法是有適用範圍的,空間不是平直的時候不能亂用。如果用協方差矩陣計算的話,計算兩組資料A和B,A為一些離散程度小的點和一些離散程度很大的點,B所有的點都離散程度適中。在本模型中由於空間非平直,用協方差計算會低估A的離散程度,而高估B的離散程度。
其實問題可以等價成“單位球球面上的資料點離散程度應該如何刻畫”離散程度小的時候直接用平面近似就行了。大的時候,其實“方差”的概念已經不合適了。“方差”概念的引入,其實基於對資料的兩個假設:1.資料的偏差位置在機率上滿足正態分佈。2.每個資料點的偶然偏差正態分佈的σ是相同的。雖然實際中往往人們強行用方差仍然能得到還不錯的結果。但嚴格的來說,只有在以上兩個條件滿足的時候,方差才能表示離散程度。=============下面以一維為例做個解釋:我們測了三次某物的長度,測量結果為x1、x2、x3,但是我們深知除了這個物體本身的固有原因,溫度變化導致的熱脹冷縮、測量誤差等很多原因,均會對測量值造成影響。我們想知道如下兩個資料:1.下次測量時,得到哪個數的機率密度最大?2.那些造成測量值波動的因素,它們到底有多大?在通常情況下(滿足前面說的兩個條件),第一個問題的結果是“平均數”,第二個問題的結果是“方差”。推導如下:測量值是有固定值x0和變化值Δx相加得到的。Δx是有很多獨立的微小的影響因素疊加而成的,可以用隨機行走的機率分佈模擬。易證在平直空間中這個分佈為正態分佈g(x)=exp-((x-x0)/σ)²,由問題本身的物理背景可以基本確定三次測量中這個σ相同。由於x0和σ的具體值是不可知的,我們試圖得到一個x0"和σ"使得實際值等於它們的機率最大。那麼,也就是說,我們要使得exp-((x1-x0")/σ)² × exp-((x2-x0")/σ)² × exp-((x3-x0")/σ)² 的值最大。由於σ相同,所以也就是說問題等價於選取x0"使得(x1-x0")²+(x2-x0")²+(x3-x0")²的值最小。故x0"=(x1+x2+x3)/3 。x0"為x0的機率分佈極大值。也就是我們說的“平均數”。同時,我們也用(x1-x0")²+(x2-x0")²+(x3-x0")²來定義了殘差(乘常數項不造成影響)s≡⅓[(x1-x0")²+(x2-x0")²+(x3-x0")²]易證s同樣為σ²的機率極大值。===========我們也可以用同樣的方法得到二維的線性擬合公式——恩就是教科書上教我們的那個。同樣思想,就是找實際斜率和截距的機率最大值。===========但是球面上這就出問題了,因為球面上的隨機行走結果分佈它不!是!正!態!分!布!所以說“方差”的概念已經不存在了,我們需要根據球面隨機行走的分佈函式重新定義一個引數來作為離散度指標。============= 這也是同樣此問題不能用協方差的原因,協方差計算方法是有適用範圍的,空間不是平直的時候不能亂用。如果用協方差矩陣計算的話,計算兩組資料A和B,A為一些離散程度小的點和一些離散程度很大的點,B所有的點都離散程度適中。在本模型中由於空間非平直,用協方差計算會低估A的離散程度,而高估B的離散程度。