因為我統計學的不是很精,所以有的時候會混用統計和隨機過程的概念,大家以理解為主……
我們舉個簡單的例子,假如樣本由2/3的1,和1/3的0構成,我們現在要透過一個固定值來代替這個樣本,讓估計值偏差絕對值的k次方最小化,也就是讓
最小
簡單求個導數就可以得到 的估計值:
k=1時,導數始終不為0,此時 時有最小值
不難看出,k越大 越接近於1/2,k越小 越接近於1。而 時,恰好 的值也是原始樣本的期望值。而k等於其他值的時候都沒有這個特點,要麼偏大要麼偏小。
事實上,因為有
我們很早就知道,如果固定值 使得隨機變數 到它的均方誤差最小,則 是 的期望值。
這可以解釋我們為什麼這麼偏愛均方誤差,因為均方誤差往往與隨機變數的期望聯絡在一起,其它次方則沒有這種聯絡。至於具體最小二乘法的模型和原理,其他回答已經介紹得很好了。
進一步拓展來說,實際上最小二乘法和最大熵原理是有聯絡的,而我們在最小二乘法建模時使用高斯分佈,也可以說是因為高斯分佈是相同噪聲功率下熵最大的分佈。所謂最大熵原理就是說,在建模的時候,引入儘可能少的資訊量,保持模型的熵儘量大。為了能說明模型為什麼不完全線性,我們引入了一個額外的隨機變數
根據條件熵的公式,這個引入的隨機變數的熵越大,就相當於剩下部分的熵越小,因此我們反過來要讓這個隨機變數的熵儘量小,也就是要減少它的方差,因此我們採用最小化
的方式就可以達到目的。
因為我統計學的不是很精,所以有的時候會混用統計和隨機過程的概念,大家以理解為主……
我們舉個簡單的例子,假如樣本由2/3的1,和1/3的0構成,我們現在要透過一個固定值來代替這個樣本,讓估計值偏差絕對值的k次方最小化,也就是讓
最小
簡單求個導數就可以得到 的估計值:
k=1時,導數始終不為0,此時 時有最小值
不難看出,k越大 越接近於1/2,k越小 越接近於1。而 時,恰好 的值也是原始樣本的期望值。而k等於其他值的時候都沒有這個特點,要麼偏大要麼偏小。
事實上,因為有
我們很早就知道,如果固定值 使得隨機變數 到它的均方誤差最小,則 是 的期望值。
這可以解釋我們為什麼這麼偏愛均方誤差,因為均方誤差往往與隨機變數的期望聯絡在一起,其它次方則沒有這種聯絡。至於具體最小二乘法的模型和原理,其他回答已經介紹得很好了。
進一步拓展來說,實際上最小二乘法和最大熵原理是有聯絡的,而我們在最小二乘法建模時使用高斯分佈,也可以說是因為高斯分佈是相同噪聲功率下熵最大的分佈。所謂最大熵原理就是說,在建模的時候,引入儘可能少的資訊量,保持模型的熵儘量大。為了能說明模型為什麼不完全線性,我們引入了一個額外的隨機變數
根據條件熵的公式,這個引入的隨機變數的熵越大,就相當於剩下部分的熵越小,因此我們反過來要讓這個隨機變數的熵儘量小,也就是要減少它的方差,因此我們採用最小化
的方式就可以達到目的。