首先我們看一下 Fisher Information 的定義:假設你觀察到 i.i.d 的資料 服從一個機率分佈,是你的目標引數(for simplicity, 這裡是個標量,且不考慮 nuissance parameter),那麼你的似然函式(likelihood)就是:為了解得Maximum Likelihood Estimate(MLE),我們要讓log likelihood的一階導數得0,然後解這個方程,得到這個log likelihood的一階導數也叫,Score function :那麼Fisher Information,用表示,的定義就是這個Score function的二階矩(second moment)。一般情況下(under specific regularity conditions)可以很容易地證明,, 從而得到:於是得到了Fisher Information的第一條數學意義:就是用來估計MLE的方程的方差。它的直觀表述就是,隨著收集的資料越來越多,這個方差由於是一個Independent sum的形式,也就變的越來越大,也就象徵著得到的資訊越來越多。而且,如果log likelihood二階可導,在一般情況下(under specific regularity conditions)可以很容易地證明:於是得到了Fisher Information的第二條數學意義:log likelihood在引數真實值處的負二階導數的期望。這個意義好像很抽象,但其實超級好懂。首先看一下一個normalized Bernoulli log likelihood長啥樣:對於這樣的一個log likelihood function,它越平而寬,就代表我們對於引數估計的能力越差,它高而窄,就代表我們對於引數估計的能力越好,也就是資訊量越大。而這個log likelihood在引數真實值處的負二階導數,就反應了這個log likelihood在頂點處的彎曲程度,彎曲程度越大,整個log likelihood的形狀就越偏向於高而窄,也就代表掌握的資訊越多。然後,在一般情況下(under specific regularity conditions),透過對score function在真實值處泰勒展開,然後應用中心極限定理,弱大數定律,依機率一致收斂,以及Slutsky定理,可以證明MLE的漸進分佈的方差是,即, 這也就是Fisher Information的第三條數學意義。不過這樣說不嚴謹,嚴格的說,應該是 , 這裡是當只觀察到一個X值時的Fisher Information,當有n個 i.i.d 觀測值時,。所以這時的直觀解釋就是,Fisher Information反映了我們對引數估計的準確度,它越大,對引數估計的準確度越高,即代表了越多的資訊。
首先我們看一下 Fisher Information 的定義:假設你觀察到 i.i.d 的資料 服從一個機率分佈,是你的目標引數(for simplicity, 這裡是個標量,且不考慮 nuissance parameter),那麼你的似然函式(likelihood)就是:為了解得Maximum Likelihood Estimate(MLE),我們要讓log likelihood的一階導數得0,然後解這個方程,得到這個log likelihood的一階導數也叫,Score function :那麼Fisher Information,用表示,的定義就是這個Score function的二階矩(second moment)。一般情況下(under specific regularity conditions)可以很容易地證明,, 從而得到:於是得到了Fisher Information的第一條數學意義:就是用來估計MLE的方程的方差。它的直觀表述就是,隨著收集的資料越來越多,這個方差由於是一個Independent sum的形式,也就變的越來越大,也就象徵著得到的資訊越來越多。而且,如果log likelihood二階可導,在一般情況下(under specific regularity conditions)可以很容易地證明:於是得到了Fisher Information的第二條數學意義:log likelihood在引數真實值處的負二階導數的期望。這個意義好像很抽象,但其實超級好懂。首先看一下一個normalized Bernoulli log likelihood長啥樣:對於這樣的一個log likelihood function,它越平而寬,就代表我們對於引數估計的能力越差,它高而窄,就代表我們對於引數估計的能力越好,也就是資訊量越大。而這個log likelihood在引數真實值處的負二階導數,就反應了這個log likelihood在頂點處的彎曲程度,彎曲程度越大,整個log likelihood的形狀就越偏向於高而窄,也就代表掌握的資訊越多。然後,在一般情況下(under specific regularity conditions),透過對score function在真實值處泰勒展開,然後應用中心極限定理,弱大數定律,依機率一致收斂,以及Slutsky定理,可以證明MLE的漸進分佈的方差是,即, 這也就是Fisher Information的第三條數學意義。不過這樣說不嚴謹,嚴格的說,應該是 , 這裡是當只觀察到一個X值時的Fisher Information,當有n個 i.i.d 觀測值時,。所以這時的直觀解釋就是,Fisher Information反映了我們對引數估計的準確度,它越大,對引數估計的準確度越高,即代表了越多的資訊。