首先說點估計。點估計就是用一個數據(data)的函式(通常稱為估計統計量,estimator)來給出一個未知引數的估計值。即使是固定的引數真值(雖然我們不知道這個值),由於資料的隨機性,不同的資料代入這個函式往往會得出不同的估計值(estimation )。所以我們往往在點估計的基礎上包裹上一個鄰域,即得到一個區間估計。那麼點估計周圍的這個鄰域的大小是怎麼確定的呢?一個最直接的答案就是:確定一個百分比,p%,使得給定任意資料集,引數的估計值(estimation)落在這個鄰域內的機率為p%。那麼,確定鄰域大小的問題就變成了確定引數估計量(estimator)的分佈的問題了。首先,如果我們假設資料服從正態分佈。那麼可以證明,統計量作為隨機變數的函式,往往會服從從正態分佈中推匯出來的一系列分佈(如t分佈,chi-square分佈和F分佈),那麼透過統計量(estimator)的分佈,我們可以很輕鬆的得到所求鄰域的大小。接下來的問題就是,在日常生活中,資料並不一定服從正態分佈的。如果資料不是正態分佈的,那麼估計統計量(estimator)很可能也不服從t分佈,chi-square分佈和F分佈這些我們已知的分佈。如果我們不知道統計量的分佈,就無法確定應該給這個點估計包裹一個多大的鄰域。於是我們退而求其次,由於在滿足一定正則條件的情況下,很多資料的分佈都會在資料量趨近於無窮的情況下趨近於正態分佈。如果資料的分佈恰好落在這個範圍內,那麼我們說,在資料量趨近於無窮的前提下,我們仍然相信統計量服從t分佈,chi-square分佈和F分佈這些我們已知的分佈。並以此為基礎得到區間估計。而中心極限定理(CLT)就是用來保證資料分佈的極限為正態分佈的定理。*更正:CLT說的是樣本均值的極限分佈。估計量一般可以表示成樣本均值的函式(e.g. OLS,GMM) 所以知道了樣本均值的極限(正態)分佈也就知道了這些估計量的極限分佈。於是我們就可以計算區間估計中的區間了最後,如果正則條件不滿足,CLT無法適用。資料分佈即使在資料量趨於無窮的情況下仍然不是正態分佈,這時候,採用傳統方法得到區間估計的辦法就行不通了。需要採用更加先進的方法(比如bootstrapping尋找區間估計;比如徹底拋棄parametric model轉用semi- non-parametric model等等)。編輯*:其實CLT不單單在找區間估計的時候用到。很多假設檢驗的問題都依賴於統計量(或者資料等)的分佈是正態分佈這一假設。所以如果假設統計量本身就是正態的,那麼當然可以以這些統計量為基礎進行假設檢驗。但是如果分佈不是正態的,那很有可能就需要CLT來幫助(至少建立在極限狀態下的正態性)證明假設檢驗(包括區間估計)的正當性:因為如果統計量不是正態的,那麼得出來的東西根本對不上號,假設檢驗也就沒啥大意義了。
首先說點估計。點估計就是用一個數據(data)的函式(通常稱為估計統計量,estimator)來給出一個未知引數的估計值。即使是固定的引數真值(雖然我們不知道這個值),由於資料的隨機性,不同的資料代入這個函式往往會得出不同的估計值(estimation )。所以我們往往在點估計的基礎上包裹上一個鄰域,即得到一個區間估計。那麼點估計周圍的這個鄰域的大小是怎麼確定的呢?一個最直接的答案就是:確定一個百分比,p%,使得給定任意資料集,引數的估計值(estimation)落在這個鄰域內的機率為p%。那麼,確定鄰域大小的問題就變成了確定引數估計量(estimator)的分佈的問題了。首先,如果我們假設資料服從正態分佈。那麼可以證明,統計量作為隨機變數的函式,往往會服從從正態分佈中推匯出來的一系列分佈(如t分佈,chi-square分佈和F分佈),那麼透過統計量(estimator)的分佈,我們可以很輕鬆的得到所求鄰域的大小。接下來的問題就是,在日常生活中,資料並不一定服從正態分佈的。如果資料不是正態分佈的,那麼估計統計量(estimator)很可能也不服從t分佈,chi-square分佈和F分佈這些我們已知的分佈。如果我們不知道統計量的分佈,就無法確定應該給這個點估計包裹一個多大的鄰域。於是我們退而求其次,由於在滿足一定正則條件的情況下,很多資料的分佈都會在資料量趨近於無窮的情況下趨近於正態分佈。如果資料的分佈恰好落在這個範圍內,那麼我們說,在資料量趨近於無窮的前提下,我們仍然相信統計量服從t分佈,chi-square分佈和F分佈這些我們已知的分佈。並以此為基礎得到區間估計。而中心極限定理(CLT)就是用來保證資料分佈的極限為正態分佈的定理。*更正:CLT說的是樣本均值的極限分佈。估計量一般可以表示成樣本均值的函式(e.g. OLS,GMM) 所以知道了樣本均值的極限(正態)分佈也就知道了這些估計量的極限分佈。於是我們就可以計算區間估計中的區間了最後,如果正則條件不滿足,CLT無法適用。資料分佈即使在資料量趨於無窮的情況下仍然不是正態分佈,這時候,採用傳統方法得到區間估計的辦法就行不通了。需要採用更加先進的方法(比如bootstrapping尋找區間估計;比如徹底拋棄parametric model轉用semi- non-parametric model等等)。編輯*:其實CLT不單單在找區間估計的時候用到。很多假設檢驗的問題都依賴於統計量(或者資料等)的分佈是正態分佈這一假設。所以如果假設統計量本身就是正態的,那麼當然可以以這些統計量為基礎進行假設檢驗。但是如果分佈不是正態的,那很有可能就需要CLT來幫助(至少建立在極限狀態下的正態性)證明假設檢驗(包括區間估計)的正當性:因為如果統計量不是正態的,那麼得出來的東西根本對不上號,假設檢驗也就沒啥大意義了。