統計學合稱為“機率統計”,但顯然這兩者是有關係,但不是同一的,那麼二者的關係究竟是什麼呢?
簡單來說,機率論研究的是“是什麼”的問題,統計學研究的是‘怎麼辦“的問題。
統計學不必然用到機率論,比如用樣本均值來表徵總體某種特徵的大致水平,這個和機率就沒有關係。
但是因為機率論研究的物件是隨機現象,而統計學恰恰充滿了無處不在的隨機現象:因為要隨機抽樣。因此機率論就成為了精確刻畫統計工具的不二法門。
機率論是統計推斷的基礎,在給定資料生成過程下觀測、研究資料的性質;而統計推斷則根據觀測的資料,反向思考其資料生成過程。預測、分類、聚類、估計等,都是統計推斷的特殊形式,強調對於資料生成過程的研究。
統計和機率是方法論上的區別,一個是推理,一個是歸納。
打個比方,機率論研究的是一個白箱子,你知道這個箱子的構造(裡面有幾個紅球、幾個白球,也就是所謂的分佈函式),然後計算下一個摸出來的球是紅球的機率。而統計學面對的是一個黑箱子,你只看得到每次摸出來的是紅球還是白球,然後需要猜測這個黑箱子的內部結構,例如紅球和白球的比例是多少?(引數估計)能不能認為紅球40%,白球60%?(假設檢驗)
而機率論中的許多定理與結論,如大數定理、中心極限定理等保證了統計推斷的合理性。做統計推斷一般都需要對那個黑箱子做各種各樣的假設,這些假設都是機率模型,統計推斷實際上就是在估計這些模型的引數。
機率論是統計學的基石。
統計學是從舊時的賭博來的。當時的賭徒們通過歷史資料的記錄,逐漸總結出了描述性統計。利用這些描述性統計的資料,使得他們勝率直線上升。哪個有賺哪個穩賠,哪個波動大沒規律,這些經驗逐漸成為了知識,並在之後的各個領域裡體現了這種智慧。
賭博中的統計,就是要用以往的勝敗估計下一次成功的大小。為什麼能夠這樣做,為什麼以往的資料能對下一次資料有較為準確的估計,這是機率論要說清楚的。大數定律的三個定理就是要說明為什麼樣本均值可以估計總體均值。這個估計的準確性卻是要由統計學說的,對於各種分佈的引數估計,之後的模擬估測,雖然與機率論看似完全無關,實際上卻是由他們在支撐著統計學這個科目。這個情況對於引數統計,非引數統計,半引數統計,都是一樣的。
統計學合稱為“機率統計”,但顯然這兩者是有關係,但不是同一的,那麼二者的關係究竟是什麼呢?
簡單來說,機率論研究的是“是什麼”的問題,統計學研究的是‘怎麼辦“的問題。
統計學不必然用到機率論,比如用樣本均值來表徵總體某種特徵的大致水平,這個和機率就沒有關係。
但是因為機率論研究的物件是隨機現象,而統計學恰恰充滿了無處不在的隨機現象:因為要隨機抽樣。因此機率論就成為了精確刻畫統計工具的不二法門。
機率論是統計推斷的基礎,在給定資料生成過程下觀測、研究資料的性質;而統計推斷則根據觀測的資料,反向思考其資料生成過程。預測、分類、聚類、估計等,都是統計推斷的特殊形式,強調對於資料生成過程的研究。
統計和機率是方法論上的區別,一個是推理,一個是歸納。
打個比方,機率論研究的是一個白箱子,你知道這個箱子的構造(裡面有幾個紅球、幾個白球,也就是所謂的分佈函式),然後計算下一個摸出來的球是紅球的機率。而統計學面對的是一個黑箱子,你只看得到每次摸出來的是紅球還是白球,然後需要猜測這個黑箱子的內部結構,例如紅球和白球的比例是多少?(引數估計)能不能認為紅球40%,白球60%?(假設檢驗)
而機率論中的許多定理與結論,如大數定理、中心極限定理等保證了統計推斷的合理性。做統計推斷一般都需要對那個黑箱子做各種各樣的假設,這些假設都是機率模型,統計推斷實際上就是在估計這些模型的引數。
機率論是統計學的基石。
統計學是從舊時的賭博來的。當時的賭徒們通過歷史資料的記錄,逐漸總結出了描述性統計。利用這些描述性統計的資料,使得他們勝率直線上升。哪個有賺哪個穩賠,哪個波動大沒規律,這些經驗逐漸成為了知識,並在之後的各個領域裡體現了這種智慧。
賭博中的統計,就是要用以往的勝敗估計下一次成功的大小。為什麼能夠這樣做,為什麼以往的資料能對下一次資料有較為準確的估計,這是機率論要說清楚的。大數定律的三個定理就是要說明為什麼樣本均值可以估計總體均值。這個估計的準確性卻是要由統計學說的,對於各種分佈的引數估計,之後的模擬估測,雖然與機率論看似完全無關,實際上卻是由他們在支撐著統計學這個科目。這個情況對於引數統計,非引數統計,半引數統計,都是一樣的。