統計學(statistics)是應用數學的一個分支,主要透過利用機率論建立數學模型,收集所觀察系統的資料,進行量化的分析、總結,並進而進行推斷和預測,為相關決策提供依據和參考。它被廣泛的應用在各門學科之上,從物理和社會科學到人文科學,甚至被用來工商業及政府的情報決策之上。
為了將統計學應用到科學,工業以及社會問題上,我們由研究母體開始。這可能是一個國家的人民,石頭中的水晶,或者是某家特定工廠所生產的商品。一個母體甚至可能由許多次同樣的觀察程式所組成;由這種資料收集所組成的母體我們稱它叫時間序列。
為了實際的理由,我們選擇研究母體的子集代替研究母體的每一筆資料,這個子集稱做樣本。以某種經驗設計實驗所蒐集的樣本叫做資料。資料是統計分析的物件,並且被用做兩種相關的用途:描述和推論。描述統計學處理有關敘述的問題:資料是否可以被有效的摘要,不論是以數學或是圖片表現,以用來代表母體的性質?基礎的數學描述包括了平均數和標準差。影象的摘要則包含了許多種的表和圖。
推論統計學被用來將資料中的資料模型化,計算它的機率並且做出對於母體的推論。這個推論可能以對/錯問題的答案所呈現(假設檢定),對於數字特徵量的估計(估計),對於未來觀察的預測,關聯性的預測(相關性),或是將關係模型化(迴歸)。其他的模型化技術包括變異數分析(ANOVA),時間序列,以及資料探勘。
相關的觀念特別值得被拿出來討論。對於資料集合的統計分析可能顯示兩個變數(母體中的兩種性質)傾向於一起變動,好像它們是相連的一樣。舉例來說,對於人收入和死亡年齡的研究期刊可能會發現窮人比起富人平均來說傾向擁有較短的生命。這兩個變數被稱做相關的。但是實際上,我們不能直接推論這兩個變數中有因果關係;參見相關性推論因果關係(邏輯謬誤)。
如果樣本足以代表母體的,那麼由樣本所做的推論和結論可以被引申到整個母體之上。最大的問題在於決定樣本是否足以代表 整個母體。統計學提供了許多方法來估計和修正樣本和蒐集資料過程中的隨機性(誤差),如同上面所提到的透過經驗所設計的實驗。參見實驗設計。
要了解隨機性或是機率必須具備基本的數學觀念。數理統計(通常又叫做統計理論)是應用數學的分支,它使用機率論來分析並且驗證統計的理論基礎。
即使統計學被正確的應用,結果對於不是專家的人來說可能會難以陳述。舉例來說,統計資料中顯著的改變可能是由樣本的隨機變數所導致,但是這個顯著性可能與大眾的直覺相悖。人們需要一些統計的技巧(或懷疑)以面對每天日常生活中透過引用統計資料所獲得的資訊。
統計學(statistics)是應用數學的一個分支,主要透過利用機率論建立數學模型,收集所觀察系統的資料,進行量化的分析、總結,並進而進行推斷和預測,為相關決策提供依據和參考。它被廣泛的應用在各門學科之上,從物理和社會科學到人文科學,甚至被用來工商業及政府的情報決策之上。
為了將統計學應用到科學,工業以及社會問題上,我們由研究母體開始。這可能是一個國家的人民,石頭中的水晶,或者是某家特定工廠所生產的商品。一個母體甚至可能由許多次同樣的觀察程式所組成;由這種資料收集所組成的母體我們稱它叫時間序列。
為了實際的理由,我們選擇研究母體的子集代替研究母體的每一筆資料,這個子集稱做樣本。以某種經驗設計實驗所蒐集的樣本叫做資料。資料是統計分析的物件,並且被用做兩種相關的用途:描述和推論。描述統計學處理有關敘述的問題:資料是否可以被有效的摘要,不論是以數學或是圖片表現,以用來代表母體的性質?基礎的數學描述包括了平均數和標準差。影象的摘要則包含了許多種的表和圖。
推論統計學被用來將資料中的資料模型化,計算它的機率並且做出對於母體的推論。這個推論可能以對/錯問題的答案所呈現(假設檢定),對於數字特徵量的估計(估計),對於未來觀察的預測,關聯性的預測(相關性),或是將關係模型化(迴歸)。其他的模型化技術包括變異數分析(ANOVA),時間序列,以及資料探勘。
相關的觀念特別值得被拿出來討論。對於資料集合的統計分析可能顯示兩個變數(母體中的兩種性質)傾向於一起變動,好像它們是相連的一樣。舉例來說,對於人收入和死亡年齡的研究期刊可能會發現窮人比起富人平均來說傾向擁有較短的生命。這兩個變數被稱做相關的。但是實際上,我們不能直接推論這兩個變數中有因果關係;參見相關性推論因果關係(邏輯謬誤)。
如果樣本足以代表母體的,那麼由樣本所做的推論和結論可以被引申到整個母體之上。最大的問題在於決定樣本是否足以代表 整個母體。統計學提供了許多方法來估計和修正樣本和蒐集資料過程中的隨機性(誤差),如同上面所提到的透過經驗所設計的實驗。參見實驗設計。
要了解隨機性或是機率必須具備基本的數學觀念。數理統計(通常又叫做統計理論)是應用數學的分支,它使用機率論來分析並且驗證統計的理論基礎。
即使統計學被正確的應用,結果對於不是專家的人來說可能會難以陳述。舉例來說,統計資料中顯著的改變可能是由樣本的隨機變數所導致,但是這個顯著性可能與大眾的直覺相悖。人們需要一些統計的技巧(或懷疑)以面對每天日常生活中透過引用統計資料所獲得的資訊。