用於描述資料的基本統計量主要分為三類,分別是中心趨勢統計量、散佈程度統計量和分佈形狀統計量。
1,中心趨勢統計量
中心趨勢統計量是指表示位置的統計量,直觀地說,給定一個屬性,它的值大部分落在何處?
(1)均值
均值(mean)又稱算數平均數,描述資料去指導額平均位置,數學表示式:均值 = ∑x / n;
有時,一組資料中的每個值可以和一個權重Wi相關聯,權重反映的的是依附值的重要性或出現的頻率,這種均值稱作加權均值 = ∑xw / n;
儘管均值是描述資料集中心趨勢的最有用的統計量,但是,它並非總是度量資料中心的最佳方法,這是因為,均值對極端值(離群點)很敏感。為了抵消少數極端值的影響,我們可以使用截尾均值,截尾均值是指丟棄極端值後的均值。
(2)中位數
對於傾斜(非對稱)的資料,能夠更好地描述資料中心的統計量是中位數(median),中位數是有序資料值的中間值,中位數可避免極端資料,代表這資料總體的中等情況。例如:從小到大排序,總數是奇數,取中間的數,總數是偶數,取中間兩個數的平均數。
(3)眾數
眾數(mode)是變數中出現頻率最大的值,通常用於對定性資料確定眾數,例如:使用者狀態(正常,欠費停機,申請停機,拆機、消號),該變數的眾數是“正常”,這種情況是正常的。
2,表示資料離散程度的統計量
度量資料離散程度的統計量主要是標準差和四分位極差。
(1)標準差(或方差)
標準差用於度量資料分佈的離散程度,低標準差意味著資料觀測趨向於靠近均值,高標準差表示資料散步在一個大的值域中。
(2)四分位極差
極差(range),也稱作值域,是一組資料中的最大值和最小值的差, range = Max - Min。
百分位數(quantile)是把資料值按照從小到大的順序排列,把資料分成100份。中位數是資料的中間位置上的資料,第一個四分位數記作Q1,是指第25個百分位上的資料,第三個四分位數記作(Q3),是指第75個百分位上的資料。
四分位極差(IQR)= Q3 - Q1 ,IQR是指第一個四分位和第三個四分位之間的距離,它給出被資料的中間一半所覆蓋的範圍,是表示資料離散程度的一個簡單度量。
用於描述資料的基本統計量主要分為三類,分別是中心趨勢統計量、散佈程度統計量和分佈形狀統計量。
1,中心趨勢統計量
中心趨勢統計量是指表示位置的統計量,直觀地說,給定一個屬性,它的值大部分落在何處?
(1)均值
均值(mean)又稱算數平均數,描述資料去指導額平均位置,數學表示式:均值 = ∑x / n;
有時,一組資料中的每個值可以和一個權重Wi相關聯,權重反映的的是依附值的重要性或出現的頻率,這種均值稱作加權均值 = ∑xw / n;
儘管均值是描述資料集中心趨勢的最有用的統計量,但是,它並非總是度量資料中心的最佳方法,這是因為,均值對極端值(離群點)很敏感。為了抵消少數極端值的影響,我們可以使用截尾均值,截尾均值是指丟棄極端值後的均值。
(2)中位數
對於傾斜(非對稱)的資料,能夠更好地描述資料中心的統計量是中位數(median),中位數是有序資料值的中間值,中位數可避免極端資料,代表這資料總體的中等情況。例如:從小到大排序,總數是奇數,取中間的數,總數是偶數,取中間兩個數的平均數。
(3)眾數
眾數(mode)是變數中出現頻率最大的值,通常用於對定性資料確定眾數,例如:使用者狀態(正常,欠費停機,申請停機,拆機、消號),該變數的眾數是“正常”,這種情況是正常的。
2,表示資料離散程度的統計量
度量資料離散程度的統計量主要是標準差和四分位極差。
(1)標準差(或方差)
標準差用於度量資料分佈的離散程度,低標準差意味著資料觀測趨向於靠近均值,高標準差表示資料散步在一個大的值域中。
(2)四分位極差
極差(range),也稱作值域,是一組資料中的最大值和最小值的差, range = Max - Min。
百分位數(quantile)是把資料值按照從小到大的順序排列,把資料分成100份。中位數是資料的中間位置上的資料,第一個四分位數記作Q1,是指第25個百分位上的資料,第三個四分位數記作(Q3),是指第75個百分位上的資料。
四分位極差(IQR)= Q3 - Q1 ,IQR是指第一個四分位和第三個四分位之間的距離,它給出被資料的中間一半所覆蓋的範圍,是表示資料離散程度的一個簡單度量。