回覆列表
  • 1 # 使用者1047557101249

    用於描述資料的基本統計量主要分為三類,分別是中心趨勢統計量、散佈程度統計量和分佈形狀統計量。

    1,中心趨勢統計量

    中心趨勢統計量是指表示位置的統計量,直觀地說,給定一個屬性,它的值大部分落在何處?

    (1)均值

    均值(mean)又稱算數平均數,描述資料去指導額平均位置,數學表示式:均值 = ∑x / n;

    有時,一組資料中的每個值可以和一個權重Wi相關聯,權重反映的的是依附值的重要性或出現的頻率,這種均值稱作加權均值 = ∑xw / n;

    儘管均值是描述資料集中心趨勢的最有用的統計量,但是,它並非總是度量資料中心的最佳方法,這是因為,均值對極端值(離群點)很敏感。為了抵消少數極端值的影響,我們可以使用截尾均值,截尾均值是指丟棄極端值後的均值。

    (2)中位數

    對於傾斜(非對稱)的資料,能夠更好地描述資料中心的統計量是中位數(median),中位數是有序資料值的中間值,中位數可避免極端資料,代表這資料總體的中等情況。例如:從小到大排序,總數是奇數,取中間的數,總數是偶數,取中間兩個數的平均數。

    (3)眾數

    眾數(mode)是變數中出現頻率最大的值,通常用於對定性資料確定眾數,例如:使用者狀態(正常,欠費停機,申請停機,拆機、消號),該變數的眾數是“正常”,這種情況是正常的。

    2,表示資料離散程度的統計量

    度量資料離散程度的統計量主要是標準差和四分位極差。

    (1)標準差(或方差)

    標準差用於度量資料分佈的離散程度,低標準差意味著資料觀測趨向於靠近均值,高標準差表示資料散步在一個大的值域中。

    (2)四分位極差

    極差(range),也稱作值域,是一組資料中的最大值和最小值的差, range = Max - Min。

    百分位數(quantile)是把資料值按照從小到大的順序排列,把資料分成100份。中位數是資料的中間位置上的資料,第一個四分位數記作Q1,是指第25個百分位上的資料,第三個四分位數記作(Q3),是指第75個百分位上的資料。

    四分位極差(IQR)= Q3 - Q1 ,IQR是指第一個四分位和第三個四分位之間的距離,它給出被資料的中間一半所覆蓋的範圍,是表示資料離散程度的一個簡單度量。

  • 中秋節和大豐收的關聯?
  • 八個月寶寶八天沒有大便,怎麼辦?