一、描述性統計
描述性統計是一類統計方法的彙總,揭示了資料分佈特性。它主要包括資料的頻數分析、資料的集中趨勢分析、資料離散程度分析、資料的分佈以及一些基本的統計圖形。
1、缺失值填充:常用方法有剔除法、均值法、決策樹法。
2、正態性檢驗:很多統計方法都要求數值服從或近似服從正態分佈,所以在做資料分析之前需要進行正態性檢驗。常用方法:非引數檢驗的K-量檢驗、P-P圖、Q-Q圖、W檢驗、動差法。
二、迴歸分析
迴歸分析是應用極其廣泛的資料分析方法之一。它基於觀測資料建立變數間適當的依賴關係,以分析資料內在規律。
1. 一元線性分析
只有一個自變數X與因變數Y有關,X與Y都必須是連續型變數,因變數Y或其殘差必須服從正態分佈。
2. 多元線性迴歸分析
使用條件:分析多個自變數X與因變數Y的關係,X與Y都必須是連續型變數,因變數Y或其殘差必須服從正態分佈。
3.Logistic迴歸分析
線性迴歸模型要求因變數是連續的正態分佈變數,且自變數和因變數呈線性關係,而Logistic迴歸模型對因變數的分佈沒有要求,一般用於因變數是離散時的情況。
4. 其他迴歸方法:非線性迴歸、有序迴歸、Probit迴歸、加權迴歸等。
三、方差分析
使用條件:各樣本須是相互獨立的隨機樣本;各樣本來自正態分佈總體;各總體方差相等。
1. 單因素方差分析:一項試驗只有一個影響因素,或者存在多個影響因素時,只分析一個因素與響應變數的關係。
2. 多因素有互動方差分析:一頊實驗有多個影響因素,分析多個影響因素與響應變數的關係,同時考慮多個影響因素之間的關係
3. 多因素無互動方差分析:分析多個影響因素與響應變數的關係,但是影響因素之間沒有影響關係或忽略影響關係
4. 協方差分祈:傳統的方差分析存在明顯的弊端,無法控制分析中存在的某些隨機因素,降低了分析結果的準確度。協方差分析主要是在排除了協變數的影響後再對修正後的主效應進行方差分析,是將線性迴歸與方差分析結合起來的一種分析方法。
四、假設檢驗
1. 引數檢驗
引數檢驗是在已知總體分佈的條件下(一股要求總體服從正態分佈)對一些主要的引數(如均值、百分數、方差、相關係數等)進行的檢驗 。
2. 非引數檢驗
非引數檢驗則不考慮總體分佈是否已知,常常也不是針對總體引數,而是針對總體的某些一般性假設(如總體分佈的位罝是否相同,總體分佈是否正態)進行檢驗。
適用情況:順序型別的資料資料,這類資料的分佈形態一般是未知的。
1)雖然是連續資料,但總體分佈形態未知或者非正態;
2)總體分佈雖然正態,資料也是連續型別,但樣本容量極小,如10以下;
主要方法包括:卡方檢驗、秩和檢驗、二項檢驗、遊程檢驗、K-量檢驗等。
一、描述性統計
描述性統計是一類統計方法的彙總,揭示了資料分佈特性。它主要包括資料的頻數分析、資料的集中趨勢分析、資料離散程度分析、資料的分佈以及一些基本的統計圖形。
1、缺失值填充:常用方法有剔除法、均值法、決策樹法。
2、正態性檢驗:很多統計方法都要求數值服從或近似服從正態分佈,所以在做資料分析之前需要進行正態性檢驗。常用方法:非引數檢驗的K-量檢驗、P-P圖、Q-Q圖、W檢驗、動差法。
二、迴歸分析
迴歸分析是應用極其廣泛的資料分析方法之一。它基於觀測資料建立變數間適當的依賴關係,以分析資料內在規律。
1. 一元線性分析
只有一個自變數X與因變數Y有關,X與Y都必須是連續型變數,因變數Y或其殘差必須服從正態分佈。
2. 多元線性迴歸分析
使用條件:分析多個自變數X與因變數Y的關係,X與Y都必須是連續型變數,因變數Y或其殘差必須服從正態分佈。
3.Logistic迴歸分析
線性迴歸模型要求因變數是連續的正態分佈變數,且自變數和因變數呈線性關係,而Logistic迴歸模型對因變數的分佈沒有要求,一般用於因變數是離散時的情況。
4. 其他迴歸方法:非線性迴歸、有序迴歸、Probit迴歸、加權迴歸等。
三、方差分析
使用條件:各樣本須是相互獨立的隨機樣本;各樣本來自正態分佈總體;各總體方差相等。
1. 單因素方差分析:一項試驗只有一個影響因素,或者存在多個影響因素時,只分析一個因素與響應變數的關係。
2. 多因素有互動方差分析:一頊實驗有多個影響因素,分析多個影響因素與響應變數的關係,同時考慮多個影響因素之間的關係
3. 多因素無互動方差分析:分析多個影響因素與響應變數的關係,但是影響因素之間沒有影響關係或忽略影響關係
4. 協方差分祈:傳統的方差分析存在明顯的弊端,無法控制分析中存在的某些隨機因素,降低了分析結果的準確度。協方差分析主要是在排除了協變數的影響後再對修正後的主效應進行方差分析,是將線性迴歸與方差分析結合起來的一種分析方法。
四、假設檢驗
1. 引數檢驗
引數檢驗是在已知總體分佈的條件下(一股要求總體服從正態分佈)對一些主要的引數(如均值、百分數、方差、相關係數等)進行的檢驗 。
2. 非引數檢驗
非引數檢驗則不考慮總體分佈是否已知,常常也不是針對總體引數,而是針對總體的某些一般性假設(如總體分佈的位罝是否相同,總體分佈是否正態)進行檢驗。
適用情況:順序型別的資料資料,這類資料的分佈形態一般是未知的。
1)雖然是連續資料,但總體分佈形態未知或者非正態;
2)總體分佈雖然正態,資料也是連續型別,但樣本容量極小,如10以下;
主要方法包括:卡方檢驗、秩和檢驗、二項檢驗、遊程檢驗、K-量檢驗等。