回覆列表
  • 1 # 幽默的小怪物

    一、造成多重共線性的原因

    多重共線性問題就是說一個解釋變數的變化引起另一個解釋變數地變化。如果各個自變數x之間有很強的線性關係,就無法固定其他變量了,就找不到x和y之間真實的關係了。通俗地講共線性是指,自變數X(解釋變數)影響因變數Y(被解釋變數)的時候,多個X之間本身就存在很強的相關關係,即X之間有著比較強的替代性,因而導致共線性問題。

    二、多重共線性的檢驗

    迴歸分析時,直接檢視VIF值,如果全部小於10(嚴格是5),則說明模型沒有多重共線性問題,模型構建良好;反之若VIF大於10說明模型構建較差。也可以直接做相關分析,如果某兩個自變數X(解釋變數)的相關係數值大於0.7,也有可能出現很強的共線性問題。

    三、解決方法

    共線性問題共有以下五種解決辦法:1. 手動移除出共線性的自變數先做下相關分析,如果發現某兩個自變數X(解釋變數)的相關係數值大於0.7,則移除掉一個自變數(解釋變數),然後再做迴歸分析。但此種辦法有一個小問題,即有的時候根本就不希望把某個自變數從模型中剔除,如果有此類情況,可考慮使用逐步迴歸讓軟體自動剔除,同時更優的辦法可能是使用嶺迴歸進行分析。

    2. 逐步迴歸法讓軟體自動進行自變數的選擇剔除,逐步迴歸會將共線性的自變數自動剔除出去。此種解決辦法有個問題是,可能演算法會剔除掉本不想剔除的自變數,如果有此類情況產生,此時最好是使用嶺迴歸進行分析。

    3. 增加樣本容量增加樣本容量是解釋共線性問題的一種辦法,但在實際操作中可能並不太適合,原因是樣本量的收集需要成本時間等。

    4. 嶺迴歸上述第1和第2種解決辦法在實際研究中使用較多,但問題在於,如果實際研究中並不想剔除掉某些自變數,某些自變數很重要,不能剔除。此時可能只有嶺迴歸最為適合了。嶺迴歸是當前解決共線性問題最有效的解釋辦法,但是嶺迴歸的分析相對較為複雜,後面會提供具體例子,當然也可以參考SPSSAU官網嶺迴歸說明。

    5. 利用因子分析合併變數共線性問題的解釋辦法是,理論上可以考慮使用因子分析(或者主成分分析),利用數學變換,將資料降維提取成幾個成分,即把資訊進行濃縮,最後以濃縮後的資訊作為自變數(解釋變數)進入 模型進行分析。此種解釋辦法在理論上可行,而且有效。但實際研究中會出現一個問題,即本身研究的X1,X2,X3等,進行了因子分析(或主成分)後,變成成分1,成分2類似這樣的了,意義完全與實際研究情況不符合,這導致整個研究的思路也會變換,因而此種辦法適用於探索性研究時使用,而不適合實際驗證性研究。

    四、處理原則

    1.多重共線性是普遍存在的,輕微的多重共線性問題可不採取措施。

    2.嚴重的多重共線性問題,一般可根據經驗或透過分析迴歸結果發現。如影響係數符號,重要的解釋變數t值很低。要根據不同情況採取必要措施。

    3.如果模型僅用於預測,則只要擬合程度好,可不處理多重共線性問題,存在多重共線性的模型用於預測時,往往不影響預測結果。

    上述說明中,最終嶺迴歸是處理共線性問題最優的解釋辦法。下面以一個案例來講述嶺迴歸的具體分析處理,嶺迴歸透過引入k個單位陣,使得迴歸係數可估計;單位陣引入會導致資訊丟失,但同時可換來回歸模型的合理估計。

    五、SPSSAU中的應用

    在SPSSAU(網頁版SPSS)上,使用者可以根據以上解決方法完成分析,並且系統會針對使用者資料智慧化分析,給出分析建議及規範化分析結果。

  • 中秋節和大豐收的關聯?
  • 驍龍855和Exynos 9820版Galaxy S10系列誰效能更強?