回覆列表
  • 1 # 北航秦曾昌

    1.線性迴歸的假設

    線性迴歸模型是基於輸出的結果Y是連續的、除去協變數X1,..,Xp帶來的均值系統方差後,誤差服從正態分佈這一假設上的。如果輸出變數是二元的,明顯違反了這一假設,由此我麼一般認為這樣的結論是無效的。

    實際上就算是二元的,結果也不會特別壞。雖然如果結果是二元的,條件正態的假設不再成立,但是如果假定形式裡的結果的期待值是正確地基於協變數的,比如E(Y|X1,..,Xp)是正確的,線性迴歸的引數估計是無偏的。但是我們基於結果正態的假設而計算出的標準誤(standard errors)和置信區間會因此無效。

    2.條件方差不能保持不變

    二元資料的方差是均值的函式,尤其是當均值變化時,方差也隨之變化。這違反了標準線性迴歸的假設:殘差的方差是不變的。

    3.預測值可能會超出範圍

    二元結果結果的均值等同於出現‘1’的機率。如果我們使用線性迴歸來對二元結果建模,有很大的機率我們得到的擬合迴歸將會對個別值給出超出(0,1)範圍的結果。

    4.一致性連線可能會出錯

    當結果是二元時如果出現擬合值超出(0,1)範圍的情況,實際上是一個徵兆,預示著對線性迴歸的“結果是協變數影響的附加線性組合”的假設不再正確,尤其是當我們只有一個連續的協變數時。這意味著對E(Y|X1,..,Xp) 是如何基於協變數的已建立模型不再正確。這一點的表現是模型預測的自我校準能力很弱,比如在不同的協變數值的組合中對1的預測機率會過高或過低。相反的是,在邏輯迴歸中使用的效用函式中,任何線性預測值會被轉換為有效的(0,1)的預測機率。雖然在效用規模(logit scale)上並不是所有協變數效用都是線性的,但是使用效用函式的得到的結果明顯比單單用“均值是協變數與它們各自的係數相乘的線性組合”這樣的假設更有說服力。

    總的來說,雖然會有用線性迴歸對二元結果建模並且結果不是特別差的情況,但一般來說這不是一個好的辦法。本質上這是在用錯誤的工具進行作業。

  • 中秋節和大豐收的關聯?
  • 一個普通人如何翻身?