不一定,首先變數提示由於共線性被剔除有兩種原因,一種是正常的,不用管,一種是不正常的,需要處理,不過總的來說無論你是否處理,它都不會進入迴歸(stata會自動忽略),要處理的都是你的模型假設。
正常的,就是說例如這樣:我們假設我們分析的群體是51~80歲的,我們想把年齡分成三組,變數1是虛擬變數代表在50~60歲間(是=1,否=0),變數2是虛擬變數代表在61~70歲間,變數3是虛擬變數代表在71~80歲間。那麼當你迴歸時加入這三個虛擬變數控制年齡的時候,因為這三個變數的和一定為1(共線性),所以系統會自動忽略其中一個,但是這個時候你不用在模型中刪除那個被忽略的變數,因為這是正常的,這代表那個變數被自動選為基準組。我們在解釋其他組的變數的係數上,也是解釋為“相對於被忽略的那個基準組,這個變數所代表的組如何影響因變數,這個組是有平均比起基準組更多還是更少的因變數“。
不正常的,就是說明明不是分組的虛擬變數,但也有共線性。比如說可能是這樣,你想看丈夫和妻子的年齡差,然後又希望控制丈夫和妻子的年齡,這時由於(年齡差=年齡相減)產生了共線性,這說明你的模型本身就設定失誤,我們只需要控制丈夫的年齡就可以達到都控制的效果。
也可能是這樣:你想看”是否退休“對因變數的影響,但是因為你的樣本比較窄,比如是”20~50“歲的樣本,導致所有人都沒有退休,”是否退休“變數對所有人都是0(沒退休),所以被忽略掉,這時就意味著你的樣本不支援做你想要的模型,此時也只得刪掉這個變量了。
不一定,首先變數提示由於共線性被剔除有兩種原因,一種是正常的,不用管,一種是不正常的,需要處理,不過總的來說無論你是否處理,它都不會進入迴歸(stata會自動忽略),要處理的都是你的模型假設。
正常的,就是說例如這樣:我們假設我們分析的群體是51~80歲的,我們想把年齡分成三組,變數1是虛擬變數代表在50~60歲間(是=1,否=0),變數2是虛擬變數代表在61~70歲間,變數3是虛擬變數代表在71~80歲間。那麼當你迴歸時加入這三個虛擬變數控制年齡的時候,因為這三個變數的和一定為1(共線性),所以系統會自動忽略其中一個,但是這個時候你不用在模型中刪除那個被忽略的變數,因為這是正常的,這代表那個變數被自動選為基準組。我們在解釋其他組的變數的係數上,也是解釋為“相對於被忽略的那個基準組,這個變數所代表的組如何影響因變數,這個組是有平均比起基準組更多還是更少的因變數“。
不正常的,就是說明明不是分組的虛擬變數,但也有共線性。比如說可能是這樣,你想看丈夫和妻子的年齡差,然後又希望控制丈夫和妻子的年齡,這時由於(年齡差=年齡相減)產生了共線性,這說明你的模型本身就設定失誤,我們只需要控制丈夫的年齡就可以達到都控制的效果。
也可能是這樣:你想看”是否退休“對因變數的影響,但是因為你的樣本比較窄,比如是”20~50“歲的樣本,導致所有人都沒有退休,”是否退休“變數對所有人都是0(沒退休),所以被忽略掉,這時就意味著你的樣本不支援做你想要的模型,此時也只得刪掉這個變量了。