首先,的確可以使用「普通最小二乘」,也就是OLS做Y為0/1的迴歸。但是我們一般不用,為 什麼呢?因為一般我們的Y為0/1的時候,我們想得到的是Y=1的機率,而機率是不能小於0,不能大於1的,而用OLS則很容易出現小於0或者大於1的機率預測值。這是第一個原因。 第二個原因,從稍微計量一點的角度來講,OLS的關鍵假設是誤差項u與x不相關,但是當Y=0/1的時候,可以想象這個假設是不成立的。 第三個原因,不僅僅u與x相關了,而且u的方差也與x相關了 ,所以u 存在著異方差,又違背了BLUE的假設。 第四個原因,從線性投影的角度來看OLS,要求Y等向量在一個向量空間裡面,但是隻能取0/1的Y必然不可能和連續的X一樣存在一個N維的向量空間裡面。 所以如果Y只能取0/1兩個值,問題就跳出了線性模型的範圍,變成了一個非線性模型。當然由於這個模型比較簡單,仍然在「廣義線性模型」的框架以內。 此外,儘管OLS是不恰當的,但是並不是說「最小二乘」就不能用。因為「最小二乘」廣義上來說可不止包含普通最小二乘(OLS),還包括非線性最小二乘(NLS)、加權最小二乘(WLS)等。 我覺得某乎上的回答已經非常詳細了,所以在此附上鍊接(僅供參考):https://www.zhihu.com/question/23817253/answer/85072173
首先,的確可以使用「普通最小二乘」,也就是OLS做Y為0/1的迴歸。但是我們一般不用,為 什麼呢?因為一般我們的Y為0/1的時候,我們想得到的是Y=1的機率,而機率是不能小於0,不能大於1的,而用OLS則很容易出現小於0或者大於1的機率預測值。這是第一個原因。 第二個原因,從稍微計量一點的角度來講,OLS的關鍵假設是誤差項u與x不相關,但是當Y=0/1的時候,可以想象這個假設是不成立的。 第三個原因,不僅僅u與x相關了,而且u的方差也與x相關了 ,所以u 存在著異方差,又違背了BLUE的假設。 第四個原因,從線性投影的角度來看OLS,要求Y等向量在一個向量空間裡面,但是隻能取0/1的Y必然不可能和連續的X一樣存在一個N維的向量空間裡面。 所以如果Y只能取0/1兩個值,問題就跳出了線性模型的範圍,變成了一個非線性模型。當然由於這個模型比較簡單,仍然在「廣義線性模型」的框架以內。 此外,儘管OLS是不恰當的,但是並不是說「最小二乘」就不能用。因為「最小二乘」廣義上來說可不止包含普通最小二乘(OLS),還包括非線性最小二乘(NLS)、加權最小二乘(WLS)等。 我覺得某乎上的回答已經非常詳細了,所以在此附上鍊接(僅供參考):https://www.zhihu.com/question/23817253/answer/85072173