一元線性迴歸,顧名思義,僅有一個自變數的迴歸模型,研究的是一個因素對結果的影響,可以用於預測,也經常被稱之為簡單線性迴歸分析。它的模型表示式為:
Y=a+bX+e
迴歸的過程就是要確定截距a和迴歸係數b的具體值,當然前提條件是模型具備統計學意義。
看案例:
案例資料很好理解,是常見的銷售資料,反映的是某公司太陽鏡一年12個月的具體銷售情況。試分析當廣告費用為15萬元時,預測當月的銷售量值。
幾乎所有的迴歸分析問題,首先都從一個散點圖開始,散點圖能夠快速而且直觀的看到自變數和應變數之間是否包含線性關係,如果圖形上看不出明顯線性關係的話,後續的分析效果也不會太好。
散點圖選單步驟:圖形→舊對話方塊→散點圖→簡單算點圖,自變數廣告費用用作X軸,銷售量用作Y軸。
由散點圖可以看出,增加廣告投入銷售量隨之上升,一個正相關線性關係,圖示的作用在於讓我們對預測銷售量充滿信心,接下來開始一元線性迴歸。
預設勾選迴歸係數的【估算值】,要求SPSS軟體為我們輸出迴歸係數,也就是模型中的引數b,同時預設勾選【模型模擬】,要求軟體幫助我們建議迴歸模型是否具有統計學意義。
以上這兩個引數是線性迴歸分析必選設定,不能忽略不計。在此基礎上,我們可以根據實際需要選擇其他引數。
本案例勾選【德賓沃森】,要求就模型殘差進行Durbin Watson檢驗,用於判斷殘差是否獨立,作為一個基礎條件來判斷資料是否適合做線性迴歸。
上半部分有些複雜,允許我們定製殘差的圖形,作為入門理解,此處建議直接勾選底部【直方圖】和【正態機率圖】,要求軟體輸出標準化殘差圖,同樣用於判斷資料是否適合進行線性迴歸。
這裡建議接受軟體預設選項即可。
1、模型摘要表
第三列R方,線上性迴歸中也稱為判定係數,用於判定線性方程擬合優度的重要指標,體現了迴歸模型解釋因變數變異的能力,通常認為R方需達到60%,最好是80%以上,當然是接近1更好。
本例R方=0.93,初步判斷模型擬合效果良好。
2、方差分析表
剛才我們建立的迴歸模型是不是有統計意義,增加廣告費用可銷售量這樣的線性關係是否顯著,方差分析表可以回答這些問題。
直接讀取最後一列,顯著性值=0.000<0.01<0.05,表明由自變數“廣告費用”和因變數“銷售量”建立的線性關係迴歸模型具有極顯著的統計學意義。
3、迴歸係數表
這是有關此處建模的最直接結果,讀取未標準化係數,我們可以輕鬆寫出模型表示式,如下:
Y=76.407+7.662X
關鍵的是,自變數廣告費用的迴歸係數透過檢驗,t檢驗原假設迴歸係數沒有意義,由最後一列迴歸係數顯著性值=0.000<0.01<0.05,表明迴歸係數b存在,有統計學意義,廣告費用與銷售量之間是正比關係,而且極顯著。
OK,現在我們有了迴歸模型表示式在手裡,心裡總會油然沉甸甸的,因為就連小學生都知道,只要把廣告費用的具體值帶入迴歸方程式中,就可以輕鬆計算出對應的銷售量資料。
不急,在開始預測前還有一項關鍵操作,我們需要檢驗資料是否可以做迴歸分析,它對資料的要求是苛刻的,有必要就殘差進行分析。
1、殘差正態性檢驗
從標準化殘差直方圖來看,呈一個倒扣的鐘形,左右兩側不完全對稱,有一定瑕疵;從標準化殘差的P-P圖來看,散點並沒有全部靠近斜線,並不完美,綜合而言,殘差正態性結果不是最好的,當然在現實分析當中,理想狀態的正態並不多見,接近或近似即可考慮接受。
2、模型殘差獨立性檢驗
採用Durbin Watson檢驗來判斷,回過頭來再看模型摘要表。
DW=1.464,查詢 Durbin Watson table 可以發現本例DW值恰好出在無自相關性的值域之中,認定殘差獨立,透過檢驗。
實際上關於迴歸模型的適應性檢驗還有其他專案,比如異常點、共線性等檢驗專案,本例暫不展開,有興趣的讀者可以自行學習。
透過前面的一系列分析和論證,我們現在已經得到迴歸模型的方程式:Y=76.407+7.662X,
我們的預測任務是當廣告投入達15萬元時,太陽鏡的銷售量,具體計算:Y=76.407+7.662*15=191.337,
至此,建立了廣告和銷售量之間的線性迴歸模型,並且實施了預測,那麼模型的準確性到底如何呢,有待最終實際銷售比對分析。本例結束
一元線性迴歸,顧名思義,僅有一個自變數的迴歸模型,研究的是一個因素對結果的影響,可以用於預測,也經常被稱之為簡單線性迴歸分析。它的模型表示式為:
Y=a+bX+e
迴歸的過程就是要確定截距a和迴歸係數b的具體值,當然前提條件是模型具備統計學意義。
看案例:
案例資料很好理解,是常見的銷售資料,反映的是某公司太陽鏡一年12個月的具體銷售情況。試分析當廣告費用為15萬元時,預測當月的銷售量值。
幾乎所有的迴歸分析問題,首先都從一個散點圖開始,散點圖能夠快速而且直觀的看到自變數和應變數之間是否包含線性關係,如果圖形上看不出明顯線性關係的話,後續的分析效果也不會太好。
散點圖選單步驟:圖形→舊對話方塊→散點圖→簡單算點圖,自變數廣告費用用作X軸,銷售量用作Y軸。
由散點圖可以看出,增加廣告投入銷售量隨之上升,一個正相關線性關係,圖示的作用在於讓我們對預測銷售量充滿信心,接下來開始一元線性迴歸。
預設勾選迴歸係數的【估算值】,要求SPSS軟體為我們輸出迴歸係數,也就是模型中的引數b,同時預設勾選【模型模擬】,要求軟體幫助我們建議迴歸模型是否具有統計學意義。
以上這兩個引數是線性迴歸分析必選設定,不能忽略不計。在此基礎上,我們可以根據實際需要選擇其他引數。
本案例勾選【德賓沃森】,要求就模型殘差進行Durbin Watson檢驗,用於判斷殘差是否獨立,作為一個基礎條件來判斷資料是否適合做線性迴歸。
上半部分有些複雜,允許我們定製殘差的圖形,作為入門理解,此處建議直接勾選底部【直方圖】和【正態機率圖】,要求軟體輸出標準化殘差圖,同樣用於判斷資料是否適合進行線性迴歸。
這裡建議接受軟體預設選項即可。
1、模型摘要表
第三列R方,線上性迴歸中也稱為判定係數,用於判定線性方程擬合優度的重要指標,體現了迴歸模型解釋因變數變異的能力,通常認為R方需達到60%,最好是80%以上,當然是接近1更好。
本例R方=0.93,初步判斷模型擬合效果良好。
2、方差分析表
剛才我們建立的迴歸模型是不是有統計意義,增加廣告費用可銷售量這樣的線性關係是否顯著,方差分析表可以回答這些問題。
直接讀取最後一列,顯著性值=0.000<0.01<0.05,表明由自變數“廣告費用”和因變數“銷售量”建立的線性關係迴歸模型具有極顯著的統計學意義。
3、迴歸係數表
這是有關此處建模的最直接結果,讀取未標準化係數,我們可以輕鬆寫出模型表示式,如下:
Y=76.407+7.662X
關鍵的是,自變數廣告費用的迴歸係數透過檢驗,t檢驗原假設迴歸係數沒有意義,由最後一列迴歸係數顯著性值=0.000<0.01<0.05,表明迴歸係數b存在,有統計學意義,廣告費用與銷售量之間是正比關係,而且極顯著。
OK,現在我們有了迴歸模型表示式在手裡,心裡總會油然沉甸甸的,因為就連小學生都知道,只要把廣告費用的具體值帶入迴歸方程式中,就可以輕鬆計算出對應的銷售量資料。
不急,在開始預測前還有一項關鍵操作,我們需要檢驗資料是否可以做迴歸分析,它對資料的要求是苛刻的,有必要就殘差進行分析。
1、殘差正態性檢驗
從標準化殘差直方圖來看,呈一個倒扣的鐘形,左右兩側不完全對稱,有一定瑕疵;從標準化殘差的P-P圖來看,散點並沒有全部靠近斜線,並不完美,綜合而言,殘差正態性結果不是最好的,當然在現實分析當中,理想狀態的正態並不多見,接近或近似即可考慮接受。
2、模型殘差獨立性檢驗
採用Durbin Watson檢驗來判斷,回過頭來再看模型摘要表。
DW=1.464,查詢 Durbin Watson table 可以發現本例DW值恰好出在無自相關性的值域之中,認定殘差獨立,透過檢驗。
實際上關於迴歸模型的適應性檢驗還有其他專案,比如異常點、共線性等檢驗專案,本例暫不展開,有興趣的讀者可以自行學習。
透過前面的一系列分析和論證,我們現在已經得到迴歸模型的方程式:Y=76.407+7.662X,
我們的預測任務是當廣告投入達15萬元時,太陽鏡的銷售量,具體計算:Y=76.407+7.662*15=191.337,
至此,建立了廣告和銷售量之間的線性迴歸模型,並且實施了預測,那麼模型的準確性到底如何呢,有待最終實際銷售比對分析。本例結束