回覆列表
  • 1 # yfxvhgf

    一個小案例告訴你為什麼要在迴歸模型中加入互動項迴歸模型是工作中非常常見的模型,它可以用來預測未來的房價、植物的高度等。迴歸模型是一種預測模型,它預測的是連續變數的結果。即給定某些因素來預測某一個與之相關的結果,例如基於戶型、位置、城市、過去的房價等,預測某個房子的價格。但是,簡單的迴歸模型並不完全滿足我們的需求,而在迴歸模型中加入互動項是一種非常常見的處理方式。它可以極大的拓展迴歸模型對變數之間的依賴的解釋。這裡舉一個例子,來自於假設我們要為一個灌木叢的高度(變數名為Height)建模,考慮的條件是土壤中細菌的數量(變數名為Bacteria)以及灌木叢所在的位置是充滿陽關,還是隻能收到部分Sunny照射(變數名為Sun)。灌木叢高度按照釐米單位計算,細菌是以每千立方厘米的土壤中包含的細菌數量計算,如果在充滿Sunny的條件下,則Sun=1,在部分光照條件下,Sun=0。那麼灌木叢高度的迴歸模型我們可以表示如下:一個簡單的迴歸模型一種根據實際資料估計的結果是(舉個例子):一個實際估算的結果現在,如果我們要檢驗一個假設,即土壤中細菌的數量在充滿Sunny和只有部分光照下是不同的。那麼加入互動項就是一個非常好的方法。一種可能性是充滿Sunny的條件下,土壤中有更多的細菌,植物一般也會可能長得更高。而在部分光照條件下,土壤中有更多的細菌,植物可能會長得更矮。另一種可能的假設是在有更多細菌的土壤中,不管關照條件如何,植物都會長得更高。但是在光照充分的條件下,這種關係可能更明顯。互動項的出現可以表明一個預測變數對一個相應變數的影響在其他預測變數有不同值的時候,是不同的。它的測試方式是將兩個預測變數相乘的項放入模型中。也就是上述迴歸模型就變成了如下形式:加入了互動項之後的迴歸模型將一個互動項放到模型中會極大的改善所有相關係數的可解釋性。例如,在這個例子中,如果沒有互動項,那麼B1就被解釋成細菌對高度的單獨的影響。但是有了互動項之後,細菌對高度的影響也與光照的情況有關係。細菌對高度的影響不再是侷限於B1,也依賴於B3和Sun。那麼細菌的影響應當表示成B1+B3×Sun。B1的含義是當Sun=0的時候,細菌的單獨的影響。在這個例子中,加入了互動項之後,我們的模型最終是:加入了迴歸向之後估算的結果在加了互動項之後,B1和B2的結果也變了。現在細菌對高度的影響變成了4.2+3.2×Sun。當光照不充分,即Sun=0的時候,細菌的影響是4.2。因此,對於光照不充分的情況下,如果一種植物的土壤中每千立方厘米的細菌含量比另一種多1000的話,那麼這個植物可能比另一個高4.2cm。同樣的,在光照充分的條件下,這個細菌的影響變成了7.4。也就是說,對於光照充分的情況下,如果一種植物的土壤中每千立方厘米的細菌含量比另一種多1000的話,那麼這個植物可能比另一個高7.4cm。由於相互項的存在,植物處於完全或部分的Sunny下,土壤中的細菌含量對植物高度的影響是不同的。另一種說法是,不同類別的光照條件,植物高度和細菌數之間迴歸線的斜率是不同的。B3表示這些斜率有多不同。在這裡,對B2的解釋要更加困難。B2是指土壤細菌含量為0的情況下,光照的影響。由於細菌含量是一個連續變數,它也不可能為0。因此,B2本身並沒有特別實際的含義。光照的影響是B2+B3×Bacteria,這也是一個連續變數,在每一種不同的細菌含量上都有不同的值。因此,對於光照本身的理解可以考慮將幾個不同的細菌含量的值放到模型中,去看看植物高度和響應變數是如何變化的。從這個案例我們可以看出,在實際中,如果我們的變數之間有關係的話,那麼加入迴歸項能更好地是模型反映變數之間的關係。

  • 中秋節和大豐收的關聯?
  • 垃圾分類走近46個城市,垃圾桶製造產業利潤暴漲,該如何應對?