首頁>Club>
我知道"線性"指的是"引數的線性性",但是具體用數學語言指的是什麼呢?是指β1和β0的關係是線性麼 ?《Introductory Econometrics -A Modern Approach》 Wooldridge第四版。
5
回覆列表
  • 1 # Deeplearning初學者

    線性 具體定義忘了。我覺得就是指輸入和輸出成比例,例如

    (x, y)↣z

    (x, y)*2↣z*2

    (m, n)↣k

    (x+m, y+n)↣z+k

    寫成矩陣形式就是output=W*input+B,這就是線性變換。

  • 2 # 皮皮魯的科技星球

    線性迴歸是對已有資料進行學習,學習到一種模式,這樣就可以對其他資料做預測了。

    y = β1 x + β0

    使用上式對資料建模時,線性是指,y和x之間是線性的關係,即y和x組成了一條直線,用這個直線來描述資料集中的資料。線上性迴歸建模的過程,其實是尋找一個最優的直線,來擬合所有資料。

    在對收入資料集進行建模時,我們可以對引數β0和β1取不同值來構建不同的直線,這樣就形成了一個引數家族。引數家族中有一個最佳組合,可以在統計上以最優的方式描述資料集。那麼監督學習的過程就可以被定義為:給定N個數據對,尋找最佳引數β0和β1,使模型可以更好地擬合這些資料。

    上圖以及你問題中的圖,出現了不同的直線,到底哪條直線是最佳的呢?如何衡量模型是否以最優的方式擬合數據呢?機器學習用損失函式(loss function)的來衡量這個問題。損失函式又稱成為代價函式(cost function),它計算了模型預測值y和真實值y之間的差異程度。從名字也可以看出,這個函式計算的是模型犯錯的損失或代價,損失函式越大,模型越差,越不能擬合數據。統計學家通常使用"L"來表示損失函式。

    線性迴歸的損失函式是誤差平方的求和。

    對於給定資料集,x和y的值是已知的,引數β0和β1是需要求解的。線性迴歸其實就是要求解使損失函式最小的β0和β1。

    那到底什麼時候可以使用線性迴歸呢?統計學家安斯庫姆給出了四個資料集,被稱為安斯庫姆四重奏,從這四個資料集的分佈可以看出,並不是所有的資料集都可以用一元線性迴歸來建模。現實世界中的問題往往更復雜,變數幾乎不可能非常理想化地符合線性模型的要求。因此使用線性迴歸,需要遵守下面幾個假設:

    線性迴歸是一個迴歸問題(regression)。

    要預測的變數與自變數的關係是線性的。

    各項誤差服從正太分佈,均值為0,與同方差。

    變數 的分佈要有變異性。

    多元線性迴歸中不同特徵之間應該相互獨立,避免線性相關。

    迴歸問題與分類問題

    與迴歸相對的是分類問題(classification),分類問題要預測的變數輸出集合是有限的,預測值只能是有限集合內的一個。當要預測的變數y輸出集合是無限且連續,我們稱之為迴歸。比如,天氣預報預測明天是否下雨,是一個二分類問題;預測明天的降雨量多少,就是一個迴歸問題。

    變數之間是線性關係

    線性通常是指變數之間保持等比例的關係,從圖形上來看,變數之間的形狀為直線,斜率是常數。這是一個非常強的假設,資料點的分佈呈現複雜的曲線,則不能使用線性迴歸來建模。可以看出,四重奏右上角的資料就不太適合用線性迴歸的方式進行建模。

    誤差服從均值為零的正太分佈

    前面最小二乘法求解過程已經提到了誤差的概念,誤差可以表示為“實際值-真實值”。

    可以這樣理解這個假設:線性迴歸允許預測值與真實值之間存在誤差,隨著資料量的增多,這些資料的誤差平均值為0;從圖形上來看,各個真實值可能在直線上方,也可能在直線下方,當資料足夠多時,各個資料上上下下相互抵消。如果誤差不服從均值為零的正太分佈,那麼很有可能是出現了一些異常值,資料的分佈很可能是安斯庫姆四重奏右下角的情況。

    這也是一個非常強的假設,如果要使用線性迴歸模型,那麼必須假設資料的誤差均值為零的正太分佈。

    變數x的分佈要有變異性

    線性迴歸對變數x也有要求,要有一定變化,不能像安斯庫姆四重奏右下角的資料那樣,絕大多數資料都分佈在一條豎線上。

    多元線性迴歸不同特徵之間相互獨立

    如果不同特徵不是相互獨立,那麼可能導致特徵間產生共線性,進而導致模型不準確。舉一個比較極端的例子,預測房價時使用多個特徵:房間數量,房間數量 * 2,房間數量* 0.5等,特徵之間是線性相關的,如果模型只有這些特徵,缺少其他有效特徵,雖然可以訓練出一個模型,但是模型不準確,預測性差。

  • 中秋節和大豐收的關聯?
  • win10系統遇到windows功能應用打不開該怎麼辦?