實際上,這兩門學科(機器學習和數理統計)關心的是同一件事,即我們能從資料中學到什麼。
他們的核心都是探討如何從資料中提取人們需要的資訊或規律。
因為機器學習演算法的設計通常依賴於對資料的機率假設。如果不理解這些數學知識,你是無法get到這些演算法的精髓的,所以其重要性也不言而喻。
下面列出一些在機器學習中用到的機率和統計知識。
機率公式:
1.條件機率
2.全機率
3.貝葉斯機率
常見的機率分佈:兩點分佈,二項分佈,泊松分佈,均勻分佈,指數分佈,正態分佈。
在做機器學習之前,要看一下手中已知的樣本的標籤的分佈和各個特徵的分佈,透過觀察,各個特徵對應的分佈與標籤對應的分佈的關係,大致上就可以評估出哪個特徵跟標籤的相關性最強,哪個特徵跟標籤的相關性弱,從而篩選出相關性比較強的特徵,相關性比較弱的特徵就可以不用理會。會大大簡化演算法的計算量,少走彎路。
期望,方差和協方差都是重要的統計量。
舉個例子,算出兩個(特徵對應的分佈)分佈的協方差cov(x1,x2),如果值為1,那麼這兩個分佈為線性分佈。某個特徵1*權重 = 某個特徵2,滿足線性關係。
如果樣本集中的特徵1 和特徵2 都是線性關係,可以適當的扔掉其中一個特徵。
特徵與標籤的協方差,如果值為1,就很簡單了。
更多時候,需要評估每一個特徵跟標籤的協方差, 如果某個特徵與標籤的協方差為0,就可以扔掉這個特徵,因為該特徵是完全無關的特徵。 協方差是一個選擇特徵,或者說,評估特徵和模型相關性的指標。
統計估計的是分佈,機器學習訓練出來的是模型,模型可能包含了很多分佈。
機器學習模型的訓練與預測過程的一個核心評價指標就是模型的誤差,誤差本身就可以是機率的形式,與機率機緊密相連,對誤差的不同定義方式,就演化成了不同損失函式的定義方式。
實際上,這兩門學科(機器學習和數理統計)關心的是同一件事,即我們能從資料中學到什麼。
他們的核心都是探討如何從資料中提取人們需要的資訊或規律。
因為機器學習演算法的設計通常依賴於對資料的機率假設。如果不理解這些數學知識,你是無法get到這些演算法的精髓的,所以其重要性也不言而喻。
下面列出一些在機器學習中用到的機率和統計知識。
機率公式:
1.條件機率
2.全機率
3.貝葉斯機率
常見的機率分佈:兩點分佈,二項分佈,泊松分佈,均勻分佈,指數分佈,正態分佈。
在做機器學習之前,要看一下手中已知的樣本的標籤的分佈和各個特徵的分佈,透過觀察,各個特徵對應的分佈與標籤對應的分佈的關係,大致上就可以評估出哪個特徵跟標籤的相關性最強,哪個特徵跟標籤的相關性弱,從而篩選出相關性比較強的特徵,相關性比較弱的特徵就可以不用理會。會大大簡化演算法的計算量,少走彎路。
期望,方差和協方差都是重要的統計量。
舉個例子,算出兩個(特徵對應的分佈)分佈的協方差cov(x1,x2),如果值為1,那麼這兩個分佈為線性分佈。某個特徵1*權重 = 某個特徵2,滿足線性關係。
如果樣本集中的特徵1 和特徵2 都是線性關係,可以適當的扔掉其中一個特徵。
特徵與標籤的協方差,如果值為1,就很簡單了。
更多時候,需要評估每一個特徵跟標籤的協方差, 如果某個特徵與標籤的協方差為0,就可以扔掉這個特徵,因為該特徵是完全無關的特徵。 協方差是一個選擇特徵,或者說,評估特徵和模型相關性的指標。
統計估計的是分佈,機器學習訓練出來的是模型,模型可能包含了很多分佈。
機器學習模型的訓練與預測過程的一個核心評價指標就是模型的誤差,誤差本身就可以是機率的形式,與機率機緊密相連,對誤差的不同定義方式,就演化成了不同損失函式的定義方式。