雖然資料科學家的主要工作是資料,但這並不意味著數學知識是他們不需要的東西。資料科學家需要學習和理解機器學習背後的數學理論,以有效地解決商業問題。
機器學習背後的數學包含了許多理論和思想。這個想法創造了很多數學定律,這些定律為我們現在使用的機器學習做出了巨大的貢獻。當然,你可以以任何你想要的方式使用數學來解決問題,數學定律畢竟並不侷限於機器學習。
在這篇文章中,我想概述一些有趣的數學定律,可以幫助你成為一個數據科學家。
本福德定律本福德定律是一個關於真實資料集中前位數的數學定律。當我們考慮一些數字的第一位時,1到9出現的機率應該是相等的,約為11.1%。令人驚訝的是,事實並非如此。
本福德定律指出,在許多自然出現的數字集合中,前導數字(數字的第一位)出現的機率不想等。前導1比2更常見,前導2比3更常見,以此類推。
本福德定律指出,如果一組數的前導數d(∈1,…,9)與等式同時出現,則稱該數滿足本福德定律。
由這個方程,我們得到了前導數的以下分佈。
根據這個分佈,我們可以預測1作為前導位的機率比其他數高30%。該定律可以用在許多地方,例如稅務表格、選舉結果、經濟數字和會計數字上的欺詐檢測。
大數定律大數定律指出,隨著隨機過程試驗次數的增加,其結果的平均值會越來越接近期望值或理論值。
例如,擲骰子的時候。得到的可能結果是1到6,平均值是3。5。當我們擲骰子時,我們得到的數字將是隨機的(1到6)。當擲骰子的次數越多,結果越接近期望值,即3.5。這就是大數定律。
雖然它很有用,但這裡的棘手之處在於你需要進行許多實驗。大數定律與平均定律不同,平均定律是用來表達一個信念,即隨機事件的結果會在一個小樣本內“持平”。這就是我們所說的“賭徒謬誤”,我們期望期望值會出現在較小的樣本中。
齊普夫定律齊普夫定律是為定量語言學而創立的,即給定一些自然語言資料集語料庫,任何單詞的頻率都與其頻率表的排名成反比。因此,最常見的單詞出現頻率大約是第二常見單詞的兩倍,是第三常見單詞的三倍。
例如,在Spotify資料集中,我將嘗試拆分所有的單詞和標點符號來計算它們。以下是12個最常見的單詞及其使用頻率。
我們可以透過計算這些事件發生的機率來判斷齊普夫定律是否適用於這個資料集。第一個出現頻率最高的單詞或標點是' - '和32258,它的機率是4%,然後是' The ',它的機率是2%。根據定律,某些詞的機率會一直下降。當然,有一點偏差,但是機率會隨著頻率的增加而下降。