意見,在資料科學領域工作的數學要求是什麼?
> (image by author)
介紹與大多數相關的軟體工程領域相比,資料科學領域通常需要更多的技能。作為資料科學家,我經常被問到的最常見問題之一是
"您實際上為資料科學使用了多少數學?"
答案比大多數普通人想象的要複雜。資料科學是一個廣闊的領域,其下和內部都有許多其他學科。資料工程師是一個很好的例子,他有時可能需要使用一些線性代數,但要處理大量數字和統計測試的可能性要小得多。此外,雖然ML可能需要大量的演算法知識(大部分是統計知識),但基本的分析資料科學工作不太可能需要相同水平的統計知識。
那麼您實際上需要多少數學才能進行資料科學?資料科學中主要使用三種主要的數學型別。首先,線性代數無疑是一項偉大的技能。對於任何資料科學家而言,另一個有價值的資產是統計資料。最後要記住的重要一點是,這些數學需要在計算機內部應用。這意味著您不僅需要具有深入的數學知識,而且還需要計算機以及如何在計算機上進行數學程式設計的知識。
線性代數所有軟體工程師當然都應該熟悉線性代數。儘管其中一些要求當然來自科學和數學界,但線性代數對於軟體工程界也無疑具有不可思議的價值。線性代數是一項基本的程式設計技能,無疑會幫助有抱負的科學家學習更多有關數學和程式設計的知識。
那麼,為了進行資料科學,您應該知道多少線性代數?一個要求當然是對矩陣的知識,使用所述矩陣的基本運算以及對矩陣維數的紮實理解。確實,通常模型輸入將是一維的並且形狀相當簡單,但是瞭解更復雜的陣列無疑是有價值的技能。
統計統計資料是資料科學家應該熟悉並經常使用的另一種非常有價值的工具。正如我之前簡要討論的那樣,當然有一些Data Science作業可能很少使用統計資訊。話雖如此,資料科學的"科學"部分來自大多數資料科學家從事的統計測試。當然,這是資料科學分析方面的很大一部分。統計測試是重要的步驟,可用來證明事物對資料有效,這是值得考慮的重要事情!
此外,統計學當然在機器學習模型中也佔有一席之地。許多機器學習模型都使用統計加權來將統計保持在某些值和場景中以供學習。統計資訊是一種了不起的工具,因為統計資訊使計算機可以權衡並預測較舊的資訊。
那麼,您應該知道多少統計才能進行資料科學?無疑,一個偉大的開始就是獲得對統計公式的深刻基礎知識。任何有抱負的資料科學家都應該學習統計的希臘字母。
具有分佈知識和一尾/二尾測試。可選地,具有基本功能和微分方程(例如beta,gamma,phi)的知識,可能還包括一些過程密度和累積函式。
計算數學使用所有這些資訊要記住的最重要的事情是,這項工作被稱為資料科學家,而不是數學家。經常被低估的是紮實的程式設計技能將對工作產生重大影響。通常作為資料科學家,許多統計資訊和數學運算已被寫入完善的軟體包中。
結論總之,資料科學領域是多種多樣的。大多數資料科學家實踐許多不同的技能,甚至可能在許多不同的領域工作。儘管統計資料和線性代數是寶貴的資產,但在這一領域開展工作時不要將每一個胡蘿蔔都放在一個籃子裡,這一點很重要。另一方面,您也不需要很多隻裝有一個胡蘿蔔的籃子。技能應該多樣化,但也要經過磨練才能真正發揮作用。
因此,考慮到這一點,有抱負的資料科學家的最佳建議通常是不斷學習。每天的每個小時都有新的資訊出現,有時最有效的資訊可能就在眼前!數學技能很重要,但是資料科學家經常引用不同的依賴關係來完成工作,這已被證明是有效的。