雖然這篇文章可能更多的是軼事,但我覺得這篇文章分享了一個有價值的觀點。我特別不是指從蒐集來的招聘資訊中獲取的資料,因為從我的經驗來看,職位描述和實際工作之間似乎有很大的脫節。
您可能會注意到,這七個技能中的任何一個都與機器學習或深度學習無關,這不是一個錯誤。當前,對在建模前和建模後階段使用的技能有更高的要求。因此,最受推薦的七種學習技能實際上與資料分析師,軟體工程師和資料工程師的技能重疊。
我寫了一篇文章,專門介紹了為什麼不應該首先學習機器學習的原因-您可以在下面檢視:
SQLSQL是資料世界中的通用語言。無論你是資料科學家、資料工程師還是資料分析師,你都需要了解SQL。
SQL用於從資料庫中提取資料,處理資料和建立資料管道。本質上,這對於資料生命週期中幾乎每個預分析/預建模階段都很重要。
開發強大的SQL技能將使您能夠將分析,視覺化和建模提高到一個新的水平,因為您將能夠以高階方式提取和操作資料。 而且,對於使用PB級資料的公司而言,編寫高效且可擴充套件的查詢變得越來越重要。
資料視覺化如果您認為建立資料視覺化和講故事特定於資料分析師的角色,那麼請往下看。
資料視覺化只是指以視覺方式呈現的資料-它可以採用圖表的形式,但也可以採用非常規的方式進行呈現。
資料敘事使資料視覺化更上一層樓-資料敘事是指"如何"傳達見解。 可以把它想像成一本圖畫書。 一本好的圖畫書具有良好的視覺效果,但也具有將視覺效果聯絡起來的引人入勝且功能強大的敘述。
開發資料視覺化和講故事的技能至關重要,因為您始終以資料科學家的身份出售自己的想法和模型。 與其他不懂技術的人交流時,這一點尤其重要。
Python從我的交流來看,Python似乎是學習首選程式語言。這並不意味著如果你使用R,你就不能成為一名資料科學家,但這只是意味著你將在一種不同於大多數人使用的語言中工作。
學習Python語法很容易,但您應該能夠編寫高效的指令碼,並利用Python提供的大量庫和包。Python程式設計是一個應用程式的構建塊,如操作資料,構建機器學習模型,編寫DAG檔案等等…
PANDAS可以說,用Python中最重要的庫是Pandas,它是一個用於資料處理和分析的程式包。 作為資料科學家,無論您要清理資料,瀏覽資料還是處理資料,您都將一直使用此軟體包。
Pandas之所以成為如此流行的軟體包,不僅因為它具有功能性,而且因為DataFrames已成為機器學習模型的標準資料結構。
Git /版本控制Git是技術社群中使用的主要版本控制系統。
如果那沒有意義,請考慮以下示例。 在高中或大學中,如果您不得不寫一篇論文,則在進行過程中可能會儲存不同版本的論文。 例如:
Final Essay└Essay_v1└Essay_v2└Essay_final└Essay_finalfinal└Essay_OFFICIALFINAL
Git是一個功能相同的工具,只是它是分散式系統。 這意味著檔案(或儲存庫)既儲存在本地也儲存在中央伺服器中。
Git非常重要,其原因有以下幾個:
· 它允許您還原到舊版本的程式碼
· 它使您可以與其他數位資料科學家和程式設計師並行工作
· 即使您正在開發一個完全不同的專案,它也可以使您使用與其他程式碼庫相同的程式碼庫
DockerDocker是一個容器化平臺,可讓您部署和執行應用程式,例如機器學習模型。
資料科學家不僅知道如何構建模型,而且也知道如何部署模型,這一點變得越來越重要。 實際上,許多職位招聘現在需要在模型部署方面有一定經驗。
學習如何部署模型如此重要的原因是,在將模型與與其關聯的流程/產品進行實際整合之前,它不會產生任何商業價值。
AirflowAirflow是一種工作流程管理工具,可讓您自動化…良好的工作流程。 更具體地說,Airflow允許您為資料管道和機器學習管道建立自動化的工作流。
Airflow功能強大,因為它使您可以將要用於進一步分析或建模的表格進行生產化,並且它也是可用於部署機器學習模型的工具。