首頁>技術>

雖然這篇文章可能更多的是軼事,但我覺得這篇文章分享了一個有價值的觀點。我特別不是指從蒐集來的招聘資訊中獲取的資料,因為從我的經驗來看,職位描述和實際工作之間似乎有很大的脫節。

您可能會注意到,這七個技能中的任何一個都與機器學習或深度學習無關,這不是一個錯誤。當前,對在建模前和建模後階段使用的技能有更高的要求。因此,最受推薦的七種學習技能實際上與資料分析師,軟體工程師和資料工程師的技能重疊。

我寫了一篇文章,專門介紹了為什麼不應該首先學習機器學習的原因-您可以在下面檢視:

SQL

SQL是資料世界中的通用語言。無論你是資料科學家、資料工程師還是資料分析師,你都需要了解SQL。

SQL用於從資料庫中提取資料,處理資料和建立資料管道。本質上,這對於資料生命週期中幾乎每個預分析/預建模階段都很重要。

開發強大的SQL技能將使您能夠將分析,視覺化和建模提高到一個新的水平,因為您將能夠以高階方式提取和操作資料。 而且,對於使用PB級資料的公司而言,編寫高效且可擴充套件的查詢變得越來越重要。

資料視覺化

如果您認為建立資料視覺化和講故事特定於資料分析師的角色,那麼請往下看。

資料視覺化只是指以視覺方式呈現的資料-它可以採用圖表的形式,但也可以採用非常規的方式進行呈現。

資料敘事使資料視覺化更上一層樓-資料敘事是指"如何"傳達見解。 可以把它想像成一本圖畫書。 一本好的圖畫書具有良好的視覺效果,但也具有將視覺效果聯絡起來的引人入勝且功能強大的敘述。

開發資料視覺化和講故事的技能至關重要,因為您始終以資料科學家的身份出售自己的想法和模型。 與其他不懂技術的人交流時,這一點尤其重要。

Python

從我的交流來看,Python似乎是學習首選程式語言。這並不意味著如果你使用R,你就不能成為一名資料科學家,但這只是意味著你將在一種不同於大多數人使用的語言中工作。

學習Python語法很容易,但您應該能夠編寫高效的指令碼,並利用Python提供的大量庫和包。Python程式設計是一個應用程式的構建塊,如操作資料,構建機器學習模型,編寫DAG檔案等等…

PANDAS

可以說,用Python中最重要的庫是Pandas,它是一個用於資料處理和分析的程式包。 作為資料科學家,無論您要清理資料,瀏覽資料還是處理資料,您都將一直使用此軟體包。

Pandas之所以成為如此流行的軟體包,不僅因為它具有功能性,而且因為DataFrames已成為機器學習模型的標準資料結構。

Git /版本控制

Git是技術社群中使用的主要版本控制系統。

如果那沒有意義,請考慮以下示例。 在高中或大學中,如果您不得不寫一篇論文,則在進行過程中可能會儲存不同版本的論文。 例如:

Final Essay└Essay_v1└Essay_v2└Essay_final└Essay_finalfinal└Essay_OFFICIALFINAL

Git是一個功能相同的工具,只是它是分散式系統。 這意味著檔案(或儲存庫)既儲存在本地也儲存在中央伺服器中。

Git非常重要,其原因有以下幾個:

· 它允許您還原到舊版本的程式碼

· 它使您可以與其他數位資料科學家和程式設計師並行工作

· 即使您正在開發一個完全不同的專案,它也可以使您使用與其他程式碼庫相同的程式碼庫

Docker

Docker是一個容器化平臺,可讓您部署和執行應用程式,例如機器學習模型。

資料科學家不僅知道如何構建模型,而且也知道如何部署模型,這一點變得越來越重要。 實際上,許多職位招聘現在需要在模型部署方面有一定經驗。

學習如何部署模型如此重要的原因是,在將模型與與其關聯的流程/產品進行實際整合之前,它不會產生任何商業價值。

Airflow

Airflow是一種工作流程管理工具,可讓您自動化…良好的工作流程。 更具體地說,Airflow允許您為資料管道和機器學習管道建立自動化的工作流。

Airflow功能強大,因為它使您可以將要用於進一步分析或建模的表格進行生產化,並且它也是可用於部署機器學習模型的工具。

23
最新評論
  • BSA-TRITC(10mg/ml) TRITC-BSA 牛血清白蛋白改性標記羅丹明
  • 企業級容器雲平臺的落地與實施