首頁>技術>

入門嘗試在複雜領域中提供結構和參考點

> Photo by Shahadat Rahman on Unsplash

1.介紹

資料是21世紀的新石油-資訊時代。

這種表述概括了這樣一個事實,即從資料中提取洞察力對於大多數企業而言已變得至關重要。這種趨勢是資料科學快速增長的根本驅動力。

但是,在該領域中應用的各個學科和術語仍然存在很多不確定性。處理與資料科學相關的問題可能會令人生畏,尤其是對於非技術主管而言。這篇簡短的文章試圖闡明資料科學領域及其學科,並提供一些結構和參考點。

2.資料科學領域

資料科學是計算機科學的一部分[1]。

它包括以下學科:i)分析,ii)統計和iii)機器學習。

> The Data Science Landscape — Source: Own Illustration

2.1。分析工具

Analytics(分析)透過簡單的資料表示,操作,計算或視覺化從資料中產生見解。在資料科學的背景下,它有時也稱為探索性資料分析。它經常用於使您熟悉主題並獲得一些初步提示以進行進一步分析的目的。為此,分析通常用於為資料科學專案提出適當的問題。

分析的侷限性在於它不一定為因果關係提供任何確鑿的證據。而且,分析過程通常是人工執行的手動且耗時的過程,自動化的機會有限。在當今的商業世界中,即使更復雜的分析學科可以提供更大的價值,例如分析價值自動扶梯中列出的那些,許多公司也不會超出描述性分析的範圍。

2.2。統計

在許多情況下,分析可能足以解決給定的問題。在其他情況下,此問題更為複雜,需要採用更復雜的方法來提供答案,尤其是在不確定情況下要做出重大決策的情況下。這是統計開始起作用的時候。統計學提供了一種方法論方法,可以以一定的置信度來回答分析師提出的問題。

分析師可以幫助您解決問題,而統計學家則可以為您帶來很好的答案。統計人員提出了嚴謹的要求。

有時,簡單的描述性統計資料足以提供必要的見解。然而,在其他情況下,需要更復雜的推論統計資訊(例如迴歸分析)來揭示某種現象的因果關係[2]。統計資料的侷限性在於,傳統上它是使用SPSS和SAS等軟體包進行的,這需要統計學家或受過培訓的專業人員針對特定問題進行不同的計算。自動化程度相當有限。

2.3。機器學習

人工智慧是指機器可以執行通常需要人類智慧的任務的廣泛思想,例如視覺感知,語音識別,決策和語言之間的翻譯。在資料科學的背景下,機器學習可以被視為與決策有關的人工智慧領域。實際上,機器學習最基本的形式就是大規模決策。機器學習是計算機演算法的研究領域,計算機演算法允許計算機程式識別並從資料中提取模式。因此,機器學習演算法的一個共同目的是對資料進行概括和學習,以執行某些任務[3]。

在傳統程式設計中,將輸入資料應用於模型和計算機,以實現所需的輸出。在機器學習中,將演算法應用於輸入和輸出資料,以識別最合適的模型。因此,機器學習可以為傳統程式設計提供補充,因為它可以提供一種有用的模型來解釋現象。

Traditional Programming vs. Machine Learning — Source: Own illustration adapted from Prince Barpaga

2.4。機器學習與資料探勘

機器學習和資料探勘這兩個術語緊密相關,並且經常互換使用。資料探勘是一個早於機器學習當前領域的概念。資料探勘的想法(在學術背景下也稱為資料庫知識發現(KDD))在1980年代末和1990年代初出現時,當時就需要分析大型資料集[3]。本質上,資料探勘是指一種利用機器學習演算法從資料中提取見解的結構化方法。主要區別在於,資料探勘是一個相當人工的過程,需要人工干預和決策,而機器學習(除了初始設定和微調之外)在很大程度上獨立執行[4]。

2.5。組織機器學習世界

機器學習的世界非常複雜,一開始很難掌握。監督程度以及ML問題的型別被認為對提供某些結構特別有用。

2.5.1。有監督和無監督學習

大多數機器學習演算法可以分為有監督的學習和無監督的學習。這些型別的機器學習之間的主要區別在於,對包含輸入和輸出資料的資料進行監督學習。它通常也稱為"標籤資料",其中標籤是目標屬性。因此,該演算法可以透過檢查正確的輸出值來驗證其模型。通常,監督式機器學習演算法是迴歸和分類分析。相反,在無監督機器學習中,資料集不包含目標屬性。因此,資料沒有標籤。無監督學習最常見的型別是聚類分析[3]。

除了監督和非監督機器學習演算法的主流之外,還有其他變化,例如半監督和強化學習演算法。在半監督學習中,少量標記的資料用於支援大量未標記的資料。強化學習透過獎勵系統訓練演算法,當人工智慧代理在特定情況下執行最佳操作時提供反饋[5]。

2.5.2。機器學習問題的型別-迴歸,分類和聚類

為了構建機器學習領域,通常將大量的ML演算法按功能(工作方式)的相似性進行分組。基於樹和神經網路的方法。考慮到大量不同的演算法,這種方法相當複雜。取而代之的是,按應解決的問題型別對ML演算法進行分組更有用。機器學習問題最常見的型別是迴歸,分類和聚類。有許多特定的ML演算法,其中大多數都有許多不同的變種來解決這些問題。一些演算法能夠解決多個問題。

2.5.2.1。迴歸

迴歸是一種監督的機器學習方法。迴歸用於預測連續值。迴歸分析的結果是一個公式(或模型),該公式描述了一個或多個獨立變數和相關目標值。迴歸模型有很多不同型別,例如線性迴歸,物流回歸,嶺迴歸,套索迴歸和多項式迴歸。但是,到目前為止,進行預測的最流行模型是線性迴歸模型。單變數線性迴歸模型的基本公式如下所示:

> Linear Regression Formula — Source: Own illustration adapted from RPubs

其他迴歸模型儘管與線性迴歸有相似之處,但它們更適合分類,例如邏輯迴歸[1]。迴歸問題,即預測或預測數值,也可以透過受生物神經網路的結構和/或功能啟發的人工神經網路來解決。它們是一個巨大的子領域,包含數百種通常用於迴歸和分類問題的演算法和變體。如果存在大量變數,則與迴歸模型相比,首選神經網路。像人工神經網路一樣,迴歸和分類任務也可以透過k最近鄰居演算法來完成。

2.5.2.2。分類

> Deep Learning Model — Source: Researchgate

2.5.2.3。聚類

聚類分析或聚類是無監督的機器學習任務。它涉及自動發現未標記資料中的自然模式。與監督學習不同,聚類演算法僅分析輸入資料,目的是識別共享相似屬性的資料點。K-均值聚類是最常用的聚類演算法。它是基於質心的演算法,也是最簡單的無監督學習演算法。該演算法試圖使群集中資料點的方差最小。

> Clustering Model — Source: Adapted from Luigi Fiori

3.資料科學工具包

資料科學家使用各種各樣的工具。在業務環境中,電子表格仍然非常占主導地位。對於探索性資料分析,視覺化工具(例如Tableau和Microsoft Power BI)對於獲得資料的理解和視覺印象很有用。對於統計,有許多已建立的統計軟體包,例如SAS和SPSS。機器學習通常使用程式語言進行。機器學習最流行的語言是Python,C / C ++,Java,R和Java Script。上面提到的大多數工具都可以用於與資料科學相關的各種任務。例如,R程式語言主要是為統計應用程式而構建的。因此,它非常適用於統計任務以及使用流行的R包ggplot2進行的視覺化。

4.資料科學過程

跨行業資料探勘標準過程(CRISP-DM)是一個具有六個階段的過程模型,自然地描述了資料科學生命週期。它是計劃,組織和實施資料科學專案的框架。

它包括以下步驟:

· 業務瞭解-業務需要什麼?

· 資料理解-我們擁有/需要什麼資料?乾淨嗎

· 資料準備-我們如何組織資料以進行建模?

· 建模-我們應採用哪些建模技術?

· 評估-哪種模型最符合業務目標?

· 部署-利益相關者如何獲取結果?

> The CRISP-DM Process — Source: Own Illustration adapated from Datascience-PM

該方法於1996年構思,成為業界如何最佳執行資料科學專案的標準方法。CRISP-DM過程不是線性過程,而是迭代過程。它評估了資料科學專案的各個方面,從而顯著提高了成功完成資料的機會。因此,大多數專案經理和資料科學家都採用這種方法[6]。

5.成功原則

最後,有幾個因素可以決定資料科學專案是否成功。首先,在初始階段,至關重要的是,所有相關利益方都清楚潛在的業務問題。其次,必須為資料準備階段分配足夠的時間,這通常佔大多數專案所花費的大部分時間。第三,資料科學家必須選擇正確的變數。理想情況下,模型應僅包含儘可能少的具有相關解釋力的變數。因此,特徵選擇的過程很重要,以便在降低模型噪聲的同時最大化效能。

"不重要或部分相關的功能可能會對模型效能產生負面影響"。

第四,應避免模型的過擬合和欠擬合,因為過擬合會導致總體上較差的效能和較高的預測誤差,而過擬合會導致較差的泛化和較高的模型複雜性。最後,必須以非技術人員可以理解的方式傳達資料科學專案的結果。通訊資料的合適方法是使用視覺化技術。在業務環境中,提供資料的一個很好的參考是國際業務通訊標準(IBCS)。

6.總結

資料科學是一個複雜且發展迅速的領域,具有獨特的術語。這種貢獻試圖闡明術語,各個學科以及資料科學過程。Prezemek Chojecki以及Claire D. Costa提供了進一步閱讀的指南。

文學

[1] O. Theobald,《面向絕對初學者的機器學習:簡單的英語入門》(2018年),獨立出版

[2] D. Spiegelhalter,《統計的藝術-從資料中學習》(2019年),企鵝

[3] J. Kelleher和B. Tierney,資料科學(2018年),麻省理工學院出版社的基本知識叢書

[4] Juhi Ramzai,明確解釋:機器學習與資料探勘有何不同(2020年),邁向資料科學

[5] Isha Salian,SuperVize Me:有監督,無監督,半監督和強化學習之間有什麼區別?(2018),Nvidia部落格

[6]以色列Rodriguez,CRISP-DM資料探勘和大資料方法論負責人(2020年),邁向資料科學

29
最新評論
  • BSA-TRITC(10mg/ml) TRITC-BSA 牛血清白蛋白改性標記羅丹明
  • 不懂資料庫?不懂SQL?不懂python?照樣搞定資料分析