首頁>科技>

隨著現代人工智慧時代的到來,人們發現強大的硬體和資料集可以產生強有力的預測結果,而這離不開所謂的“監督學習”(supervised learning)。

監督學習的定義是使用標記的資料集來訓練演算法,對資料進行分類,預測結果,等等。

但是,雖然監督學習可以預測未來某個特定日期的商品銷售量,可在資料不屬於特定問題的情況下,它也有侷限性。

這就引出了半監督學習(semi-supervised learning)無監督學習(unsupervised learning)的概念。

在無監督學習中,一個演算法受到“未知”資料的影響,這些資料不存在先前定義的類別或標籤。機器學習系統必須教會自己對資料進行分類,處理未標記的資料,從其固有的結構中學習。

而在半監督學習的情況下,演算法會確定資料點之間的相關性,並使用少量的標記資料來標記這些點。然後根據新應用的資料標籤來訓練系統。

無監督學習在缺乏標記資料的領域表現出色,但它也不是沒有自己的弱點,半監督學習也是如此。這就是為什麼在決定採取哪種機器學習方法之前,需要先確定解決的業務問題。

例如,雖然監督學習可能適用於涉及分類的任務,如對商業檔案和電子表格進行分類,但如果用於醫療保健等領域這樣從未經註釋的資料(如測試結果)中識別異常情況,它的適應性會很差。

監督學習

監督學習是企業中最常用的機器學習形式。在最近的一份O'Reilly報告中,82%的受訪者表示,他們的組織選擇採用監督學習,而不是監督或半監督學習。而根據Gartner的資料,在2022年之前,監督學習將仍然是企業利用最多的機器學習型別。

為什麼企業會偏愛監督式學習?這可能是因為它在許多業務場景中都很有效,包括欺詐檢測、銷售預測和庫存最佳化。

例如,一個模型可以從數以千計的銀行交易中獲得資料,每筆交易都標明是否存在欺詐行為,這樣該模型就可以學習識別“欺詐”或“非欺詐”的交易。

監督學習演算法是針對特定輸出的輸入資料進行訓練,直到它們能夠檢測出輸入和輸出結果之間的基本關係。

在訓練階段,系統接收標記的資料集,這些資料集告訴系統哪個輸出與每個特定的輸入值相關。透過不斷地測量輸出結果並對系統進行微調以接近目標精度,監督學習也相應完成自身的“進化”。

而為了實現監督學習,就需要高質量的、平衡的、規範化的和徹底清理的訓練資料。有偏見或重複的資料會歪曲系統的理解,資料的多樣性資料通常決定了它在遇到新案例時的表現如何。

但是,高準確率並不一定是效能的良好標誌,它也可能意味著模型遭受了“過擬合”(Overfitting),即它對特定的資料集進行了過度調整。在這種情況下,該系統在測試場景中表現良好,但在面對真實世界的挑戰時卻會失敗。

不過,監督學習也存在一個缺點——如果不仔細審查訓練資料集,就會導致災難性的結果。

以早期版本的ImageNet為例,其是一個用於訓練世界各地人工智慧系統的資料集,但被發現包含了裸體兒童、色情女演員、大學聚會等的照片,所有這些照片都是在未經這些人同意的情況下從網上搜來的。

而另一個計算機視覺語料庫“8000萬張小圖片”(80million Tiny Images)也被發現有一系列種族主義、性別歧視和其他攻擊性的註釋,如近2,000張標有“N”字(對黑人的蔑稱)的圖片,以及“強姦嫌疑人”和“兒童性騷擾者”等標籤。

半監督學習

在機器學習問題中,監督學習可能是一個很好的選擇,但缺乏高質量的資料,所以半監督學習就提供了一個潛在的解決方案。

介於監督學習和無監督學習之間,半監督學習接受部分標記的資料,或者大部分缺乏標記的資料。

處理有限資料的能力是半監督學習的一個關鍵優勢,因為資料科學家花了大部分時間來清理和組織資料。

在Alation最近的一份報告中,絕大多數的受訪者(87%)認為資料質量問題是他們的企業未能成功實現“AI升級”的原因。

半監督學習也適用於現實世界的問題,在這些問題中,少量的標記資料會阻止監督學習演算法的運作。

例如,它可以減輕語音分析中的資料準備負擔,在這種情況下,標記音訊檔案通常是非常費力的。網頁分類是另一個潛在的應用,因為如果從監督學習的角度出發,組織數十億網頁中的知識將花費過多的時間和資源。

無監督學習

在不存在標記資料集的情況下,無監督學習(也被稱為自我監督學習)可以幫助填補領域知識的空白。

聚類(Clustering)是無監督學習中用來識別類似專案的最常見過程。執行這項任務的目的是尋找資料點的相似性,並將類似的資料分組。

對類似的資料點進行聚類有助於為不同的群體建立更準確的檔案和屬性。在有大量資料的的情況下,聚類也可以用來降低資料的維度。

降低維度(Dimension Reduction)這個過程並不是無監督學習所獨有的,它減少了資料集中的屬性數量,從而使生成的資料與正在解決的問題更加相關。減少維度也有助於減少儲存資料集所需的儲存空間,並有可能提高效能。

目前,微軟正在使用無監督學習來提取有關其雲服務中斷的知識。在一篇論文中,該公司的研究人員詳細介紹了SoftNER,這是一個微軟內部部署的框架,用於整理有關儲存、計算和中斷的資訊。

他們聲稱,在擴充套件到大量超時、緩慢連線和其他產品中斷時,不再需要對大量訓練資料進行註釋。

最近,Facebook釋出了SEER,這是一個基於10億張圖片訓練的無監督模型,表面上看在一系列計算機視覺基準上取得了最先進的結果。SEER學會了從Instagram個人資料頁面上的隨機圖片中進行預測。

不幸的是,無監督學習並不能消除系統預測中可能出現的偏差。例如,無監督的計算機視覺系統可能會發現訓練資料集中存在的種族和性別定型觀念。

包括Facebook首席科學家Yann LeCun在內的一些專家認為,消除這些偏見可能需要對無監督模型進行專門的訓練,用額外的、較小的資料集來“消除”特定偏見。但是還需要做更多的研究,以找出實現這一目標的最佳方法。

選擇正確的方法

在監督、半監督和無監督學習之間,沒有完美的方法。那麼,選擇哪種方法才是正確的呢?歸根結底,這取決於用例。

監督學習最適用於預測、分類、效能比較、預測分析、定價和風險評估等任務。半監督學習往往對一般資料建立和自然語言處理有意義。至於無監督學習,它在效能監測、銷售功能、搜尋意圖以及潛在的更多方面有一定的地位。

隨著新研究的出現,解決現有訓練方法的缺點,監督、半監督和無監督學習的最佳組合可能會改變。但是,確定這些技術在哪些方面能給客戶帶來最大的價值將永遠是最明智的出發點。

4
  • 整治雙十一購物亂象,國家再次出手!該跟這些套路說再見了
  • HTC VIVE宣佈與iFixit合作:維修VIVE VR頭顯更方便