機器(計算機)學習分為有監督和無監督兩個類,基本上可以從他們會不會得到一個特定的標籤(label)輸出來區分。
這裡標籤指的是用來描述某一個物體屬性的話語。比如人類有兩種,我們要區分這兩種人,就根據生理特徵,分別對兩種人打上標籤,一種是[男人],另一種是[女人]。
有監督學習(Supervised Learning):
先來問題化地解釋一下有監督學習:你有一些問題和他們的答案,你要做的有監督學習就是學習這些已經知道答案的問題。然後你就具備了經驗了,這就是學習的成果。然後在你接受到一個新的不知道答案的問題的時候,你可以根據學習得到的經驗,得出這個新問題的答案。(試想一下高考不正是這樣,好的學習器就能有更強的做題能力,考好的分數,上好的大學.....)。
我們有一個樣本資料集,如果對於每一個單一的資料根據它的特徵向量我們要去判斷它的標籤(演算法的輸出值),那麼就是有監督學習。通俗的說,有監督學習就是比無監督學習多了一個可以表達這個資料特質的標籤。
我們再來看有監督學習,分為兩個大類:
無監督學習(Unsupervised Learning):
“Because we don"t give it the answer, it"s unsupervised learning”。
還是先來問題化地解釋一下無監督學習:我們有一些問題,但是不知道答案,我們要做的無監督學習就是按照他們的性質把他們自動地分成很多組,每組的問題是具有類似性質的(比如數學問題會聚集在一組,英語問題會聚集在一組,物理........)。
所有資料只有特徵向量沒有標籤,但是可以發現這些資料呈現出聚群的結構,本質是一個相似的型別的會聚集在一起。把這些沒有標籤的資料分成一個一個組合,就是聚類(Clustering)。比如Google新聞,每天會蒐集大量的新聞,然後把它們全部聚類,就會自動分成幾十個不同的組(比如娛樂,科技,政治......),每個組內新聞都具有相似的內容結構。
無監督學習還有一個典型的例子就是雞尾酒會問題(聲音的分離),在這個酒會上有兩種聲音,被兩個不同的麥克風在不同的地方接收到,而可以利用無監督學習來分離這兩種不同的聲音。注意到這裡是無監督學習的原因是,事先並不知道這些聲音中有哪些種類(這裡的種類就是標籤的意思)。
而且雞尾酒問題的程式碼實現只要一行,如下:
[注]:內容參考吳恩達在Coursera上的機器學習課程。
機器(計算機)學習分為有監督和無監督兩個類,基本上可以從他們會不會得到一個特定的標籤(label)輸出來區分。
這裡標籤指的是用來描述某一個物體屬性的話語。比如人類有兩種,我們要區分這兩種人,就根據生理特徵,分別對兩種人打上標籤,一種是[男人],另一種是[女人]。
有監督學習(Supervised Learning):
先來問題化地解釋一下有監督學習:你有一些問題和他們的答案,你要做的有監督學習就是學習這些已經知道答案的問題。然後你就具備了經驗了,這就是學習的成果。然後在你接受到一個新的不知道答案的問題的時候,你可以根據學習得到的經驗,得出這個新問題的答案。(試想一下高考不正是這樣,好的學習器就能有更強的做題能力,考好的分數,上好的大學.....)。
我們有一個樣本資料集,如果對於每一個單一的資料根據它的特徵向量我們要去判斷它的標籤(演算法的輸出值),那麼就是有監督學習。通俗的說,有監督學習就是比無監督學習多了一個可以表達這個資料特質的標籤。
我們再來看有監督學習,分為兩個大類:
1.迴歸分析(Regression Analysis):迴歸分析,其資料集是給定一個函式和它的一些座標點,然後透過迴歸分析的演算法,來估計原函式的模型,求出一個最符合這些已知資料集的函式解析式。然後它就可以用來預估其它未知輸出的資料了,你輸入一個自變數它就會根據這個模型解析式輸出一個因變數,這些自變數就是特徵向量,因變數就是標籤。 而且標籤的值是建立在連續範圍的。 2.分類(Classification):其資料集,由特徵向量和它們的標籤組成,當你學習了這些資料之後,給你一個只知道特徵向量不知道標籤的資料,讓你求它的標籤是哪一個?其和迴歸的主要區別就是輸出結果是離散的還是連續的。無監督學習(Unsupervised Learning):
“Because we don"t give it the answer, it"s unsupervised learning”。
還是先來問題化地解釋一下無監督學習:我們有一些問題,但是不知道答案,我們要做的無監督學習就是按照他們的性質把他們自動地分成很多組,每組的問題是具有類似性質的(比如數學問題會聚集在一組,英語問題會聚集在一組,物理........)。
所有資料只有特徵向量沒有標籤,但是可以發現這些資料呈現出聚群的結構,本質是一個相似的型別的會聚集在一起。把這些沒有標籤的資料分成一個一個組合,就是聚類(Clustering)。比如Google新聞,每天會蒐集大量的新聞,然後把它們全部聚類,就會自動分成幾十個不同的組(比如娛樂,科技,政治......),每個組內新聞都具有相似的內容結構。
無監督學習還有一個典型的例子就是雞尾酒會問題(聲音的分離),在這個酒會上有兩種聲音,被兩個不同的麥克風在不同的地方接收到,而可以利用無監督學習來分離這兩種不同的聲音。注意到這裡是無監督學習的原因是,事先並不知道這些聲音中有哪些種類(這裡的種類就是標籤的意思)。
而且雞尾酒問題的程式碼實現只要一行,如下:
[注]:內容參考吳恩達在Coursera上的機器學習課程。