1.模糊支援向量機,引入樣本對類別的隸屬度函式,這樣每個樣本對於類別的影響是不同的,這種理論的應用提高了SVM的抗噪聲的能力,尤其適合在未能完全揭示輸入樣本特性的情況下。
2.最小二乘支援向量機。這種方法是在1999年提出,經過這幾年的發展,已經應用要很多相關的領域。研究的問題已經推廣到:對於大規模資料集的處理;處理資料的魯棒性;引數調節和選擇問題;訓練和模擬。
3.加權支援向量機(有偏樣本的加權,有偏風險加權)。
4.主動學習的支援向量機。主動學習在學習過程中可以根據學習程序,選擇最有利於分類器效能的樣本來進一步訓練分類器,特能有效地減少評價樣本的數量。也就是透過某種標準對樣本對分類的有效性進行排序,然後選擇有效樣本來訓練支援向量機。
5.粗糙集與支援向量機的結合。首先利用粗糙集理論對資料的屬性進行約簡,能在某種程度上減少支援向量機求解計算量。
6.基於決策樹的支援向量機。對於多類問題,採用二岔樹將要分類的樣本集構造出一系列的兩類問題,每個兩類構造一個SVM。
7.分級聚類的支援向量機。基於分級聚類和決策樹思想構建多類svm,使用分級聚類的方法,可以先把n-1個距離較近的類別結合起來,暫時看作一類,把剩下的一類作為單獨的一類,用svm分類,分類後的下一步不再考慮這單獨的一類,而只研究所合併的n-1類,再依次下去。
8.演算法上的提高。
lOsuna提出了一種分解演算法,應用於人臉識別領域。
lJoachims在1998年將Osuna提出的分解策略推廣到解決大型SVM學習的演算法
lPlatt於1998年提出了序貫最小最佳化(SequentialMinimalOptimization)每次的工作集中只有2個樣本。
9.核函式的構造和引數的選擇理論研究。基於各個不同的應用領域,可以構造不同的核函式,能夠或多或少的引入領域知識。現在核函式廣泛應用的型別有:多項式逼近、貝葉斯分類器、徑向基函式、多層感知器。引數的選擇現在利用交叉驗證的方法來確認。
10.支援向量機從兩類問題向多類問題的推廣:
nWeston在1998年提出的多類演算法為代表。在經典svm理論的基礎上,直接在目標函式上進行改進,重新構造多值分類模型,建立k分類支援向量機。透過sv方法對新模型的目標函式進行最佳化,實現多值分類。這類演算法選擇的目標函式十分複雜,變數數目過多,計算複雜度也非常高,實現困難,所以只在小型問題的求解中才能使用。Weston,Multi-classsupportvectormachines
n一對多(one-against-rest)-----Vapnik提出的,k類---k個分類器,第m個分類器將第m類與其餘的類分開,也就是說將第m類重新標號為1,其他類標號為-1。完成這個過程需要計算k個二次規劃,根據標號將每個樣本分開,最後輸出的是兩類分類器輸出為最大的那一類。不足:容易產生屬於多類別的點(多個1)和沒有被分類的點(標號均為-1)--不對,訓練樣本資料大,訓練困難,推廣誤差無界.
n一對一(one-against-one)---Kressel對於任意兩個分類,構造一個分類器,僅識別這兩個分類,完成這個過程需要k(k-1)/2個分類器,計算量是非常龐大的。對於每一個樣本,根據每一個分類器的分類結果,看屬於哪個類別的次數多,最終就屬於哪一類(組合這些兩類分類器並使用投票法,得票最多的類為樣本點所屬的類)。不足:如果單個兩類分類器不規範化,則整個N類分類器將趨向於過學習;推廣誤差無界;分類器的數目K隨類數急劇增加,導致在決策時速度很慢。
n層(數分類方法),是對一對一方法的改進,將k個分類合併為兩個大類,每個大類裡面再分成兩個子類,如此下去,直到最基本的k個分類,這樣形成不同的層次,每個層次都用svm來進行分類------1對r-1法,構建k-1個分類器,不存在拒絕分類區。
應用上:人臉檢測,汽輪發電機組的故障診斷,分類,迴歸,聚類,時間序列預測,系統辨識,金融工程,生物醫藥訊號處理,資料探勘,生物資訊,文字挖掘,自適應訊號處理,剪接位點識別,基於支援向量機的資料庫學習演算法,手寫體相似字識別,支援向量機函式擬合在分形插值中的應用,基於支援向量機的慣導初始對準系統,巖爆預測的支援向量機,缺陷識別,計算機鍵盤使用者身份驗證,影片字幕自動定位於提取,說話人的確認,等等。
主要研究熱點
從上面的發展中,我們可以總結出,目前支援向量機有著幾方面的研究熱點:核函式的構造和引數的選擇;支援向量機從兩類問題向多類問題的推廣;更多的應用領域的推廣;與目前其它機器學習方法的融合;與資料預處理(樣本的重要度,屬性的重要度,特徵選擇等)方面方法的結合,將資料中脫離領域知識的資訊,即資料本身的性質融入支援向量機的演算法中從而產生新的演算法;支援向量機訓練演算法的探索。
1.模糊支援向量機,引入樣本對類別的隸屬度函式,這樣每個樣本對於類別的影響是不同的,這種理論的應用提高了SVM的抗噪聲的能力,尤其適合在未能完全揭示輸入樣本特性的情況下。
2.最小二乘支援向量機。這種方法是在1999年提出,經過這幾年的發展,已經應用要很多相關的領域。研究的問題已經推廣到:對於大規模資料集的處理;處理資料的魯棒性;引數調節和選擇問題;訓練和模擬。
3.加權支援向量機(有偏樣本的加權,有偏風險加權)。
4.主動學習的支援向量機。主動學習在學習過程中可以根據學習程序,選擇最有利於分類器效能的樣本來進一步訓練分類器,特能有效地減少評價樣本的數量。也就是透過某種標準對樣本對分類的有效性進行排序,然後選擇有效樣本來訓練支援向量機。
5.粗糙集與支援向量機的結合。首先利用粗糙集理論對資料的屬性進行約簡,能在某種程度上減少支援向量機求解計算量。
6.基於決策樹的支援向量機。對於多類問題,採用二岔樹將要分類的樣本集構造出一系列的兩類問題,每個兩類構造一個SVM。
7.分級聚類的支援向量機。基於分級聚類和決策樹思想構建多類svm,使用分級聚類的方法,可以先把n-1個距離較近的類別結合起來,暫時看作一類,把剩下的一類作為單獨的一類,用svm分類,分類後的下一步不再考慮這單獨的一類,而只研究所合併的n-1類,再依次下去。
8.演算法上的提高。
lOsuna提出了一種分解演算法,應用於人臉識別領域。
lJoachims在1998年將Osuna提出的分解策略推廣到解決大型SVM學習的演算法
lPlatt於1998年提出了序貫最小最佳化(SequentialMinimalOptimization)每次的工作集中只有2個樣本。
9.核函式的構造和引數的選擇理論研究。基於各個不同的應用領域,可以構造不同的核函式,能夠或多或少的引入領域知識。現在核函式廣泛應用的型別有:多項式逼近、貝葉斯分類器、徑向基函式、多層感知器。引數的選擇現在利用交叉驗證的方法來確認。
10.支援向量機從兩類問題向多類問題的推廣:
nWeston在1998年提出的多類演算法為代表。在經典svm理論的基礎上,直接在目標函式上進行改進,重新構造多值分類模型,建立k分類支援向量機。透過sv方法對新模型的目標函式進行最佳化,實現多值分類。這類演算法選擇的目標函式十分複雜,變數數目過多,計算複雜度也非常高,實現困難,所以只在小型問題的求解中才能使用。Weston,Multi-classsupportvectormachines
n一對多(one-against-rest)-----Vapnik提出的,k類---k個分類器,第m個分類器將第m類與其餘的類分開,也就是說將第m類重新標號為1,其他類標號為-1。完成這個過程需要計算k個二次規劃,根據標號將每個樣本分開,最後輸出的是兩類分類器輸出為最大的那一類。不足:容易產生屬於多類別的點(多個1)和沒有被分類的點(標號均為-1)--不對,訓練樣本資料大,訓練困難,推廣誤差無界.
n一對一(one-against-one)---Kressel對於任意兩個分類,構造一個分類器,僅識別這兩個分類,完成這個過程需要k(k-1)/2個分類器,計算量是非常龐大的。對於每一個樣本,根據每一個分類器的分類結果,看屬於哪個類別的次數多,最終就屬於哪一類(組合這些兩類分類器並使用投票法,得票最多的類為樣本點所屬的類)。不足:如果單個兩類分類器不規範化,則整個N類分類器將趨向於過學習;推廣誤差無界;分類器的數目K隨類數急劇增加,導致在決策時速度很慢。
n層(數分類方法),是對一對一方法的改進,將k個分類合併為兩個大類,每個大類裡面再分成兩個子類,如此下去,直到最基本的k個分類,這樣形成不同的層次,每個層次都用svm來進行分類------1對r-1法,構建k-1個分類器,不存在拒絕分類區。
應用上:人臉檢測,汽輪發電機組的故障診斷,分類,迴歸,聚類,時間序列預測,系統辨識,金融工程,生物醫藥訊號處理,資料探勘,生物資訊,文字挖掘,自適應訊號處理,剪接位點識別,基於支援向量機的資料庫學習演算法,手寫體相似字識別,支援向量機函式擬合在分形插值中的應用,基於支援向量機的慣導初始對準系統,巖爆預測的支援向量機,缺陷識別,計算機鍵盤使用者身份驗證,影片字幕自動定位於提取,說話人的確認,等等。
主要研究熱點
從上面的發展中,我們可以總結出,目前支援向量機有著幾方面的研究熱點:核函式的構造和引數的選擇;支援向量機從兩類問題向多類問題的推廣;更多的應用領域的推廣;與目前其它機器學習方法的融合;與資料預處理(樣本的重要度,屬性的重要度,特徵選擇等)方面方法的結合,將資料中脫離領域知識的資訊,即資料本身的性質融入支援向量機的演算法中從而產生新的演算法;支援向量機訓練演算法的探索。