-
1 # liyitan2144
-
2 # 機器之心Pro
特徵選擇(feature selection)和特徵提取(feature extraction)是特徵工程中的兩個重要問題。有句說法:資料和特徵決定了機器學習的上限,而模型和演算法只是逼近這個上限而已。由此可見,特徵工程尤其是特徵選擇在機器學習中佔有相當重要的地位。
在機器學習中,特徵選擇(feature selection) 也被稱為變數選擇、屬性選擇 或變數子集選擇 。它是指:為了構建模型而選擇相關特徵(即屬性、指標)子集的過程。使用特徵選擇技術有三個原因:
簡化模型,使之更易於被研究人員或使用者理解縮短訓練時間改善通用性、降低過擬合(即降低方差)要使用特徵選擇技術的關鍵假設是:訓練資料包含許多冗餘或無關的特徵,因而移除這些特徵並不會導致丟失資訊。特徵選擇是指去掉無關特徵,保留相關特徵的過程,也可以認為是從所有的特徵中選擇一個最好的特徵子集,本質上是一種降維的過程。
特徵提取(feature extraction)是指將機器學習演算法不能識別的原始資料轉化為演算法可以識別的特徵的過程。比如說,圖片是由一系列畫素點構(原始資料)成的,這些畫素點本身無法被機器學習演算法直接使用,但是如果將這些畫素點轉化成矩陣的形式(數值特徵),那麼機器學習演算法就可以使用了。
特徵選擇技術與特徵提取有所不同。特徵提取實際上是把原始資料轉化為機器學習演算法可以識別的數值特徵,從原有特徵的功能中創造新的特徵,不存在降維的概念,不需要理會這些特徵是否有用;而特徵選擇是在提取出來的特徵中選擇最優的一個特徵子集,常常用於許多特徵但樣本(即資料點)相對較少的領域。特徵選擇應用的典型用例包括:解析書面文字和微陣列資料,這些場景下特徵成千上萬,但樣本只有幾十到幾百個。
-
3 # IT老友
回答分2部分,第一部分為特徵提取和特徵選擇的區別,
第二部分為sklearn相應的模組及中英文文件。
1. 特徵提取和特徵選擇區別:
特徵提取(Feature Extraction):
特徵選擇(Feature Selection):
兩者對比圖:
2. sklearn中相關
a. 資料預處理: sklearn.preprocessing
b. 特徵提取: sklearn.feature_extraction
c. 降維: sklearn.decomposition
d. 特徵選擇: sklearn.feature_selection
詳情請檢視官方文件或中文文件:
回覆列表
特徵提取是指對已有的特徵做組合和變換,得到對後續訓練更有利的特徵。特徵選擇是從已有特徵中選擇一個子集,以過濾無效特徵和減少引數數目,方便後續訓練。一定程度上,特徵選擇是一種特殊的特徵提取。