-
1 # 願機器更好的協作
-
2 # 論智
什麼是特徵
簡單來說,機器學習可以看成一個統計過程,基於大量資料進行統計分析,並作出預測(比如,分類問題屬於預測目標的分類,目標識別問題屬於預測目標的數量、位置,等等)。預測,簡單來說,可以是認為預測各種因素、因子與結果的相關性(機率)。這些因素、因子,稱為特徵(feature),也叫變數(variable)——自變數(
independent variable)/ 輸入變數(input variable)/ 控制變數(control variable)。這一大堆名詞說的都是一個東西。
什麼是特徵選擇特徵選擇,就是從特徵中選出那些有助於做出預測的特徵(沒選中的特徵不一定是無關特徵,可能和預測結果有相關性,只不過比較弱,為了簡化模型所以不選)。
具體來說,一個是手工選擇,一個是透過機器學習的技術自動選擇。
手工選擇主要取決於領域知識和經驗。
自動選擇的方法多種多樣,不拘一格。比如Ridge迴歸就可以用來做特徵選擇 。Ridge迴歸,你可以把它看成加上一個正則化因子α的邏輯迴歸。反過來說,邏輯迴歸可以看成α=0的Ridge迴歸。隨著α的增大,會依據相關性由低到高依次移除特徵,直到所有特徵都被移除。迭代嘗試不同數量級的α的值,可以自動選擇特徵。
上圖是一個Ridge迴歸的例子。我們看到,α在10的22次方左右,相關性最低的一個特徵被移除了,α大於10的25次方之後,大批特徵被幹掉了,α大於10的26次方之後,只有相關性最強的留下來了,而α大於10的28次方之後,只剩下一個特徵了。
大名鼎鼎的卷積神經網路(CNN),就是自動選擇影象的空間關係特徵。
-
3 # IT老友
1.什麼是特徵?
特徵就是反映事件或物件在某方面的表現或性質的事物。
比如透過色澤、根蒂...含糖量等8個方面可以分別好瓜,那麼這8個方面就是好瓜的特徵。
2. 什麼是特徵選擇?
特徵選擇和特徵提取應該一起比較說明。
特徵選擇(Feature Selection):
特徵提取(Feature Extraction):
兩者對比圖:
3.為什麼要特徵選擇?
先看機器學習和人類學習對比:
顯然,如果訓練資料和好瓜的相關度越小,那麼最終模型的泛化能力越差。
如同,人類的經驗越差,歸納的規律也越離譜。
資料處理的本質就是為了儘可能的找到“充分且必要”的特徵。4. 如何進行特徵選擇?
特徵選擇的流程圖:
特徵選擇方法(按評價準則分類):
安利,更多關於特徵和特徵選擇,請看我的
《圖文理解機器學習的基礎概念》
《機器學習之資料清洗、特徵提取與特徵選擇》
回覆列表
對於機器學習入門來說,直接就來講解特徵選擇或者三種常用的特徵選擇和篩選的方法是很難讓大家理解的。
1.先說下什麼是特徵?
顧名思義,特徵就是可以對事物進行描述的集合。特徵可以從自身出發,也可以從其他待描述的目標之間的差異出發,凡事可以刻畫目標的某種屬性的都可以稱為特徵。但是至於特徵的穩定性就不好說了,就是說你的這個特徵是不是可以推廣到很多地方,比如,你找到了“”和“”之間的區別,但是這種區別並不能讓你很好的區分“”和“”。
2. 特徵選擇?
當你產生了對於目標描述的一個集合,但是你需要找到較為靠譜的特徵,或者某些能真正反饋出目標本質的特徵,這時候,你必須要進行特徵的選擇。這時就會提到《西瓜書》種的提到的:過濾法,篩選法,潛入法。其主體思路就是先選擇一組特徵,想把發去衡量這組特徵和目標之間的關係,從而得到較好的特徵集合。