怎樣選擇機器學習模型及其訓練集、驗證集和測試集？

首頁>科技>高老師2021-02-21 20:37

本文是吳恩達《機器學習》影片筆記第61篇，對應第6周第3個影片。

“Advice for applying machine learning:——Model selection and training/validation/test sets”

簡介

本影片主要講解兩個問題：（1）模型選擇問題；（2）樣本資料集的處理，在上節影片的基礎上將樣本集更細分為訓練集、驗證集、測試集三類。

本節實質上還是講如何透過樣本資料找到一個適合於解決對應問題的演算法模型。

還是說過擬合

如果用多項式擬合，對訓練集的擬合效果很好，但往往意味著很差的泛化能力。就是越是好看的花架子，實戰可能越差。

那到了實際問題時，如果採用多項式擬合，最高要選擇多少次方？如下圖的1到10次方。

代表模型選擇的引數

那，如果想用一個演算法來選擇這個多項式的最高次冪，我們可以把這個最高次冪也設計為一個待求解的引數d，那麼對應的每個d的取值都會有一組多項式的係數引數\theta，對應的每個模型也會有一個測試誤差函式。如下圖：

那求解最好模型的問題，也就變成了求解上圖中最小測試誤差的問題。比如最後可能d=5最好，那對應的五次多項式的擬合結果即是所求。

上面所說的就是模型選擇的基本思路。

一個例子

還是賣房子的例子（面積_平方英尺和價格），樣本集分成訓練集、驗證集、測試集（6：2：2的比例進行切分）

對應的誤差函式如下圖：

上圖中的三個函式實際上是一回事，只是參與運算的樣本不一樣而已。

面對模型選擇問題時，我們將可能的模型的最小誤差函式都給求出來，先是用訓練集訓練各個模型的引數，然後用驗證集找出最好的那個模型，最後再用測試集來進行測試。有些情景是驗證集和測試集用的同一個子集，但是不建議這樣做。

最新評論