假設我們的超平面可以用下面的公式表示
那麼對於這個平面上任意兩個點 , ,可以得到
1)
2)
把上面兩個點做差,可以得到
而 這兩個點的差還是在這個平面上,所以可以得到 是這個超平面的一個法向量,垂直於這個超平面。
對於空間中任意一個不屬於這個超平面的點 ,它到這個超平面的距離要怎麼得到呢?
我們可以連線點 和點 ,得到 ,把它與超平面的法向量 做向量乘法,然後再除以法向量的長度,可以得到
上式帶入1)可以得到下式
這裡我們沒有考慮到式子的正負,因為距離都是正的,所以結合向量機本身的假設把 乘上去,是的上面式子永遠非負,
我們就得到超平面關於特徵空間中某點 的幾何間隔了:
3)
而幾何距離在一個數據集上的定義是超平面跟資料集中所有點的間隔中最小的那個間隔。
那什麼是函式間隔呢,其實就是式子3)少一個 而已。我認為函式間隔不是嚴格意義上的點到平面的距離,因為它沒有除掉法向量的長度,如果我們現在改變w和b,函式間隔就會跟著改變的,而幾何間隔不會。但另一方面,如果我們把 定為1,函式間隔和幾何間隔其實就是一回事兒了。
我覺得,理解幾何間隔是怎麼推得的比較重要,函式間隔根據定義知道一下就好了。
假設我們的超平面可以用下面的公式表示
那麼對於這個平面上任意兩個點 , ,可以得到
1)
2)
把上面兩個點做差,可以得到
而 這兩個點的差還是在這個平面上,所以可以得到 是這個超平面的一個法向量,垂直於這個超平面。
對於空間中任意一個不屬於這個超平面的點 ,它到這個超平面的距離要怎麼得到呢?
我們可以連線點 和點 ,得到 ,把它與超平面的法向量 做向量乘法,然後再除以法向量的長度,可以得到
上式帶入1)可以得到下式
這裡我們沒有考慮到式子的正負,因為距離都是正的,所以結合向量機本身的假設把 乘上去,是的上面式子永遠非負,
我們就得到超平面關於特徵空間中某點 的幾何間隔了:
3)
而幾何距離在一個數據集上的定義是超平面跟資料集中所有點的間隔中最小的那個間隔。
那什麼是函式間隔呢,其實就是式子3)少一個 而已。我認為函式間隔不是嚴格意義上的點到平面的距離,因為它沒有除掉法向量的長度,如果我們現在改變w和b,函式間隔就會跟著改變的,而幾何間隔不會。但另一方面,如果我們把 定為1,函式間隔和幾何間隔其實就是一回事兒了。
我覺得,理解幾何間隔是怎麼推得的比較重要,函式間隔根據定義知道一下就好了。