首頁>Club>
6
回覆列表
  • 1 # 走人間正道看滄桑鉅變

    我們知道,k-近鄰演算法有三個核心要素:k值的選取、鄰居距離的度量和分類決策的制訂。下面分別對它們進行簡單介紹。


    3.4.1 k值的選取

    k近鄰演算法優點很明顯,簡單易用,可解釋性強,但也有其不足之處。例如,“多數表決”會在類別分佈偏斜時浮現缺陷。也就是說,k值的選取非常重要,出現頻率較多的樣本將會主導測試點的預測結果。

    k值的選取,對k-近鄰演算法的分類效能有很大影響。如果k值選取較小,相當於利用較小鄰域的訓練例項去預測,“學習”而得的近似誤差較小,但預測的結果對訓練樣例非常敏感。如果這個近鄰恰好就是噪聲,那麼預測就會出錯。也就是說,k值較小,分類演算法的健壯性較差。

    倘若k值較大,則相當於在較大鄰域中訓練例項進行預測,它的分類錯誤率的確有所下降,即學習的估計誤差有所降低。但隨著k值的增大,分類錯誤率又會很快回升。這是因為,k值增大帶來的健壯性,很快就會被多出來的鄰居“裹挾而來”的噪聲點所抑制,也就是說,學習的近似誤差會增大。

    換句話說,對於k值的選取,過猶不及。通常,人們採取交叉驗證(Cross Validation,簡稱CV)[1]的方式來選取最優的k值。即對於每一個k值(k=1,2,3,…),都做若干次交叉驗證,然後計算出它們各自的平均誤差,最後擇其小者定之。


    3.4.2 鄰居距離的度量

    不量化,無以度量遠近。

    k-近鄰演算法要計算“遠親近鄰”,就要求樣本的所有特徵都能做到可比較的量化。如果樣本資料的某些特徵是非數值型別的,那也要想辦法將其量化。比如顏色,不同的顏色(如紅、綠、藍)就是非數值型別的,它們之間好像沒有什麼距離可言。但如果將顏色(這種非數值型別)轉換為灰度值(數值型別:0~255),那麼就可以計算不同顏色之間的距離(或說差異度)。

    此外,不同樣本可能有多個特徵,不同特徵亦有不同的定義域和取值範圍,它們對距離計算的影響可謂大相徑庭。比如,對於顏色而言,245和255之間相差10。但對於天氣的溫度,37°C和27°C之間也相差10。這兩個距離都是10,但相差的幅度卻大不相同。這是因為,顏色的值域是0~255,而通常氣溫的年平均值在-40°C~40°C,這樣,前者的差距幅度在10/256=3.9%,而後者的差距幅度是10/80=12.5%。因此,為了公平起見,樣本的不同特徵需要做歸一化(Normalization)處理,即把特徵值對映到[0,1]範圍之內處理。

    歸一化機制有很多,最簡單的方法莫過於min-max縮放,其過程是這樣的:對於給定的特徵,首先找到它的最大值(MAX)和最小值(MIN),然後對於某個特徵值x,它的歸一化值

    在特徵空間上,某兩個點之間的距離也是它們相似度的反映。距離計算的方式不同,也會顯著影響誰是它的“最近鄰”,從而也會顯著影響分類結果。

    樣本的特徵向量,  為類別標籤。對於一個新樣本  ,它在訓練集合中的最近鄰居標記為  ,可用公式(3-4)來選取它的最近鄰居:

    新樣本  和訓練集中的樣本  之間的距離。於是,新樣本的類別就被預測為距離它最近的k個鄰居的標籤,記作  。

    很顯然,是如何度量任意兩個樣本之間的距離。對於m維樣本xi和樣本xj之間的距離Lp,通常可以用歐幾里德距離(Euclidean Distance,簡稱歐氏距離)表示:

    當m = 2,對於二維平面兩點  與  間的歐氏距離可表示為:

    衡量兩個向量的距離很多種標準,除了歐幾里得距離之外,還有絕對值距離或稱曼哈頓距離(Manhattan Distance,簡稱曼式距離)

  • 2 # 珍241662476

    三個基本要素:k 值選擇,距離度量,分類決策規則。

    原理:給定一個訓練集,對於新輸入的例項,在訓練集中找到與其相似的 k 個例項,這 k 個例項的多數屬於某一類,就將該例項歸屬到這一類。

    輸入:訓練資料集 T={(x1,y1),(x2,y2),...,(x3,y3)}T={(x1,y1),(x2,y2),...,(x3,y3)}

    其中,xi∈X⊆Rnxi∈X⊆Rn 為例項的特徵向量, yi∈Y={c1,c2,...,ck}yi∈Y={c1,c2,...,ck} 為例項的類別, i=1,2,3,...,Ni=1,2,3,...,N;例項特徵向量 xx;

    輸出:例項 xx 所屬的類 yy 。

    (1) 在訓練集找出與 xx 最相似的 k 個點,涵蓋這 k 個點的 xx 領域記作 Nk(x)Nk(x);

    (2) 在 Nk(x)Nk(x) 中根據分類決策規則(如多數表決)決定 xx 的類別 yy :

    ​ y=argmaxcj∑xi∈Nk(x)I(yi=cj),y=argmaxcj∑xi∈Nk(x)I(yi=cj),i=1,2,...,N;j=1,2,...,Ki=1,2,...,N;j=1,2,...,K

    ​ II 為指示函式,即當 yi=cjyi=cj 時 II 為1,否則為0。

  • 3 # 曦少少

    k值要素(Heat transfer coefficient)指的是總傳熱係數。國家現行標準規範統一定名為傳熱係數。傳熱係數K值,是指在穩定傳熱條件下,圍護結構兩側空氣溫差為1度(K或℃),單位時間透過單位面積傳遞的熱量,單位是瓦/(平方米·度)(W/㎡·K,此處K可用℃代替),反映了傳熱過程的強弱。

  • 中秋節和大豐收的關聯?
  • 職業的筆順?