回覆列表
-
1 # 走人間正道看滄桑鉅變
-
2 # 珍241662476
三個基本要素:k 值選擇,距離度量,分類決策規則。
原理:給定一個訓練集,對於新輸入的例項,在訓練集中找到與其相似的 k 個例項,這 k 個例項的多數屬於某一類,就將該例項歸屬到這一類。
輸入:訓練資料集 T={(x1,y1),(x2,y2),...,(x3,y3)}T={(x1,y1),(x2,y2),...,(x3,y3)}
其中,xi∈X⊆Rnxi∈X⊆Rn 為例項的特徵向量, yi∈Y={c1,c2,...,ck}yi∈Y={c1,c2,...,ck} 為例項的類別, i=1,2,3,...,Ni=1,2,3,...,N;例項特徵向量 xx;
輸出:例項 xx 所屬的類 yy 。
(1) 在訓練集找出與 xx 最相似的 k 個點,涵蓋這 k 個點的 xx 領域記作 Nk(x)Nk(x);
(2) 在 Nk(x)Nk(x) 中根據分類決策規則(如多數表決)決定 xx 的類別 yy :
y=argmaxcj∑xi∈Nk(x)I(yi=cj),y=argmaxcj∑xi∈Nk(x)I(yi=cj),i=1,2,...,N;j=1,2,...,Ki=1,2,...,N;j=1,2,...,K
II 為指示函式,即當 yi=cjyi=cj 時 II 為1,否則為0。
-
3 # 曦少少
k值要素(Heat transfer coefficient)指的是總傳熱係數。國家現行標準規範統一定名為傳熱係數。傳熱係數K值,是指在穩定傳熱條件下,圍護結構兩側空氣溫差為1度(K或℃),單位時間透過單位面積傳遞的熱量,單位是瓦/(平方米·度)(W/㎡·K,此處K可用℃代替),反映了傳熱過程的強弱。
我們知道,k-近鄰演算法有三個核心要素:k值的選取、鄰居距離的度量和分類決策的制訂。下面分別對它們進行簡單介紹。
3.4.1 k值的選取
k近鄰演算法優點很明顯,簡單易用,可解釋性強,但也有其不足之處。例如,“多數表決”會在類別分佈偏斜時浮現缺陷。也就是說,k值的選取非常重要,出現頻率較多的樣本將會主導測試點的預測結果。
k值的選取,對k-近鄰演算法的分類效能有很大影響。如果k值選取較小,相當於利用較小鄰域的訓練例項去預測,“學習”而得的近似誤差較小,但預測的結果對訓練樣例非常敏感。如果這個近鄰恰好就是噪聲,那麼預測就會出錯。也就是說,k值較小,分類演算法的健壯性較差。
倘若k值較大,則相當於在較大鄰域中訓練例項進行預測,它的分類錯誤率的確有所下降,即學習的估計誤差有所降低。但隨著k值的增大,分類錯誤率又會很快回升。這是因為,k值增大帶來的健壯性,很快就會被多出來的鄰居“裹挾而來”的噪聲點所抑制,也就是說,學習的近似誤差會增大。
換句話說,對於k值的選取,過猶不及。通常,人們採取交叉驗證(Cross Validation,簡稱CV)[1]的方式來選取最優的k值。即對於每一個k值(k=1,2,3,…),都做若干次交叉驗證,然後計算出它們各自的平均誤差,最後擇其小者定之。
3.4.2 鄰居距離的度量
不量化,無以度量遠近。
k-近鄰演算法要計算“遠親近鄰”,就要求樣本的所有特徵都能做到可比較的量化。如果樣本資料的某些特徵是非數值型別的,那也要想辦法將其量化。比如顏色,不同的顏色(如紅、綠、藍)就是非數值型別的,它們之間好像沒有什麼距離可言。但如果將顏色(這種非數值型別)轉換為灰度值(數值型別:0~255),那麼就可以計算不同顏色之間的距離(或說差異度)。
此外,不同樣本可能有多個特徵,不同特徵亦有不同的定義域和取值範圍,它們對距離計算的影響可謂大相徑庭。比如,對於顏色而言,245和255之間相差10。但對於天氣的溫度,37°C和27°C之間也相差10。這兩個距離都是10,但相差的幅度卻大不相同。這是因為,顏色的值域是0~255,而通常氣溫的年平均值在-40°C~40°C,這樣,前者的差距幅度在10/256=3.9%,而後者的差距幅度是10/80=12.5%。因此,為了公平起見,樣本的不同特徵需要做歸一化(Normalization)處理,即把特徵值對映到[0,1]範圍之內處理。
歸一化機制有很多,最簡單的方法莫過於min-max縮放,其過程是這樣的:對於給定的特徵,首先找到它的最大值(MAX)和最小值(MIN),然後對於某個特徵值x,它的歸一化值
在特徵空間上,某兩個點之間的距離也是它們相似度的反映。距離計算的方式不同,也會顯著影響誰是它的“最近鄰”,從而也會顯著影響分類結果。
樣本的特徵向量,  為類別標籤。對於一個新樣本  ,它在訓練集合中的最近鄰居標記為  ,可用公式(3-4)來選取它的最近鄰居:
新樣本  和訓練集中的樣本  之間的距離。於是,新樣本的類別就被預測為距離它最近的k個鄰居的標籤,記作  。
很顯然,是如何度量任意兩個樣本之間的距離。對於m維樣本xi和樣本xj之間的距離Lp,通常可以用歐幾里德距離(Euclidean Distance,簡稱歐氏距離)表示:
當m = 2,對於二維平面兩點  與  間的歐氏距離可表示為:
衡量兩個向量的距離很多種標準,除了歐幾里得距離之外,還有絕對值距離或稱曼哈頓距離(Manhattan Distance,簡稱曼式距離)