首頁>科技>

演算法引數:迭代次數、組大小(即:組內元素個數)

基本概念:

1、迭代次數:每次迭代總是基於前一次迭代結果基礎之上,獲取每個組都中間元素。作為新迭代都首元素。

2、組:也叫聚類、簇。

2、組大小:也可稱為聚類大小、簇大小。每個聚類圓所包含的元素數量。

計算過程(例如:文件數為31筆,迭代次數:40,組大小:10):

1、從待處理文件中,隨機獲取一個文件id作為第一個迭代的,各個組的首元素。生成共3組的首元素。

2、補齊組內剩餘元素,從剩餘的28筆文件獲取和第一組第一個文件最相似的文件,補齊剩餘9個文件。

方法類似,補齊第二組的剩餘文件。所有組補齊完成以後,形成第一個迭代。

每次計算剩餘文件和首元素的相似度時,用到了topN取值方法。

排序方法採用:大根堆排序。

3、在上一個迭代的基礎之上,獲取每組的中間文件,作為下一個迭代的首文件。然後,補齊剩餘的文件,補齊過程和2一樣。

4、迭代40次,獲取最後一次迭代結果。

8
  • 整治雙十一購物亂象,國家再次出手!該跟這些套路說再見了
  • Dbscan聚類演算法