回覆列表
  • 1 # 藍風24

    1.墓於粗糙集( Rough Set)理論的約簡方法

    粗糙集理論是一種研究不精確、不確定性知識的數學工具。目前受到了KDD的廣泛重視,利用粗糙集理論對資料進行處理是一種十分有效的精簡資料維數的方法。我們所處理的資料一般存在資訊的含糊性(Vagueness)問題。含糊性有三種:術語的模糊性,如高矮;資料的不確定性,如噪聲引起的;知識自身的不確定性,如規則的前後件間的依賴關係並不是完全可靠的。在KDD中,對不確定資料和噪聲干擾的處理是粗糙集方法的

    2.基於概念樹的資料濃縮方法

    在資料庫中,許多屬性都是可以進行資料歸類,各屬性值和概念依據抽象程度不同可以構成一個層次結構,概念的這種層次結構通常稱為概念樹。概念樹一般由領域專家提供,它將各個層次的概念按一般到特殊的順序排列。

    3.資訊理論思想和普化知識發現

    特徵知識和分類知識是普化知識的兩種主要形式,其演算法基本上可以分為兩類:資料立方方法和麵向屬性歸納方法。

    普通的基於面向屬性歸納方法在歸納屬性的選擇上有一定的盲目性,在歸納過程中,當供選擇的可歸納屬性有多個時,通常是隨機選取一個進行歸納。事實上,不同的屬性歸納次序獲得的結果知識可能是不同的,根據資訊理論最大墒的概念,應該選用一個資訊丟失最小的歸納次序。

    4.基於統計分析的屬性選取方法

    我們可以採用統計分析中的一些演算法來進行特徵屬性的選取,比如主成分分析、逐步迴歸分析、公共因素模型分析等。這些方法的共同特徵是,用少量的特徵元組去描述高維的原始知識基。

    5.遺傳演算法〔GA, Genetic Algo}thrn})

    遺傳演算法是一種基於生物進化論和分子遺傳學的全域性隨機搜尋演算法。遺傳演算法的基本思想是:將問題的可能解按某種形式進行編碼,形成染色體。隨機選取N個染色體構成初始種群。再根據預定的評價函式對每個染色體計算適應值。選擇適應值高的染色體進行復制,透過遺傳運算(選擇、交叉、變異)來產生一群新的更適應環境的染色體,形成新的種群。這樣一代一代不斷繁殖進化,最後收斂到一個最適合環境的個體上,從而求得問題的最優解。遺傳演算法應用的關鍵是適應度函式的建立和染色體的描述。在實際應用中,通常將它和神經網路方法綜合使用。透過遺傳演算法來搜尋出更重要的變數組合。

  • 中秋節和大豐收的關聯?
  • 頭暈和眩暈綜合徵有什麼區別?