決策樹是數學、計算機科學與管理學中經常使用的工具。 決策論中 (如風險管理),決策樹(Decision tree)由一個決策圖和可能的結果(包括資源成本和風險)組成, 用來建立到達目標的規劃。決策樹建立並用來輔助決策,是一種特殊的樹結構。決策樹是一個利用像樹一樣的圖形或決策模型的決策支援工具,包括隨機事件結果,資源代價和實用性。它是一個演算法顯示的方法。決策樹經常在運籌學中使用,特別是在決策分析中,它幫助確定一個能最可能達到目標的策略。如果在實際中,決策不得不在沒有完備知識的情況下被線上採用,一個決策樹應該平行機率模型作為最佳的選擇模型或線上選擇模型演算法。決策樹的另一個使用是作為計算條件機率的描述性手段。 決策樹提供了一種展示類似在什麼條件下會得到什麼值這類規則的方法。比如,在貸款申請中,要對申請的風險大小做出判斷,圖是為了解決這個問題而建立的一棵決策樹,從中我們可以看到決策樹的基本組成部分:決策節點、分支和葉子。 決策樹中最上面的節點稱為根節點,是整個決策樹的開始。本例中根節點是“收入>¥40,000”,對此問題的不同回答產生了“是”和“否”兩個分支。 決策樹的每個節點子節點的個數與決策樹在用的演算法有關。如CART演算法得到的決策樹每個節點有兩個分支,這種樹稱為二叉樹。允許節點含有多於兩個子節點的樹稱為多叉樹。決策樹的內部節點(非樹葉節點)表示在一個屬性上的測試。 每個分支要麼是一個新的決策節點,要麼是樹的結尾,稱為葉子。在沿著決策樹從上到下遍歷的過程中,在每個節點都會遇到一個問題,對每個節點上問題的不同回答導致不同的分支,最後會到達一個葉子節點。這個過程就是利用決策樹進行分類的過程,利用幾個變數(每個變數對應一個問題)來判斷所屬的類別(最後每個葉子會對應一個類別)。例如, 假如負責借貸的銀行官員利用上面這棵決策樹來決定支援哪些貸款和拒絕哪些貸款,那麼他就可以用貸款申請表來執行這棵決策樹,用決策樹來判斷風險的大小。“年收入>¥40,00”和“高負債”的使用者被認為是“高風險”,同時“收入5年”的申請,則被認為“低風險”而建議貸款給他/她。 資料探勘中決策樹是一種經常要用到的技術,可以用於分析資料,同樣也可以用來作預測(就像上面的銀行官員用他來預測貸款風險)。常用的演算法有CHAID、 CART、ID3、C4.5、 Quest 和C5.0。 建立決策樹的過程,即樹的生長過程是不斷的把資料進行切分的過程,每次切分對應一個問題,也對應著一個節點。對每個切分都要求分成的組之間的“差異”最大。 對決策樹演算法的研究開發主要以國外為主, 現有的涉及決策樹演算法的軟體有SEE5、Weka、spss等,在國內也有不少人開展了對決策樹演算法的構建及應用研究,如中國測繪科學研究院在原有C5.0演算法的基礎上進行了演算法重構,將其用於地表覆蓋遙感影像分類中。
決策樹是數學、計算機科學與管理學中經常使用的工具。 決策論中 (如風險管理),決策樹(Decision tree)由一個決策圖和可能的結果(包括資源成本和風險)組成, 用來建立到達目標的規劃。決策樹建立並用來輔助決策,是一種特殊的樹結構。決策樹是一個利用像樹一樣的圖形或決策模型的決策支援工具,包括隨機事件結果,資源代價和實用性。它是一個演算法顯示的方法。決策樹經常在運籌學中使用,特別是在決策分析中,它幫助確定一個能最可能達到目標的策略。如果在實際中,決策不得不在沒有完備知識的情況下被線上採用,一個決策樹應該平行機率模型作為最佳的選擇模型或線上選擇模型演算法。決策樹的另一個使用是作為計算條件機率的描述性手段。 決策樹提供了一種展示類似在什麼條件下會得到什麼值這類規則的方法。比如,在貸款申請中,要對申請的風險大小做出判斷,圖是為了解決這個問題而建立的一棵決策樹,從中我們可以看到決策樹的基本組成部分:決策節點、分支和葉子。 決策樹中最上面的節點稱為根節點,是整個決策樹的開始。本例中根節點是“收入>¥40,000”,對此問題的不同回答產生了“是”和“否”兩個分支。 決策樹的每個節點子節點的個數與決策樹在用的演算法有關。如CART演算法得到的決策樹每個節點有兩個分支,這種樹稱為二叉樹。允許節點含有多於兩個子節點的樹稱為多叉樹。決策樹的內部節點(非樹葉節點)表示在一個屬性上的測試。 每個分支要麼是一個新的決策節點,要麼是樹的結尾,稱為葉子。在沿著決策樹從上到下遍歷的過程中,在每個節點都會遇到一個問題,對每個節點上問題的不同回答導致不同的分支,最後會到達一個葉子節點。這個過程就是利用決策樹進行分類的過程,利用幾個變數(每個變數對應一個問題)來判斷所屬的類別(最後每個葉子會對應一個類別)。例如, 假如負責借貸的銀行官員利用上面這棵決策樹來決定支援哪些貸款和拒絕哪些貸款,那麼他就可以用貸款申請表來執行這棵決策樹,用決策樹來判斷風險的大小。“年收入>¥40,00”和“高負債”的使用者被認為是“高風險”,同時“收入5年”的申請,則被認為“低風險”而建議貸款給他/她。 資料探勘中決策樹是一種經常要用到的技術,可以用於分析資料,同樣也可以用來作預測(就像上面的銀行官員用他來預測貸款風險)。常用的演算法有CHAID、 CART、ID3、C4.5、 Quest 和C5.0。 建立決策樹的過程,即樹的生長過程是不斷的把資料進行切分的過程,每次切分對應一個問題,也對應著一個節點。對每個切分都要求分成的組之間的“差異”最大。 對決策樹演算法的研究開發主要以國外為主, 現有的涉及決策樹演算法的軟體有SEE5、Weka、spss等,在國內也有不少人開展了對決策樹演算法的構建及應用研究,如中國測繪科學研究院在原有C5.0演算法的基礎上進行了演算法重構,將其用於地表覆蓋遙感影像分類中。