首頁>Club>
8
回覆列表
  • 1 # 黑暗過後就是黎明

    分類和數值預測是預測問題的兩種主要型別。分類是預測分類(離散、無序的)標號,而預測則是建立連續值函式模型。


    一、分類問題的步驟:

    1、使用訓練集建立描述預先定義的資料類或概念集的分類器。

    第一步也稱之為“學習步”或者“訓練模型階段”,使用特定的分類演算法透過分析從訓練集中學習來構造相應的分類器或者分類模型。這一步也可以看做是,透過訓練樣本學習一個對映或者函式,它可以用來預測給定元組X的類標號y。


    訓練集是由資料元組和與之相關聯的類標號組成,資料元組X由n維屬性向量組成,表示該元組在第i個屬性上的取值。


    由於訓練集中每個元組都有其對應的類標號,因此分類模型的訓練過程也稱為監督學習(Supervised Learning),即分類器的學習是在被告知每個訓練元組的屬於哪個類的監督下進行。


    與之對應的是聚類,也稱為無監督學習(Unsupervised Learning),在學習的過程中,每個訓練元組的類標號是未知的,並且透過學習所形成的類的個數或集合也可能實現不知道。


    2、使用第一步建立的分類模型對新的資料進行分類。

    建立起相應的分類模型後就可以應用該模型對新資料進行分類。對於一個特定的模型衡量其效能的主要指標是:準確率(Accuracy)


    (1)、分類器的準確率度量

    準確率Acc(M),在模式識別文獻中也稱為分類器的總體識別率(Recognition Rate),是分類器M正確分類的的元組所佔的百分比,它反映分類器對各類元組的識別情況。


    混淆矩陣(Confusion Matrix)是分析分類器識別不同類元組的一種有效工具。給定m個類,則混淆矩陣是一個m*m的二維表,表示類i用被分類器標記為類別j的元組數量。理想地,對於具有高準確率的分類器,大部分的元組都集中在混淆矩陣的對角線上。


    給定兩類,可以使用術語正元組(感興趣的主類元組)和負元組。真正(True Positives)表示分類器正確分類的正元組,真負(True Negatives)是分類器正確標分類的負元組。假正(False Positives)是分類錯誤的負元組,即實際為負元組預測分類為正元組。假負(False Negatives)是錯誤標記的正元組,即實際為正元組被分類器分類為負元組。

  • 2 # hyjj5156

    這兩個詞語差別極大,

    分類是把已經存在的人、事、物按不同因素、條件於以分門歸類,是整理的方法之一。

    預測是對任何尚未發生、發現或造成的人、事、物,進行提前思考和想像,甚至模擬,屬於虛構功能之一。最大的區別在於是不是時序相關的,也就是說時間在此挖掘問題中起不起作用,時序相關的,就可以對未來的情況就可以對未來的情況作出判斷,就是預測,否則就是分類或聚類。

  • 中秋節和大豐收的關聯?
  • 2020空調能效等級標準?