回覆列表
  • 1 # 鎂客網

    資料挖據和機器學習是處理資料的兩個步驟。

    資料挖據提供資料管理技術,機器學習提供資料分析處理技術。

    舉個簡單的例子,馬雲想知道在淘寶裡什麼使用者喜歡買些什麼。

    首先分析這個問題,要分使用者、類別產品類別進行資訊採集。並不是所有的淘寶購買資訊都要,只要使用者的年齡、性別和購買物品的類別以及收藏欄和購物車這些資訊。那麼這時,使用者購買的時間、使用者購買時付的費用這些都是無關資料。

    這時候就要用到資料探勘技術了,常用的資料挖據方法是爬蟲(這裡提醒廣大使用者,爬蟲需要兼顧道德和法律責任,酌情使用)。淘寶自己則不用爬蟲,直接運用資料探勘技術在海量的資料裡提取上文說的所需要的資訊,這是一個複雜並且漫長的過程。

    當所需要的年齡、性別、以及購物類別資料採集完成並分類完成,這時候就需要神經網路來工作了。根據資料分類選擇神經網路的種類,並優選網路節點、函式,設定閾值,最後開始訓練。最後就得到馬雲想知道的東西了。

    綜上所述,資料探勘側發現知識,機器學習側重認識事物,兩者相輔相成。

  • 2 # 讀芯術

    資料探勘

    資料探勘是一項使用資料探索技術發現一些有趣(而不明顯)的模式的技術。

    什麼模式?例如:根據某些特徵對資料進行分組的方式、異常檢測(罕見值)、某些觀察值與其他值之間的相關性、某些事件的連續性、行為的識別等。

    資料探勘使用機器學習等方法。

    機器學習

    機器學習是人工智慧最重要的分支。它的任務是:研究和開發技術,使機器能夠在沒有人類明確指令的情況下自學,從而執行特定的任務。

    機器將從輸入資料集(稱為樣本或訓練資料)中學習,根據演算法檢測到的模式建立數學模型。該模型的最終目標是對之後來自相同資料來源的資料進行(準確的)預測或決策。

    傳統的機器學習主要有兩種型別:

    · 監督學習:當訓練資料被“標記”時。這意味著,對於每個樣本,我們都有與觀察到的變數(輸入)和我們想要學習預測或分類的變數(輸出、目標或因變數)相對應的值。在這種型別中,我們找到了迴歸演算法(預測數值的演算法)和分類演算法(輸出僅限於某些分類值時)。

    · 無監督學習:當訓練資料沒有標記時(我們沒有目標變數)。這裡的目標是找到某種結構或模式,例如對訓練樣本進行分組,這樣我們就可以對未來的樣本進行分類。

    傳統的機器學習已經讓位於更復雜或更現代的學習型別:

    · 整合方法:基本上是幾種演算法聯合使用,將它們的結果結合起來以獲取更好的結果。儘管XGBoost憑藉在Kaggle的勝利而得名,但最常見的例子還是隨機森林。

    · 強化學習:機器透過反覆試誤來學習,這得益於它對周圍環境的迭代做出的反饋。你可能聽說過AlphaGo或AlphaStar(在《星際爭霸2》中實力碾壓人類)。

    · 深度學習:CROWN上的寶石……

    我們一起分享AI學習與發展的乾貨

  • 中秋節和大豐收的關聯?
  • 現在是不是大資料時代?