回覆列表
  • 1 # 魔數思

    預測資料需要看你的問題是迴歸問題還是分類問題

    如果是迴歸問題可以考慮:

    線性迴歸

    boosting tree for regression

    Gaussian process

    神經網路

    如果是分類問題可以考慮:

    邏輯迴歸 (它披著迴歸的皮做著分類的勾當)

    SVM

    boosting tree for classification (boosting tree能做迴歸也能做分類 但需要設定)

    神經網路 (一樣 神經網路也是迴歸分類都能做 區別在輸出層加不加logistic layer)

    進一步在迴歸和分類問題下面細選模型的話得看你的資料長什麼樣子了 比如他是穩態時間序列 那Gaussian process會很好使 如果是沒啥特別規律的 boosting tree通常不錯

    最後還有個暴力的做法 你可以把幾個模型的預測結果疊加起來也是可以的

  • 2 # 愛資料的小司機

    做資料探勘的時候,建模是一項重要的步驟,直接關係到專案結果是否符合需求,關於模型的選擇,以個人經驗來說,主要從兩個方面

    從業務需求著手

    我們建模做專案的都是為業務服務的,一般最開始都是專案需求分析,這個過程應該會有大量業務和運營人員參與。專案需求首先要搞清楚,比如,做業務預測,做任務畫像,做目標客戶群劃分等等,可能會用到分類演算法,預測演算法,還是聚類演算法,做完需求分析相信你至少在心中會有幾個演算法模型供選擇。

    從資料集結構判斷

    做完需求,再看資料集,首先需要進行資料探索,比如,資料的分部情況,均值,方差,可以透過畫圖來看,比如散點圖,箱形圖等,還要看資料是連續性的還是離散型的等等。如果是文字,需要提取特徵,篩選特徵,在文字分析中用貝葉斯演算法做常見也最合適,對於資料,如果是連續型資料夾雜著離散型資料,結合需求,如果是分類,就可以使用邏輯迴歸演算法或者支援向量機,如果大部分都是離散型資料,夾雜著連續性資料,可以考慮使用決策樹,也可以使用K近鄰演算法,,如果是無標籤的連續型資料,可以考慮使用聚類演算法,當然,都還需要進行資料表換,比如,使用距離分類的演算法要資料標準化。

    演算法沒有通用的,只有最優的選擇,有時候我們需要使用多個演算法,再從中選取準確性,精準率,召回率最佳的演算法,推薦使用Python中sklearn演算法庫,裡面有各種演算法,還有用來最佳化模型的引數最佳化器,會根據設定自動從中選擇最優的演算法和引數。

  • 中秋節和大豐收的關聯?
  • 孩子爸爸說人太誠實就說情商低,自己實在無法認同,難道誠實現在不是美德了嗎?你怎麼看?