回覆列表
  • 1 # Fannie小蜜蜂

    可以先看一下資料缺失(missing)狀況、(某些變數)的分佈,然後看一下相關關係,最後建模。

    題主給出的條件比較少,只提供了資料量(記錄數),尚未給出其他資訊。但碰到一批新的資料時,

    (1)去除某些變數嚴重缺失的資料記錄後,可以先看一下資料的分佈狀況,可以先看一下某幾個感覺重要的變數的分佈狀況(頻率分佈圖,或者Kernel density estimation),python 的pandas和seaborn (如seaborn.distplot())都可以簡單的實現。若想看一下資料整體的分佈狀況,可以透過PCA或MDS找到那些異常值(偏離大部分記錄的資料點)。

    (2)進行了簡單的資料清洗與查看了大體分佈後,可以定性的探究一下不同變數間的相關關係(可看做定性分析)。

    seaborn.heatmap()

    可簡單實現, 如下圖。

    (3) 進行了上述分析後,然後可以透過stepwise 線性迴歸或者廣義可加性模型等“傳統模型”建模,預測目標變數或者透過樸素貝葉斯,支援向量機,kNN等方法構建分類模型,若這些模型精度比較差,不能達到滿意的效果,可以構建人工神經網路(簡單的如多層感知器MLP)來進行建模。

    上述三步為大體的挖掘步驟,清洗與分佈-相關(定性)-建模(定量),且每一步都可生成若干個分析圖表或報告。

  • 中秋節和大豐收的關聯?
  • 雙子座和摩羯座如何相處?