成為資料分析師必會的資料視覺化種類

首頁>技術>阿里雲大資料認證2020-12-26 10:00

成為資料分析師必會的資料視覺化種類

資料視覺化是資料分析非常重要的一部分，他能夠幫助我們更好的展現資料分析結果，並能夠幫我們更好的從複雜的資料中提取出更直觀更有效的訊息。今天主要介紹以下幾種：

1、二維散點圖

2、3D散點圖

3、配對圖

4、直方圖

5、箱形圖

我們從一個簡單的虹膜資料集來打比方，它具有4個特徵/獨立變數或預測變數——峰長，萼片寬度，瓣長，瓣寬，這意味著它是4維陣列。資料集具有150個數據點，並且由於每個類別的資料點數相同（即每個類別50個數據點），因此資料集是平衡的。要在python中實現視覺化技術，我們首先必須具有pandas，seaborn，matplotlib和numpy庫。

1. 2D散點圖：

圖1顯示了sepal_length和sepal_width的二維散點圖，並透過繪製一條直線報告了setosa類的藍色點易於透過綠色和橙色資料點分離。但是，使用此二維特徵組合（sepal_length和sepal_width）不容易將類標籤versicolor和virginca分離。在這種情況下，我們可以嘗試其他組合，例如，花瓣長度和花瓣寬度。

圖1 sepal_length和sepal_width的二維散點圖

2. 3D散點圖：

它將資料點繪製到3維空間中。3D繪圖的缺點是它需要與繪圖進行多次互動才能進行解釋，因此它不是更方便的視覺化方法。

圖2來自虹膜資料集的花瓣長度，間隔長度和寬度的3-D散點圖

3.配對圖

我們在資料分析的過程中，一般不做4維散點圖，而是使用成對圖。為了避免使用2D檢查大量組合以及使用3D散點圖檢查許多滑鼠互動作用，這將是一個很好的解決方案。具有4、5、6或7個維度的資料集可以輕鬆地透過成對圖進行解釋，但是，如果維度大於此值，則不是一個好的選擇。為了識別類別標籤，圖3給出了petal_width和petal_length是兩個很有影響力的預測變數，其中setosa可與versicolor和virginica類別線性分離。對角線元素是每個要素的機率密度函式（PDF）。

圖3虹膜資料對圖

4.直方圖：

它是資料點機率分佈的表示。視覺化一個特徵（1D）的更好方法是直方圖。讓我們以圖3所示的sepal_length為例。x軸是sepal_length，其中y軸是sepal_length計數。淡藍色，橙色和綠色分別是setosa的sepal_length，雜色和virginica花型別的直方圖（見圖4）。直方圖告訴我們在4到6的視窗中有多少個數據點。它表明sepal_length大小為5時存在最大的setosa花（約15個）。直方圖的高度顯示給定sepal_length時我們發現特定花朵型別的頻率。平滑線稱為PDF，是直方圖的平滑形式

圖4 sepal_length的直方圖

5.箱形圖：

這是視覺化一維散點圖的另一種技術。箱形圖使用中位數，百分位數和分位數將其放入圖中。透過檢視圖4，我們不知道什麼是setosa sepal_length的25、50或75％。要知道，我們使用箱線圖，它使用百分位數。在圖5中，x軸是花朵型別或對應於每個類別標籤的3個框，y軸是septal_length。讓我們瞭解一下綠色框，它告訴您弗吉尼亞州的萼片長度的第25、50和75％。晶須通常是每個類的特徵的最小值和最大值，但是，沒有標準的繪製方法。此外，箱線圖有助於我們編寫規則並查詢錯誤的分類或錯誤。

圖5 sepal_length的箱形圖

資料分析師們在把資料視覺化的時候需要選擇合適的方法來進行，各個行業的資料都不盡相同，所以也需要用最合適的方法來進行分析處理。

∨ 程式設計師架構修煉：架構的保障，質量與風險內建質量體系

熱門排行

劇多

成為資料分析師必會的資料視覺化種類