首頁>技術>

資料視覺化是資料分析非常重要的一部分,他能夠幫助我們更好的展現資料分析結果,並能夠幫我們更好的從複雜的資料中提取出更直觀更有效的訊息。今天主要介紹以下幾種:

1、二維散點圖

2、3D散點圖

3、配對圖

4、直方圖

5、箱形圖

我們從一個簡單的虹膜資料集來打比方,它具有4個特徵/獨立變數或預測變數——峰長,萼片寬度,瓣長,瓣寬,這意味著它是4維陣列。資料集具有150個數據點,並且由於每個類別的資料點數相同(即每個類別50個數據點),因此資料集是平衡的。要在python中實現視覺化技術,我們首先必須具有pandas,seaborn,matplotlib和numpy庫。

1. 2D散點圖:

圖1顯示了sepal_length和sepal_width的二維散點圖,並透過繪製一條直線報告了setosa類的藍色點易於透過綠色和橙色資料點分離。但是,使用此二維特徵組合(sepal_length和sepal_width)不容易將類標籤versicolor和virginca分離。在這種情況下,我們可以嘗試其他組合,例如,花瓣長度和花瓣寬度。

圖1 sepal_length和sepal_width的二維散點圖

2. 3D散點圖:

它將資料點繪製到3維空間中。3D繪圖的缺點是它需要與繪圖進行多次互動才能進行解釋,因此它不是更方便的視覺化方法。

圖2來自虹膜資料集的花瓣長度,間隔長度和寬度的3-D散點圖

3.配對圖

我們在資料分析的過程中,一般不做4維散點圖,而是使用成對圖。為了避免使用2D檢查大量組合以及使用3D散點圖檢查許多滑鼠互動作用,這將是一個很好的解決方案。具有4、5、6或7個維度的資料集可以輕鬆地透過成對圖進行解釋,但是,如果維度大於此值,則不是一個好的選擇。為了識別類別標籤,圖3給出了petal_width和petal_length是兩個很有影響力的預測變數,其中setosa可與versicolor和virginica類別線性分離。對角線元素是每個要素的機率密度函式(PDF)。

圖3虹膜資料對圖

4.直方圖:

它是資料點機率分佈的表示。視覺化一個特徵(1D)的更好方法是直方圖。讓我們以圖3所示的sepal_length為例。x軸是sepal_length,其中y軸是sepal_length計數。淡藍色,橙色和綠色分別是setosa的sepal_length,雜色和virginica花型別的直方圖(見圖4)。直方圖告訴我們在4到6的視窗中有多少個數據點。它表明sepal_length大小為5時存在最大的setosa花(約15個)。直方圖的高度顯示給定sepal_length時我們發現特定花朵型別的頻率。平滑線稱為PDF,是直方圖的平滑形式

圖4 sepal_length的直方圖

5.箱形圖:

這是視覺化一維散點圖的另一種技術。箱形圖使用中位數,百分位數和分位數將其放入圖中。透過檢視圖4,我們不知道什麼是setosa sepal_length的25、50或75%。要知道,我們使用箱線圖,它使用百分位數。在圖5中,x軸是花朵型別或對應於每個類別標籤的3個框,y軸是septal_length。讓我們瞭解一下綠色框,它告訴您弗吉尼亞州的萼片長度的第25、50和75%。晶須通常是每個類的特徵的最小值和最大值,但是,沒有標準的繪製方法。此外,箱線圖有助於我們編寫規則並查詢錯誤的分類或錯誤。

圖5 sepal_length的箱形圖

資料分析師們在把資料視覺化的時候需要選擇合適的方法來進行,各個行業的資料都不盡相同,所以也需要用最合適的方法來進行分析處理。

13
最新評論
  • BSA-TRITC(10mg/ml) TRITC-BSA 牛血清白蛋白改性標記羅丹明
  • 程式設計師架構修煉:架構的保障,質量與風險 內建質量體系