全文共1722字,預計學習時長5分鐘
技術快速發展,各種學科中積極使用定量分析,產生了更大量的資料,資料分析的作用已經超過了最初的預期。由於基礎裝置不斷進步,現在可以擁有多個數據源,如感測器、CRMs、事件、文字、影象、音訊和影片。
現在的大量資料中,大部分是非結構化的,即沒有預定義模型/結構的資料。如影象,是畫素的集合,文字資料是沒有預定義儲存模型的字元序列,以及使用者在Web應用程式上操作的點選流。非結構化資料所需要處理的地方在於,需要透過預處理等方法轉化為結構化資料,以便對結構化資料應用統計方法獲取原始資料中的重要資訊。
論及結構資料,主要是指表格資料(矩形結構資料),即資料庫中的行和列。這種表格資料包含兩種型別的結構化資料:
1.數值資料
用數字所衡量表述的資料,進一步分為兩種表示形式:
· 連續型——資料可以表示時間間隔中的任何值,例如汽車的速度、心率等。
· 離散型——只能接受整數值的資料,如計數值。例如,投擲一枚硬幣20次,正面朝上的次數。
2.分類資料
只能表示可能類別中一組特定的資料。也稱為列舉、因子或名詞性因子。
· 二進位制型,這種分類資料是二進位制分類的一種特殊情況,即只有0/1或者說真/假兩個值。
· 有序型,有明確前後順序的分類資料。例如對一家餐館的五星評價制。(1、2、3、4、5)。
那麼問題來了,為什麼需要了解這些資料型別呢?因為不知道資料型別,將會不知道如何應用正確的統計方法處理這類資料。舉例來說,如果資料框中有一列有序號資料,就必須要進行預處理,在Python中,scikit-learn包提供了一個序號編碼器來處理序號資料。
下一步是深入研究結構化資料,以及如何使用第三方工具包和庫來操作這些結構。我們主要有兩種型別的結構或資料儲存模型:
· 矩形
· 非矩形
矩形資料
資料科學中大多數的分析物件都是針對二位矩形資料(如資料框、電子表格、CSV檔案或是資料庫表格)完成。
矩形資料主要由表示資料型別的行和表示列的變數/特性組成。資料框是一種特殊的資料結構,採用表格格式,提供了高效的資料操作可能。資料框是最常用的資料結構,下方是一些重要的定義:
· 資料框:用於統計和機器學習模型的有效操作和應用的矩形資料結構(如電子表格)。
· 特性:資料框的列值通常被稱為特性。同義詞有(屬性、輸入值、預測值、變數)。
· 結果:許多資料科學專案都涉及到結果預測——通常輸出值yes/no。
· 記錄:資料框中的一行通常被成為記錄。同義詞(例項,模式值,樣本值)。
關係資料庫表將一個或多個指定的列作為索引,本質上是行號查詢。這可以極大程度地提高某些資料庫的查詢效率,在Panda dataframe中,可以根據行的順序自動建立一個整數索引。在Pandas中還可以設定多層次索引提高操作效率。
非矩形資料
除了矩形資料外,還有一些其他的資料結構屬於非矩形資料的範疇。
地理位置分析中使用的空間資料結構更加複雜,不同於矩形資料結構。在地理位置資料中,資料的焦點是一個特定物件(如一個公園)及其空間座標。相比之下,視場檢視聚焦於小的空間單位和相關的度量值。(如畫素強度)。
圖資料結構,這種資料結構通常用來表示資料間的關係——物理關係、社會關係和抽象關係。例如臉書或推特上以社會關係圖的形式表示網路上人們之間的聯絡。圖結構對某些型別的問題特別有用,如網路最佳化和系統推薦問題。
每種資料型別在資料科學中都有特殊的處理方法,本文重點講了矩形資料,希望你已經掌握了它。
我們一起分享AI學習與發展的乾貨