通常情況下,我們所採集到的資料可以被分為三種類型 ,即非結構化資料,結構化資料,以及半結構化資料。
首先,無法定義結構的資料稱為非結構化資料。處理和管理非結構化資料是相對來說困難的。常見的非結構化資料為文字資訊,影象資訊,影片資訊以及聲音資訊等等,他們的結構都千變萬化,不能用一個二維表來描述。
另一方面,結構化資料往往被稱為行資料,是由二維表結構來邏輯表達和實現的資料,其嚴格地遵循資料格式與長度規範,主要透過關係型資料庫進行儲存和管理。
比如說大學生的選課系統中,學生,課程,選課,導師等等資料都可以抽象為結構化資料。
除了結構化和非結構化資料之外,我們往往還需要對於半結構化資料進行採集。
半結構化資料和前面介紹的兩種型別的資料都不一樣,它是結構化的資料,但是結構變化很大。
那麼什麼叫結構變化很大呢?結構變化很大即是在半結構化資料中,同一類的不同實體資料的結構可能會有一定程度的不同,即不同實體所具有的屬性會有一定程度的不同,而同時,對於這些實體來說,不同的屬性之間的順序是並不重要的。
一個經典的半結構化資料的例子即為簡歷資訊,每一份簡歷都遵循著簡歷這個大類所存在物理意義,即Highlight我們迄今為止在所在領域的成就。所以我們的簡歷中很有可能會有教育背景、工作經驗以及姓名+聯絡方式等等。
然而在這個大前提下,每一份簡歷所具有的屬性都不盡相同:有的人會在簡歷中加入志願者經歷,有的人會加入自己的所掌握的技能,有的人會加入自己的獲獎經歷等等。這就是我們剛剛所說的資料的結構變化很大的一個體現 。
話說回來,半結構化資料往往以XML或者JSON等方式出現,具體的細節大家可以進一步去了解XML和JSON的特性,在此就不再贅述啦。
那我們剛剛講的非結構資料,結構化資料,以及半結構化資料可以看作是對資料的High-level的分類。然而,根據資料所產生的領域的不同,或者是資料的應用方式不一樣,我們可以進一步將資料分為更為細粒度的型別。
接下來,我們會向大家介紹六種不同的資料型別,注意,這裡把它們放在一起講並不是因為它們是平行的,而是它們確實都是從某個維度上對資料的獨特的描述。當然了,還有很多其他的資料分類,在這裡我們只將一些相對常見的型別。
首先是人口統計學資料,例如性別、年齡等等,這類資料一般可以用來對使用者進行建模時使用。例如,在使用者興趣建模中,不同年齡層的使用者可能會喜歡不同的內容。
而後是使用者搜尋資料,也就是使用者在搜尋引擎中產生的資料。這些可以幫助我們更好地定位使用者的喜好和方向,從而產出更加精準的使用者畫像,以更好地服務使用者。
接下來的天氣資料是一類非常易於採集的資料,其用途也非常廣泛。例如,餐飲業在不同的天氣可能會有不同的營業額,對營業額的建模時,可以加入天氣資料來提升模型的效果。
而位置資料,則是利用GPS所產生的,使用者的地理位置資料。位置資料和人口統計學資料類似,都可以用來對使用者進行建模,例如,我們可以結合人口統計資料以及位置資料來構建更加精準地使用者畫像。
關聯資料是一種比較有意思的資料,如全球資訊網創始人Berners-Lee所說,關聯資料是可以將不同的資料來源相關聯起來的資料。
那我們最後一種要介紹的資料型別,有一個很有意思的名字,叫做資料廢氣。
資料廢棄一般指伴隨使用者的某些活動而產生的一系列資料,例如使用者訪問過的網頁站點資料、點選過的按鈕/內容等等,這類資料由於是活動的副產品,在早期是被當作無用的資料而丟棄的,資料廢氣的名字也就隨之而來啦。
這些資料往往可以用來對使用者的興趣進行建模,例如Netflix、Youtube線上實時推薦服務背後,重要的一環就是利用使用者在他們的App端或者網頁端觀影所產生的資料廢氣來對使用者的興趣進行建模。
以上,我們已經回顧了資料採集的過程中及資料的使用場景,希望看完本文後,大家能對戶資料採集中的細節和概念,有一個更加清晰的認識!
通常情況下,我們所採集到的資料可以被分為三種類型 ,即非結構化資料,結構化資料,以及半結構化資料。
首先,無法定義結構的資料稱為非結構化資料。處理和管理非結構化資料是相對來說困難的。常見的非結構化資料為文字資訊,影象資訊,影片資訊以及聲音資訊等等,他們的結構都千變萬化,不能用一個二維表來描述。
另一方面,結構化資料往往被稱為行資料,是由二維表結構來邏輯表達和實現的資料,其嚴格地遵循資料格式與長度規範,主要透過關係型資料庫進行儲存和管理。
比如說大學生的選課系統中,學生,課程,選課,導師等等資料都可以抽象為結構化資料。
除了結構化和非結構化資料之外,我們往往還需要對於半結構化資料進行採集。
半結構化資料和前面介紹的兩種型別的資料都不一樣,它是結構化的資料,但是結構變化很大。
那麼什麼叫結構變化很大呢?結構變化很大即是在半結構化資料中,同一類的不同實體資料的結構可能會有一定程度的不同,即不同實體所具有的屬性會有一定程度的不同,而同時,對於這些實體來說,不同的屬性之間的順序是並不重要的。
一個經典的半結構化資料的例子即為簡歷資訊,每一份簡歷都遵循著簡歷這個大類所存在物理意義,即Highlight我們迄今為止在所在領域的成就。所以我們的簡歷中很有可能會有教育背景、工作經驗以及姓名+聯絡方式等等。
然而在這個大前提下,每一份簡歷所具有的屬性都不盡相同:有的人會在簡歷中加入志願者經歷,有的人會加入自己的所掌握的技能,有的人會加入自己的獲獎經歷等等。這就是我們剛剛所說的資料的結構變化很大的一個體現 。
話說回來,半結構化資料往往以XML或者JSON等方式出現,具體的細節大家可以進一步去了解XML和JSON的特性,在此就不再贅述啦。
那我們剛剛講的非結構資料,結構化資料,以及半結構化資料可以看作是對資料的High-level的分類。然而,根據資料所產生的領域的不同,或者是資料的應用方式不一樣,我們可以進一步將資料分為更為細粒度的型別。
接下來,我們會向大家介紹六種不同的資料型別,注意,這裡把它們放在一起講並不是因為它們是平行的,而是它們確實都是從某個維度上對資料的獨特的描述。當然了,還有很多其他的資料分類,在這裡我們只將一些相對常見的型別。
首先是人口統計學資料,例如性別、年齡等等,這類資料一般可以用來對使用者進行建模時使用。例如,在使用者興趣建模中,不同年齡層的使用者可能會喜歡不同的內容。
而後是使用者搜尋資料,也就是使用者在搜尋引擎中產生的資料。這些可以幫助我們更好地定位使用者的喜好和方向,從而產出更加精準的使用者畫像,以更好地服務使用者。
接下來的天氣資料是一類非常易於採集的資料,其用途也非常廣泛。例如,餐飲業在不同的天氣可能會有不同的營業額,對營業額的建模時,可以加入天氣資料來提升模型的效果。
而位置資料,則是利用GPS所產生的,使用者的地理位置資料。位置資料和人口統計學資料類似,都可以用來對使用者進行建模,例如,我們可以結合人口統計資料以及位置資料來構建更加精準地使用者畫像。
關聯資料是一種比較有意思的資料,如全球資訊網創始人Berners-Lee所說,關聯資料是可以將不同的資料來源相關聯起來的資料。
那我們最後一種要介紹的資料型別,有一個很有意思的名字,叫做資料廢氣。
資料廢棄一般指伴隨使用者的某些活動而產生的一系列資料,例如使用者訪問過的網頁站點資料、點選過的按鈕/內容等等,這類資料由於是活動的副產品,在早期是被當作無用的資料而丟棄的,資料廢氣的名字也就隨之而來啦。
這些資料往往可以用來對使用者的興趣進行建模,例如Netflix、Youtube線上實時推薦服務背後,重要的一環就是利用使用者在他們的App端或者網頁端觀影所產生的資料廢氣來對使用者的興趣進行建模。
以上,我們已經回顧了資料採集的過程中及資料的使用場景,希望看完本文後,大家能對戶資料採集中的細節和概念,有一個更加清晰的認識!