回覆列表
-
1 # 家庭是我的家
-
2 # 網上的跳蚤
結構化資料,簡單來說就是資料庫。相對於結構化資料(即行資料,儲存在資料庫裡,可以用二維表結構來邏輯表達實現的資料)而言,不方便用資料庫二維邏輯表來表現的資料即稱為非結構化資料。因為資料倉庫中的資料是面向某一主題的資料的集合,這些資料從多個業務系統中抽取而來而且包含歷史資料,這樣就避免不了有的資料是錯誤資料、有的資料相互之間有衝突,這些錯誤的或有衝突的資料顯然是我們不想要的,稱為“髒資料”。我們要按照一定的規則把“髒資料”“洗掉”,這就是資料清洗。
結構化資料即行資料,儲存在資料庫裡,可以用二維表結構來邏輯表達實現的資料。非結構化資料,包括所有格式的辦公文件、文字、圖片、XML、HTML、各類報表、影象和音訊/影片資訊等等。所謂半結構化資料,就是介於完全結構化資料(如關係型資料庫、面向物件資料庫中的資料)和完全無結構的資料(如聲音、影象檔案等)之間的資料,HTML文件就屬於半結構化資料。它一般是自描述的,資料的結構和內容混在一起,沒有明顯的區分。
非結構化資料是資料結構不規則或不完整,沒有預定義的資料模型,不方便用資料庫二維邏輯表來表現的資料。包括所有格式的辦公文件、文字、圖片、XML, HTML、各類報表、影象和音訊/影片資訊等等。計算機資訊化系統中的資料分為結構化資料和非結構化資料。非結構化資料其格式非常多樣,標準也是多樣性的,而且在技術上非結構化資訊比結構化資訊更難標準化和理解。所以儲存、檢索、釋出以及利用需要更加智慧化的IT技術,比如海量儲存、智慧檢索、知識挖掘、內容保護、資訊的增值開發利用等