-
1 # 使用者2769460044083
-
2 # 刺五加葉
結構化資料和非結構化資料是大資料的兩種型別,這兩者之間並不存在真正的衝突。客戶如何選擇不是基於資料結構,而是基於使用它們的應用程式:關係資料庫用於結構化資料,大多數其他型別的應用程式用於非結構化資料。
然而,結構化資料分析的難易程度與非結構化資料的分析難度之間的關係日益緊張。結構化資料分析是一種成熟的過程和技術。非結構化資料分析是一個新興的行業,在研發方面有很多新的投資,但不是一項成熟的技術。瞭解兩者之間的差異是充分利用這兩者的關鍵,特別是在從Web資料中獲益時。
什麼是結構化資料
大多數人都熟悉結構化資料的工作原理。結構化資料,可以從名稱中看出,是高度組織和整齊格式化的資料。它是可以放入表格和電子表格中的資料型別。它可能不是人們最容易找到的資料型別,但與非結構化資料相比,無疑是兩者中人們更容易使用的資料型別。另一方面,計算機可以輕鬆地搜尋它。
結構化資料也被成為定量資料,是能夠用資料或統一的結構加以表示的資訊,如數字、符號。在專案中,儲存和管理這些的資料一般為關係資料庫,當使用結構化查詢語言或SQL時,計算機程式很容易搜尋這些術語。結構化資料具有的明確的關係使得這些資料運用起來十分方便,不過在商業上的可挖掘價值方面就比較差。
典型的結構化資料包括:信用卡號碼、日期、財務金額、電話號碼、地址、產品名稱等。
什麼是非結構化資料
非結構化資料本質上是結構化資料之外的一切資料。它不符合任何預定義的模型,因此它儲存在非關係資料庫中,並使用NoSQL進行查詢。它可能是文字的或非文字的,也可能是人為的或機器生成的。簡單的說,非結構化資料就是欄位可變的的資料。
非結構化資料不是那麼容易組織或格式化的。收集,處理和分析非結構化資料也是一項重大挑戰。這產生了一些問題,因為非結構化資料構成了網路上絕大多數可用資料,並且它每年都在增長。隨著更多資訊在網路上可用,並且大部分資訊都是非結構化的,找到使用它的方法已成為許多企業的重要戰略。更傳統的資料分析工具和方法還不足以完成工作。
典型的人為生成的非結構化資料包括:
文字檔案:文字處理、電子表格、簡報、電子郵件、日誌。
電子郵件:電子郵件由於其元資料而具有一些內部結構,我們有時將其稱為半結構化。但是,訊息欄位是非結構化的,傳統的分析工具無法解析它。
社交媒體:來自新浪微博、微信、QQ、Facebook,Twitter,LinkedIn等平臺的資料。
網站: YouTube,Instagram,照片共享網站。
移動資料:簡訊、位置等。
通訊:聊天、即時訊息、電話錄音、協作軟體等。
媒體:MP3、數碼照片、音訊檔案、影片檔案。
業務應用程式:MS Office文件、生產力應用程式。
典型的機器生成的非結構化資料包括:
衛星影象:天氣資料、地形、軍事活動。
科學資料:石油和天然氣勘探、空間勘探、地震影象、大氣資料。
數字監控:監控照片和影片。
感測器資料:交通、天氣、海洋感測器。
結構化資料與非結構化資料:有何區別
從上文的解釋中,結構化和非結構化資料之間的差異逐漸變得清晰。除了儲存在關係資料庫和儲存非關係資料庫之外的明顯區別之外,最大的區別在於分析結構化資料與非結構化資料的便利性。針對結構化資料存在成熟的分析工具,但用於挖掘非結構化資料的分析工具正處於萌芽和發展階段。
並且非結構化資料要比結構化資料多得多。非結構化資料佔企業資料的80%以上,並且以每年55%~65%的速度增長。如果沒有工具來分析這些海量資料,企業資料的巨大價值都將無法發揮。
隨著儲存成本的下降,以及新興技術的發展,行業對非結構化資料的重視程度得到提高。比如物聯網、工業4.0、影片直播產生了更多的非結構化資料,而人工智慧、機器學習、語義分析、影象識別等技術方向則更需要大量的非結構化資料來開展工作。
回覆列表
(1)結構化資料,簡單來說就是資料庫。結合到典型場景中更容易理解,比如企業ERP、財務系統;醫療HIS資料庫;政府行政審批;其他核心資料庫等。這些應用需要哪些儲存方案呢?基本包括高速儲存應用需求、資料備份需求、資料共享需求以及資料容災需求。
(2)非結構化資料庫是指其欄位長度可變,並且每個欄位的記錄又可以由可重複或不可重複的子欄位構成的資料庫,用它不僅可以處理結構化資料(如數字、符號等資訊)而且更適合處理非結構化資料(全文文字、影象、聲音、影視、超媒體等資訊)。