結構化資訊與非結構化資訊 我們可以把科技資訊劃分為結構化資訊與非結構化資訊。 結構化資訊是可以數字化的資料資訊,可以方便地透過計算機和資料庫技術進行管理。 無法完全數字化的資訊稱為非結構化資訊,如文件檔案、圖片、圖紙資料 、縮微膠片等。這些資源中擁有大量的有價值的資訊。現在這類非結構化資訊正以成倍的速度增長。 另一種定義: 對於來源繁多的資訊資料,專業人士根據資訊的格式加以劃分,將其分為結構化資訊和非結構化資訊兩大類。 結構化資訊,我們通常接觸的資料庫所管理的資訊,包括生產、業務、交易、客戶資訊等方面的記錄。 非結構化資訊,專業術語為內容,所涵蓋的資訊更為廣泛,可分為:營運內容(operational content):如合約、發票、書信與採購記錄;部門內容(workgroup content):如 文書處理、電子表格、簡報檔案與電子郵件;Web內容:如HTML與XML等格式的資訊;多媒體內容(Rich Media Content):如聲音、影片、圖形等。 如果說結構化資訊更多的忠實、詳實地記錄了企業的生產交易活動,是顯性的表示,那麼非結構化資訊則隱性包含了掌握著企業命脈的關鍵,隱含著許多提高企業效益的機會。對 於企業來說,企業內部,以及企業與供應商、客戶、合作伙伴和員工數字化共享所有形式的資料資源,已越來越重要。 90%的資訊和知識 在結構化世界之外,IT應用中還存在著一個非結構化的世界。對大多數企業來說,ERP等業務系統所管理的結構化資料只佔到企業全部資訊和知識的10%左右,其他的90%都是資料庫難以存取到的非結構化資訊和知識。來自IDC的分析顯示,雖然很多企業投資不菲建立了諸多業務支撐系統,但仍有72%的管理者認為知識沒有在他們的組織得到重複利用,88%的人認為他們沒有接觸到企業最佳實踐的機會。Gartner 也曾預言,對非結構化資訊和知識的管理將會帶來一個新IT應用潮流。 目前的非結構化資訊處理類似於上世紀70年代以前的結構化資訊應用。割裂、無法進行資料互操作的應用是其主流。以人們最常用的文件軟體來看,DOC文件是MS WORD的專用格式,WPS、永中、中文2000等OFFICE產品廠商則各有各的自留地。這種情況下,由於文件格式的束縛而使資訊四分五裂,資訊流無法通暢流轉,資訊處理更加困難,資訊資源因為資訊流的不通暢而喪失了其應有的巨大價值。 從非結構化到半結構化,從半結構化到結構化,從結構化到關聯資料體系,從關聯資料體系到資料探勘,從資料探勘到故事化呈現,從故事化呈現到決策導向。 互連網上出現的海量資訊,大概分為結構化、半結構化和非結構化三種。結構化資訊如電子商務資訊,資訊的性質和量值的出現的位置是固定的;半結構化的資訊如專業網站上的細分頻道,其標題和正文的語法相當規範,關鍵詞的範圍相當侷限;非結構化的資訊如BLOG和BBS,所有內容都是不可預知的。 結構化資訊和非結構化資訊是IT應用的兩個世界,它們有著各自不同的應用進化特點和規律。
結構化資訊與非結構化資訊 我們可以把科技資訊劃分為結構化資訊與非結構化資訊。 結構化資訊是可以數字化的資料資訊,可以方便地透過計算機和資料庫技術進行管理。 無法完全數字化的資訊稱為非結構化資訊,如文件檔案、圖片、圖紙資料 、縮微膠片等。這些資源中擁有大量的有價值的資訊。現在這類非結構化資訊正以成倍的速度增長。 另一種定義: 對於來源繁多的資訊資料,專業人士根據資訊的格式加以劃分,將其分為結構化資訊和非結構化資訊兩大類。 結構化資訊,我們通常接觸的資料庫所管理的資訊,包括生產、業務、交易、客戶資訊等方面的記錄。 非結構化資訊,專業術語為內容,所涵蓋的資訊更為廣泛,可分為:營運內容(operational content):如合約、發票、書信與採購記錄;部門內容(workgroup content):如 文書處理、電子表格、簡報檔案與電子郵件;Web內容:如HTML與XML等格式的資訊;多媒體內容(Rich Media Content):如聲音、影片、圖形等。 如果說結構化資訊更多的忠實、詳實地記錄了企業的生產交易活動,是顯性的表示,那麼非結構化資訊則隱性包含了掌握著企業命脈的關鍵,隱含著許多提高企業效益的機會。對 於企業來說,企業內部,以及企業與供應商、客戶、合作伙伴和員工數字化共享所有形式的資料資源,已越來越重要。 90%的資訊和知識 在結構化世界之外,IT應用中還存在著一個非結構化的世界。對大多數企業來說,ERP等業務系統所管理的結構化資料只佔到企業全部資訊和知識的10%左右,其他的90%都是資料庫難以存取到的非結構化資訊和知識。來自IDC的分析顯示,雖然很多企業投資不菲建立了諸多業務支撐系統,但仍有72%的管理者認為知識沒有在他們的組織得到重複利用,88%的人認為他們沒有接觸到企業最佳實踐的機會。Gartner 也曾預言,對非結構化資訊和知識的管理將會帶來一個新IT應用潮流。 目前的非結構化資訊處理類似於上世紀70年代以前的結構化資訊應用。割裂、無法進行資料互操作的應用是其主流。以人們最常用的文件軟體來看,DOC文件是MS WORD的專用格式,WPS、永中、中文2000等OFFICE產品廠商則各有各的自留地。這種情況下,由於文件格式的束縛而使資訊四分五裂,資訊流無法通暢流轉,資訊處理更加困難,資訊資源因為資訊流的不通暢而喪失了其應有的巨大價值。 從非結構化到半結構化,從半結構化到結構化,從結構化到關聯資料體系,從關聯資料體系到資料探勘,從資料探勘到故事化呈現,從故事化呈現到決策導向。 互連網上出現的海量資訊,大概分為結構化、半結構化和非結構化三種。結構化資訊如電子商務資訊,資訊的性質和量值的出現的位置是固定的;半結構化的資訊如專業網站上的細分頻道,其標題和正文的語法相當規範,關鍵詞的範圍相當侷限;非結構化的資訊如BLOG和BBS,所有內容都是不可預知的。 結構化資訊和非結構化資訊是IT應用的兩個世界,它們有著各自不同的應用進化特點和規律。