高維資料的概念其實不難,簡單的說就是多維資料的意思。平時我們經常接觸的是一維資料或者可以寫成表形式的二維資料,高維資料也可以類推,不過維數較高的時候,直觀表示很難。
目前高維資料探勘是研究重點,這是它的特點:
高維資料探勘是基於高維度的一種資料探勘,它和傳統的資料探勘最主要的區別在於它的高維度。目前高維資料探勘已成為資料探勘的重點和難點。隨著技術的進步使得資料收集變得越來越容易,導致資料庫規模越來越大、複雜性越來越高,如各種型別的貿易交易資料、Web 文件、基因表達資料、文件詞頻資料、使用者評分資料、WEB使用資料及多媒體資料等,它們的維度(屬性)通常可以達到成百上千維,甚至更高。
由於高維資料存在的普遍性,使得對高維資料探勘的研究有著非常重要的意義。但由於“維災”的影響,也使得高維資料探勘變得異常地困難,必須採用一些特殊的手段進行處理。 隨著資料維數的升高,高維索引結構的效能迅速下降,在低維空間中,我們經常採用歐式距離作為資料之間的相似性度量,但在高維空間中很多情況下這種相似性的概念不復存在,這就給高維資料探勘帶來了很嚴峻的考驗,一方面引起基於索引結構的資料探勘演算法的效能下降,另一方面很多基於全空間距離函式的挖掘方法也會失效。解決的方法可以有以下幾種:可以透過降維將資料從高維降到低維,然後用低維資料的處理辦法進行處理;對演算法效率下降問題可以透過設計更為有效的索引結構、採用增量演算法及並行演算法等來提高演算法的效能;對失效的問題透過重新定義使其獲得新生。
高維資料的概念其實不難,簡單的說就是多維資料的意思。平時我們經常接觸的是一維資料或者可以寫成表形式的二維資料,高維資料也可以類推,不過維數較高的時候,直觀表示很難。
目前高維資料探勘是研究重點,這是它的特點:
高維資料探勘是基於高維度的一種資料探勘,它和傳統的資料探勘最主要的區別在於它的高維度。目前高維資料探勘已成為資料探勘的重點和難點。隨著技術的進步使得資料收集變得越來越容易,導致資料庫規模越來越大、複雜性越來越高,如各種型別的貿易交易資料、Web 文件、基因表達資料、文件詞頻資料、使用者評分資料、WEB使用資料及多媒體資料等,它們的維度(屬性)通常可以達到成百上千維,甚至更高。
由於高維資料存在的普遍性,使得對高維資料探勘的研究有著非常重要的意義。但由於“維災”的影響,也使得高維資料探勘變得異常地困難,必須採用一些特殊的手段進行處理。 隨著資料維數的升高,高維索引結構的效能迅速下降,在低維空間中,我們經常採用歐式距離作為資料之間的相似性度量,但在高維空間中很多情況下這種相似性的概念不復存在,這就給高維資料探勘帶來了很嚴峻的考驗,一方面引起基於索引結構的資料探勘演算法的效能下降,另一方面很多基於全空間距離函式的挖掘方法也會失效。解決的方法可以有以下幾種:可以透過降維將資料從高維降到低維,然後用低維資料的處理辦法進行處理;對演算法效率下降問題可以透過設計更為有效的索引結構、採用增量演算法及並行演算法等來提高演算法的效能;對失效的問題透過重新定義使其獲得新生。