1,關聯規則的取樣
挖掘關聯規則的任務通常與事務處理與關係資料庫相關,該任務需要反覆遍歷資料庫,因此在大資料集上將花費大量的時間。有很多的演算法可以改進關聯規則演算法的效率與精度,但在精度保證的前提下,取樣是最直接與最簡單的改進效率的方法。
2.分類的取樣
分類一般分為三種類型:決策樹、神經網路及統計方法(如無偏差分析),在這些演算法中均有使用取樣的案例。分類的取樣一般有四種,一種是隨機取樣,另外三種是非隨機取樣,分別是“壓縮重複”、“視窗”及“分層”。
3.聚類的取樣
在聚類中進行取樣有若干的用途。有些聚類演算法使用取樣進行初始化工作,例如,利用取樣得到的樣本得到初始化的引數,然後再對大資料集進行聚類。當處理大資料集時,需要降低演算法使用的空間。為了得到較好的聚類,根據資料的分佈情況需要採用不同的取樣方法。隨機取樣仍然是一種常規的方法,在隨機取樣忽略了小的聚類的情況下,一般採用非隨機取樣的方法。非隨機取樣的方法中最常用的是分層取樣。例如,在密度差別很大的資料集中,根據密度的不同,取樣的樣本數量可以不同,在密度較高的區域取樣的次數少一些,而在密度稀疏的區域,取樣的次數多一些。
4.擴充(Scaling-Up)的資料探勘演算法的取樣
擴充是指利用已有的資料探勘演算法能夠高斂地處理大資料集。當資料探勘的演算法初期是處理小資料集的情況下,處理大資料集就會受到限制。在這種情況下,一般會採用分而抬之的方法:將大資料集分解成較小的互不重疊的資料集,利用己有演算法進行處理,然後,將小資料集得出的結果合併成最終的結果。需要注意的是,這種方法等價於將困難轉嫁到合併步驟,即需要複雜的處理才能得到正確的結果。因此,整體的複雜性沒有降低。
1,關聯規則的取樣
挖掘關聯規則的任務通常與事務處理與關係資料庫相關,該任務需要反覆遍歷資料庫,因此在大資料集上將花費大量的時間。有很多的演算法可以改進關聯規則演算法的效率與精度,但在精度保證的前提下,取樣是最直接與最簡單的改進效率的方法。
2.分類的取樣
分類一般分為三種類型:決策樹、神經網路及統計方法(如無偏差分析),在這些演算法中均有使用取樣的案例。分類的取樣一般有四種,一種是隨機取樣,另外三種是非隨機取樣,分別是“壓縮重複”、“視窗”及“分層”。
3.聚類的取樣
在聚類中進行取樣有若干的用途。有些聚類演算法使用取樣進行初始化工作,例如,利用取樣得到的樣本得到初始化的引數,然後再對大資料集進行聚類。當處理大資料集時,需要降低演算法使用的空間。為了得到較好的聚類,根據資料的分佈情況需要採用不同的取樣方法。隨機取樣仍然是一種常規的方法,在隨機取樣忽略了小的聚類的情況下,一般採用非隨機取樣的方法。非隨機取樣的方法中最常用的是分層取樣。例如,在密度差別很大的資料集中,根據密度的不同,取樣的樣本數量可以不同,在密度較高的區域取樣的次數少一些,而在密度稀疏的區域,取樣的次數多一些。
4.擴充(Scaling-Up)的資料探勘演算法的取樣
擴充是指利用已有的資料探勘演算法能夠高斂地處理大資料集。當資料探勘的演算法初期是處理小資料集的情況下,處理大資料集就會受到限制。在這種情況下,一般會採用分而抬之的方法:將大資料集分解成較小的互不重疊的資料集,利用己有演算法進行處理,然後,將小資料集得出的結果合併成最終的結果。需要注意的是,這種方法等價於將困難轉嫁到合併步驟,即需要複雜的處理才能得到正確的結果。因此,整體的複雜性沒有降低。