資料探勘不同領域中的取樣方法有哪些？

首頁>Club>2021-02-24 05:52

資料探勘不同領域中的取樣方法有哪些？

回覆列表

1 # lanfengz1

1，關聯規則的取樣

挖掘關聯規則的任務通常與事務處理與關係資料庫相關，該任務需要反覆遍歷資料庫，因此在大資料集上將花費大量的時間。有很多的演算法可以改進關聯規則演算法的效率與精度，但在精度保證的前提下，取樣是最直接與最簡單的改進效率的方法。

2.分類的取樣

分類一般分為三種類型:決策樹、神經網路及統計方法(如無偏差分析)，在這些演算法中均有使用取樣的案例。分類的取樣一般有四種，一種是隨機取樣，另外三種是非隨機取樣，分別是“壓縮重複”、“視窗”及“分層”。
3.聚類的取樣

在聚類中進行取樣有若干的用途。有些聚類演算法使用取樣進行初始化工作，例如，利用取樣得到的樣本得到初始化的引數，然後再對大資料集進行聚類。當處理大資料集時，需要降低演算法使用的空間。為了得到較好的聚類，根據資料的分佈情況需要採用不同的取樣方法。隨機取樣仍然是一種常規的方法，在隨機取樣忽略了小的聚類的情況下，一般採用非隨機取樣的方法。非隨機取樣的方法中最常用的是分層取樣。例如，在密度差別很大的資料集中，根據密度的不同，取樣的樣本數量可以不同，在密度較高的區域取樣的次數少一些，而在密度稀疏的區域，取樣的次數多一些。

4.擴充(Scaling-Up)的資料探勘演算法的取樣

擴充是指利用已有的資料探勘演算法能夠高斂地處理大資料集。當資料探勘的演算法初期是處理小資料集的情況下，處理大資料集就會受到限制。在這種情況下，一般會採用分而抬之的方法:將大資料集分解成較小的互不重疊的資料集，利用己有演算法進行處理，然後，將小資料集得出的結果合併成最終的結果。需要注意的是，這種方法等價於將困難轉嫁到合併步驟，即需要複雜的處理才能得到正確的結果。因此，整體的複雜性沒有降低。

∧ 中秋節和大豐收的關聯？

∨ 麻葉子圖片，怎麼做麻葉子才好吃麻葉子的做法步驟？

熱門排行

劇多

資料探勘不同領域中的取樣方法有哪些？