無論何時,抽樣調查法,始終會作為資料分析挖掘工作中的重要分析方法客觀存在。大資料時代更是如此。“統計學無用論”及“大資料即全量資料”都是有悖於實現資料分析挖掘目的,及價值呈現的狹隘認知和錯誤觀點。抽樣調查法:指從總量樣本中,隨機地抽取一定數量的個體進行調查,從而推演出樣本總量的共性特徵。特點是:每個樣本抽中的機率相等,樣本完全獨立,彼此間無一定的關聯性和排斥性。注意:這裡的總量,指的是採集到的樣本總量,而非全量樣本;
下面從大資料特徵,及資料分析過程及分析目的等三個方面,來做具體解析:
1、資料時效性因素;
當下,隨著科技技術及工具的發展使用,資料採集彙總的成本及難度越來越低,資料集合的量級、型別不斷擴大,甚至在相對狀態下,逐漸趨向全量資料集合;但由於資料的時效性,決定了資料分析中的樣本,永遠不可能是全量資料集合。
2、資料適用性因素;
用於分析挖掘的資料集合,其必須首先滿足兩個基本條件:資料的真實性和適用性;脫離了這兩個基本特點的資料,不具備分析挖掘的必要性,其輸出的結果沒有價值,更不具備決策或行動計劃參考性;這些資料一定是樣本資料,而非全量資料;
現實中資料,總是隨著時間,空間的變化,在數量上動態增減,不管資料量多大,我們所能採集獲取到的,都只是一個時空區間的樣本資料,而並非全量。
1、目的一,校驗過往資料輸出價值。
舉例說明:杜蕾斯的安全性;那麼我們是不是需要把所有的小杜都吹成氣球,測試一遍?
不現實,是吧。。。
2、目的二,描述事物當下實際狀態;
舉例說明:調研大資料人才市場需求情況,你會不會每個城市、每個人都去詢問一遍?
這工作量,時間、人工成本,是不是難度很大?
能用抽樣調查完成的相同結果的輸出,憑啥還要消耗多餘的資源呢?太浪費啦!
3、目的三,預測未來事物發展趨勢;
如果這裡一定要用全量資料進行分析預測的話,那麼未來的資料你如何獲取?你是超人?閃電俠?還是時空旅行者?能穿越嗎?
這就是個根本問題,更能說明大資料時代,分析挖掘的資料集合,一定絕壁是樣本資料了。
綜上簡述,我們處在一個動態的時空裡,任何事物都不會是絕對全量存在,你我也就百十來年的人生歷程,也都只是歷史長河中的微小一段的經歷而已。
還認為大資料時代的資料集合,就是全量資料集合的觀念,那麼對資料認知及資料統計分析挖掘過程和價值目的輸出等方面的理解,就太片面或者根本就是錯誤的。該掃掃“數盲”了。
無論何時,抽樣調查法,始終會作為資料分析挖掘工作中的重要分析方法客觀存在。大資料時代更是如此。“統計學無用論”及“大資料即全量資料”都是有悖於實現資料分析挖掘目的,及價值呈現的狹隘認知和錯誤觀點。抽樣調查法:指從總量樣本中,隨機地抽取一定數量的個體進行調查,從而推演出樣本總量的共性特徵。特點是:每個樣本抽中的機率相等,樣本完全獨立,彼此間無一定的關聯性和排斥性。注意:這裡的總量,指的是採集到的樣本總量,而非全量樣本;
下面從大資料特徵,及資料分析過程及分析目的等三個方面,來做具體解析:
一、大資料基本特徵是量級大,型別多;但大資料≠全量資料集合;1、資料時效性因素;
當下,隨著科技技術及工具的發展使用,資料採集彙總的成本及難度越來越低,資料集合的量級、型別不斷擴大,甚至在相對狀態下,逐漸趨向全量資料集合;但由於資料的時效性,決定了資料分析中的樣本,永遠不可能是全量資料集合。
2、資料適用性因素;
用於分析挖掘的資料集合,其必須首先滿足兩個基本條件:資料的真實性和適用性;脫離了這兩個基本特點的資料,不具備分析挖掘的必要性,其輸出的結果沒有價值,更不具備決策或行動計劃參考性;這些資料一定是樣本資料,而非全量資料;
二、資料分析過程中,所使用的資料集合均為樣本,而非全量;現實中資料,總是隨著時間,空間的變化,在數量上動態增減,不管資料量多大,我們所能採集獲取到的,都只是一個時空區間的樣本資料,而並非全量。
三、資料分析挖掘目的,決定了資料的樣本集合特點是抽樣,而非全量;1、目的一,校驗過往資料輸出價值。
舉例說明:杜蕾斯的安全性;那麼我們是不是需要把所有的小杜都吹成氣球,測試一遍?
不現實,是吧。。。
2、目的二,描述事物當下實際狀態;
舉例說明:調研大資料人才市場需求情況,你會不會每個城市、每個人都去詢問一遍?
這工作量,時間、人工成本,是不是難度很大?
能用抽樣調查完成的相同結果的輸出,憑啥還要消耗多餘的資源呢?太浪費啦!
3、目的三,預測未來事物發展趨勢;
如果這裡一定要用全量資料進行分析預測的話,那麼未來的資料你如何獲取?你是超人?閃電俠?還是時空旅行者?能穿越嗎?
這就是個根本問題,更能說明大資料時代,分析挖掘的資料集合,一定絕壁是樣本資料了。
綜上簡述,我們處在一個動態的時空裡,任何事物都不會是絕對全量存在,你我也就百十來年的人生歷程,也都只是歷史長河中的微小一段的經歷而已。
還認為大資料時代的資料集合,就是全量資料集合的觀念,那麼對資料認知及資料統計分析挖掘過程和價值目的輸出等方面的理解,就太片面或者根本就是錯誤的。該掃掃“數盲”了。