well,題主沒搞清楚,是否學統計學跟資料量大小沒關係啊。
舉個例子,做相關性分析,無論針對大資料還是小資料,不學統計學怎麼做?
正確的姿勢應該是,統計學裡面的很多概念、方法和應用都是基於小資料來實現的,那麼大資料下還能用,或者還需要嗎?由於這個概念很廣,這裡只舉一個方面的例子說明——大資料下的資料工作是否還需要抽樣?
抽樣是從整體樣本中透過一定的方法選擇一部分樣本,抽樣是資料處理的基本步驟之一,也是科學實驗、質量檢驗、社會調查普遍採用的一種經濟有效的工作和研究方法。
抽樣工作在資料獲取較少或處理大量資料比較困難的時代非常流行,主要有以下幾方面背景:
資料計算資源不足。計算機軟硬體的限制是導致抽樣產生的基本原因之一,尤其是在資料密集的生物、科學工程等領域,不抽樣往往無法對海量資料進行計算。
資料採集限制。很多時候抽樣從資料採集端便已經開始,例如做社會調查必須採用抽樣方法進行研究,因為根本無法做所有人群做調查。
時效性要求。抽樣帶來的以區域性反應全域性的思路,如果方法正確,可以以極小的資料計算量來實現對整體資料的統計分析,在時效性上會大大增強。
如果存在上述條件限制或有類似強制性要求,那麼抽樣工作仍然必不可少。但是在當前資料化運營的大背景下,資料計算資源充足、資料採集端可以採集更多的資料並且可以透過多種方式滿足時效性的要求。抽樣工作是否就沒有必要了?其實不是的,即使上述限制條件都滿足,還有很多場景依然需要透過抽樣方法來解決具體問題:
透過抽樣來實現快速的概念驗證。資料工作中可能會包括創新性或常識性專案,對於這類專案進行快速驗證、迭代和交付結論往往是概念驗證的關鍵,透過抽樣方法帶來的不僅是計算效率的提升,還有前期資料準備、資料預處理、演算法實現等各個方面的開發,以及伺服器、硬體的配套方案的部署等內容的可行性、簡單化和可操作性。
透過抽樣來解決樣本不均衡問題。在“3.4解決樣本類別分佈不均衡的問題”中,我們提到了透過欠抽樣、過抽樣以及組合/整合的方法解決不均衡的問題,這個過程就用到了抽樣方法。
無法實現對全部樣本覆蓋的資料化運營場景。典型場景包括市場研究、客戶線下調研分析、產品品質檢驗、使用者電話滿意度調查等,這些場景下無法實現對所有樣本的採集、分析、處理和建模。
定性分析的工作需要。在定性分析工作中,通常不需要定量分析時的完整假設、精確資料和複雜統計分析過程,更多的是採用訪問、觀察和文獻法收集資料並透過主觀理解和定性分析找到問題答案,該過程中主要依靠人自身的能力而非密集的計算機能力來完成研究工作。如果不使用抽樣方法,那麼定性分析將很難完成。
更多,待其他答主補充。
well,題主沒搞清楚,是否學統計學跟資料量大小沒關係啊。
舉個例子,做相關性分析,無論針對大資料還是小資料,不學統計學怎麼做?
正確的姿勢應該是,統計學裡面的很多概念、方法和應用都是基於小資料來實現的,那麼大資料下還能用,或者還需要嗎?由於這個概念很廣,這裡只舉一個方面的例子說明——大資料下的資料工作是否還需要抽樣?
抽樣是從整體樣本中透過一定的方法選擇一部分樣本,抽樣是資料處理的基本步驟之一,也是科學實驗、質量檢驗、社會調查普遍採用的一種經濟有效的工作和研究方法。
抽樣工作在資料獲取較少或處理大量資料比較困難的時代非常流行,主要有以下幾方面背景:
資料計算資源不足。計算機軟硬體的限制是導致抽樣產生的基本原因之一,尤其是在資料密集的生物、科學工程等領域,不抽樣往往無法對海量資料進行計算。
資料採集限制。很多時候抽樣從資料採集端便已經開始,例如做社會調查必須採用抽樣方法進行研究,因為根本無法做所有人群做調查。
時效性要求。抽樣帶來的以區域性反應全域性的思路,如果方法正確,可以以極小的資料計算量來實現對整體資料的統計分析,在時效性上會大大增強。
如果存在上述條件限制或有類似強制性要求,那麼抽樣工作仍然必不可少。但是在當前資料化運營的大背景下,資料計算資源充足、資料採集端可以採集更多的資料並且可以透過多種方式滿足時效性的要求。抽樣工作是否就沒有必要了?其實不是的,即使上述限制條件都滿足,還有很多場景依然需要透過抽樣方法來解決具體問題:
透過抽樣來實現快速的概念驗證。資料工作中可能會包括創新性或常識性專案,對於這類專案進行快速驗證、迭代和交付結論往往是概念驗證的關鍵,透過抽樣方法帶來的不僅是計算效率的提升,還有前期資料準備、資料預處理、演算法實現等各個方面的開發,以及伺服器、硬體的配套方案的部署等內容的可行性、簡單化和可操作性。
透過抽樣來解決樣本不均衡問題。在“3.4解決樣本類別分佈不均衡的問題”中,我們提到了透過欠抽樣、過抽樣以及組合/整合的方法解決不均衡的問題,這個過程就用到了抽樣方法。
無法實現對全部樣本覆蓋的資料化運營場景。典型場景包括市場研究、客戶線下調研分析、產品品質檢驗、使用者電話滿意度調查等,這些場景下無法實現對所有樣本的採集、分析、處理和建模。
定性分析的工作需要。在定性分析工作中,通常不需要定量分析時的完整假設、精確資料和複雜統計分析過程,更多的是採用訪問、觀察和文獻法收集資料並透過主觀理解和定性分析找到問題答案,該過程中主要依靠人自身的能力而非密集的計算機能力來完成研究工作。如果不使用抽樣方法,那麼定性分析將很難完成。
更多,待其他答主補充。