『統計』究竟是什麼?『統計』什麼樣的研究?
日常生活中我們被無窮無盡的數據所包圍,數據是『為了某種目的而獲得的數字和代碼的集合』,即使模糊地看待它們,也無法從中得到任何東西。
通過統計數據的個數、求平均值、看趨勢、分類,可以第一時間瞭解數據的性質和意義,並加以利用。
一定數量的數據總是伴隨著變化(不確定性)。例如一所學校的每個人都有相同的考試成績,那麼給出平均分數、排名或偏差就沒有意義了。如果天氣和溫度一年四季都保持不變,那麼就不需要天氣預報,也不需要繪製溫度圖表。然而實際上,分數因年級和班級而異,天氣和溫度也因地區和一天中的時間而異。因此繪製了每個班級的平均分數和溫度圖表,以瞭解每個班級的特點並預測明天的溫度。
統計學是研究具有超過一定變異量的數據的性質,或通過提取大量數據(總體)中的一部分,並檢查提取的數據(樣本)的性質。
是一種系統化的方法論估計數據的屬性。
統計系統
『統計』有兩種統計類型。
『描述性統計』是收集特定數據、創建表格和圖形並通過查看平均值和趨勢來了解數據特徵的統計數據。
『推論統計』是從總體中抽取樣本,根據樣本的特徵推斷總體特徵,並檢驗結果是否正確的統計。
描述性統計
如果樣本數據沒有變化,一個單一的值將代表所有樣本特徵,需要各種統計措施來表示。最常用的是平均值。平均值是代表一組有變化的數值。
A組英語平均分60分,B組英語平均分55分,所以A組更勝一籌。
但是真的可以根據代表值來判斷整個班級是否優秀嗎?比如A組有幾個非常優秀的學生,都得了100分。但是如果排除這幾個學生,學生的平均分是53分呢?代表值可能不代表類的整體特徵。在這種情況下顯示分數變化(分佈)的直方圖很有用。通過了解變異的狀態,可以更詳細地瞭解類的特徵。
如果想知道班級的特點,不僅要知道英語,還要知道語文、數學和其他學科成績。這樣一來如果想更詳細地瞭解某個群體的特點,就得收集非常多的項目數據。解決此類複雜問題的統計可以稱為『描述性統計』。
推論統計
推論統計誕生於 1920 年代。在原始時代統計基本上是一種完整的調查,比如記錄和統計獲得的動物數量,沒有種群和樣本的概念。隨著被調查對象數量的增加,進行完整的調查在物理上和時間上都變得困難,因此出現了抽樣的概念。
分層隨機兩階段抽樣 等抽樣理論和保證問卷代表性的實驗設計方法,即使從總體中抽取的樣本數量很少,也能更準確地把握總體特徵,可以說是一種方法論。
例如選舉出口民意調查,這是在計票之前預測計票結果的典型推論統計。似乎每個報社或廣播電臺都有自己的訣竅,即應該在哪個投票站對多少人進行投票,但抽樣是基於抽樣調查的理論進行的。如果符合條件的選民人數約為 1 億,投票率為 50%,則投票人口為 5000 萬。據說票站調查的有效回覆大約有20萬,所以20萬人估計是5000萬人。
在選舉的情況下,計票是對人口的完整調查,因此抽樣調查的正確性在調查後的一天內得到完全驗證。然而許多抽樣調查不允許這樣的驗證。因此檢驗從抽樣調查中獲得的結果是否真正代表了人口的特徵,以及它們在多大程度上代表了人口的特徵,這是一個非常重要的問題。
電視收視率是一個熱門話題。調查戶數在天津、北京、上海地區為600戶,其他調查地區為200戶。與之前的出口民意調查相比,很多人會認為樣本量會小得多。
在調查 600 個樣本時,推論統計清楚地定義了抽樣誤差。例如假設收視率為 10%。這 10% 的誤差為 ±2.4%。也就是說有 95% 的幾率,人群的收視率在 7.6% 到 12.4% 之間。因此可以看出收視率低於10%到9%的說法是沒有意義的。
統計為何一直很火
隨著大數據的出現,統計數據受到關注。原因是充分利用統計和分析大數據,在管理和營銷策略的規劃,以及新產品和服務的開發中可以取得很大的成果。
幾十年來,每個人都知道,決策應該基於基於數據的科學分析,而不是直覺、經驗或膽量。儘管如此從歷史上看,據說還沒有建立起堅實的學術體系。
有些人有一種可疑的印象,即統計數據很簡單,他們對統計數據撒謊。我做了一個假設(零假設)並拒絕了沒有差異的假設,因為存再很多很少發生沒有差異的情況。
統計學和數學看起來很相似,但它們是截然相反的。因為數學在大多數情況下都有公理、定理和確定的答案,所以可以說數學是演繹邏輯。另一方面由於統計學是一種歸納推理,試圖從有一些變異的數據中辨別出一個人口的本質,所以這種讓人吸菸的可疑事物不能被視為一個學術領域。難道不是這樣嗎?
從歷史上看,據說隨著英格蘭的約翰格蘭特和因哈雷彗星而聞名的埃德蒙哈雷發現人口估計和死亡的規律性,統計數據開始出現。
近年來,隨著不確定性時代的到來和信息技術的快速演進,企業管理層必須收集和分析大量具有變化的數據(大數據)並將其用於決策。這個想法的興起,使統計數據突然成為人們關注的焦點。
大數據時代的統計
在大數據時代,統計數據發生了怎樣的變化?
如果可以檢查整個總體,則無需對總體特徵進行抽樣。選舉是通過統計全體人口的票數來決定的,所以為了達到決出勝負的目的,即使沒有票站調查,抽取部分樣本,進行整體估計也是沒有問題的。
但是在解決營銷問題的市場調查中,不可能對整個國家或所有購買該產品的用戶進行調查,所以進行了抽樣調查。通過按性別和年齡組調查用戶的特徵,並根據他們的購買狀態和價值將他們分成幾個集群,我們努力瞭解整個市場。
然而這種類型的市場研究有一個明顯的缺點。比如你調查了1000人,能夠掌握市場,也就是人口的特徵。根據結果可以開發產品和計劃促銷策略。然而在試圖實現一對一營銷時,這是 CRM 的精髓,除了提取的樣本之外,無法瞭解用戶的個人特徵,而樣本佔了大部分。
在經濟高速增長時期的大眾營銷時代,以低價大量生產好產品和在電視上投放廣告,帶動了銷售額的穩步增長。然而隨著用戶需求的多樣化,我們進入了一個產品不細分市場、縮小目標就賣不出去的時代,隨著互聯網的普及改變消費者的購買行為,企業營銷策略也發生了顯著變化。
隨著大數據時代的到來,現在可以輕鬆獲取帶ID的POS、網站瀏覽歷史和購買歷史。營銷興趣是瞭解用戶想要什麼以及用戶願意購買什麼。
傳統上人口特徵,也稱為硬屬性,例如年齡、居住地和可支配收入,變化相對較小,而心理特徵,例如價值觀和生活方式,已被用作了解用戶偏好的方法。
然而這些數據不足以捕捉用戶的偏好,幾乎不可能預測每個人接下來會購買什麼。對於用戶購買的東西,最可靠的數據是他們過去的行為歷史。這是因為過去的訪問記錄、瀏覽歷史、購買歷史等直接表達了用戶的喜好。
廣告世界正在發生巨大的轉變,因為它已經成為可能為所有用戶獲取行為數據。從向所有人呈現相同內容的大規模廣告時代開始,通過分析個人用戶的行為歷史,即使內容相同,也可以單獨顯示不同人可能感興趣的廣告。
『Banner Ads』應運而生,不僅展示主要商品,還展示要展示的產品。當下是時候實現真正的一對一營銷了。