-
1 # 國學日知
-
2 # 小AI諮詢
作者曾經寫過系列文章《想要學人工智慧,你必須得先懂點統計學》,對統計學的一些概念理解給出了詳細解釋,其中第六篇對此有一些介紹,作者主頁有更多和更加詳細的內容。
要學人工智慧,你必須得先懂點統計學(6)統計學中的顯著性水平、統計量和P值之間什麼關係?在很多時候大家會看到這樣的話語:“當統計量小於/大於某個值時,影響是顯著的”;或者“當P值小於某個值時,影響是顯著的”;或者“在0.05的顯著性水平下,結果是顯著的”。
今天作者就以但單因素方差分析的F統計量為例,給大家講一講顯著性水平,統計量大小以及P值大小這三者之間的關係,如何根據P值怎麼判斷顯著性,查表又怎麼判斷顯著性。不是很清楚單因素方差分析的童鞋可以先簡單回顧一下作者同系列的(4)方差分析概述和(5)單因素方差分析這兩篇文章
看完之後大家就會明白其實這三者表達的是同一個意思,再也不會混淆了。用軟體計算時只要看一個P值就行,而手動計算的話往往使用查表法
提出假設H0: m1 = m2 = m3 = m4
即:顏色對銷售量沒有影響
H1: m1 ,m2 ,m3, m4不全相等
即:顏色對銷售量有影響
F統計量計算公式F統計量計算公式
n為全部觀察值的個數
k為因素水平的個數
一般軟體的輸出結果一般我們做方差分析和假設檢驗都可以透過軟體得到下圖所示的一個結果,接下來分別講述怎麼分別透過F統計量值和P值來判斷顏色對銷量到底有沒有影響
F統計量值=10.486
P值=0.00047
單因素方差分析輸出結果
F分佈與拒絕域此題我們取顯著性水平a=0.05
前面已經講過,如果顏色對銷量沒有影響,那麼F值應該是趨近於1的;如果顏色對銷量有影響,F值就會大於1,當F值大到某種程度時,就說顏色對銷量有顯著影響
F分佈與拒絕域
利用F值確定是否有顯著影響——查表法當給定顯著性水平a之後,我們就可以到F分佈臨界值表查到其對應自由度下的分位點的值Fa,本例中v1=3,v2=16,查表得分位點值Fa=3.24,也就是說當我們算出的F值大於3.24時,就可以拒絕H0,我就可以說在0.05的顯著性水平下,顏色對銷量有顯著影響,顯然F值=10.486>Fa=3.24
F分佈臨界值表示例
利用P值確定是否有顯著影響一般軟體計算結果都會直接給出P值,實際上本例中P值的具體含義就是,從F值開始到無窮大時分佈曲線下的面積,我們知道從Fa到無窮大時分佈曲線下的面積=顯著性水平0.05,顯然F值=10.486>Fa=3.24,因此可以預計F值開始到無窮大時分佈曲線下的面積應該小於0.05,結果是P值=0.00047<0.05
因此當軟體直接給出P值大小時,不用查表直接看P值大小就可以作出結論,比如此題P值=0.00047<0.05,我們可以說,在0.05的顯著性水平下,顏色對銷量有顯著影響,甚至因為P值=0.00047<0.01,我們可以說,在0.01的顯著性水平下,顏色對銷量有顯著影響,P值越小,顏色對銷量的影響越顯著。
回覆列表
假設檢驗的基本思想是小機率反證法思想。小機率思想是指小機率事件(P<0.01或P<0.05)在一次試驗中基本上不會發生。 反證法思想是先提出假設(檢驗假設H0),再用適當的統計方法確定假設成立的可能性大小,如可能性小,則認為假設不成立,若可能性大,則還不能認為不假設成立。
假設檢驗
假設是否正確,要用從總體中抽出的樣本進行檢驗,與此有關的理論和方法,構成假設檢驗的內容。設A是關於總體分佈的一項命題,所有使命題A成立的總體分佈構成一個集合 h0,稱為原假設(常簡稱假設)。使命題A不成立的所有 總體分佈構成另一個集合 h1,稱為備擇假設。如果 h0可以透過有限個實引數來描述,則稱為引數假設,否則稱為非引數假設(見非引數統計)。如果 h0(或 h1)只包含一個分佈,則稱原假設(或備擇假設)為 簡單假設,否則為 複合假設。對一個假設 h0進行檢驗,就是要制定一個規則,使得有了樣本以後,根據這規則可以決定是接受它(承認命題A正確),還是拒絕它(否認命題A正確)。這樣,所有可能的樣本所組成的空間(稱樣本空間)被劃分為兩部分HA和HR(HA的補集),當樣本 x∈HA時,接受假設 h0;當 x∈HR時,拒絕 h0。集合HR常稱為檢驗的 拒絕域,HA稱為接受域。因此選定一個檢驗法,也就是選定一個拒絕域,故常把檢驗法本身與拒絕域HR等同起來。