主要區別還是在研究設計上面,這涉及到四格表資料的抽樣問題。
當列聯表的行邊際頻數是確定的,這時候我們多采用的是卡方齊性檢驗,分析不同的組之間的頻率或者構成比是否相同。
當列聯表的總數是確定的,但是邊際頻數是隨機的,這時候一般用卡方獨立性檢驗檢驗兩個變數之間的相關性。
舉個栗子,以下面表格為例。
如果我們的研究設計是選取兩組人群,一組為吸菸人群,共選取a+b人;另一組為非吸菸人群,共選取c+d人。來前瞻性研究吸菸與肺癌的關係,此時四格表的行邊際頻數已經固定,對於吸菸組,是否患肺癌服從二項分佈。對於不吸菸人群,是否患病也服從二項分佈。也由於邊際頻數是固定的,我們往往想知道的是兩組人群肺癌患病率是否相同,這時用的是卡方齊性檢驗。這樣的設計類似於醫學中的佇列研究。
另一種情況是,我們隨機從人群中選擇n個個體,按照是否吸菸和是否患肺癌,分為兩組。這中情況下總人數是確定的,但邊際頻數不確定,每個單元格取值服從多項分佈。這時候用的是卡方獨立性檢驗來檢驗獨立性。
還有一個區別是,前者研究設計中,兩個變數的關係不對等,可以把是否吸菸看做是自變數,是否患肺癌看做因變數。後者的設計中二者的關係是對等,沒有自變數和因變數之分。
數學上能夠證明,上述兩種研究設計本質上都是兩個分類變數之間的獨立性檢驗,所以卡方計算公式完全相同,人們往往混用。然而嚴格意義來說,選擇哪種方法,本質上還是取決於最初的研究設計。
主要區別還是在研究設計上面,這涉及到四格表資料的抽樣問題。
當列聯表的行邊際頻數是確定的,這時候我們多采用的是卡方齊性檢驗,分析不同的組之間的頻率或者構成比是否相同。
當列聯表的總數是確定的,但是邊際頻數是隨機的,這時候一般用卡方獨立性檢驗檢驗兩個變數之間的相關性。
舉個栗子,以下面表格為例。
如果我們的研究設計是選取兩組人群,一組為吸菸人群,共選取a+b人;另一組為非吸菸人群,共選取c+d人。來前瞻性研究吸菸與肺癌的關係,此時四格表的行邊際頻數已經固定,對於吸菸組,是否患肺癌服從二項分佈。對於不吸菸人群,是否患病也服從二項分佈。也由於邊際頻數是固定的,我們往往想知道的是兩組人群肺癌患病率是否相同,這時用的是卡方齊性檢驗。這樣的設計類似於醫學中的佇列研究。
另一種情況是,我們隨機從人群中選擇n個個體,按照是否吸菸和是否患肺癌,分為兩組。這中情況下總人數是確定的,但邊際頻數不確定,每個單元格取值服從多項分佈。這時候用的是卡方獨立性檢驗來檢驗獨立性。
還有一個區別是,前者研究設計中,兩個變數的關係不對等,可以把是否吸菸看做是自變數,是否患肺癌看做因變數。後者的設計中二者的關係是對等,沒有自變數和因變數之分。
數學上能夠證明,上述兩種研究設計本質上都是兩個分類變數之間的獨立性檢驗,所以卡方計算公式完全相同,人們往往混用。然而嚴格意義來說,選擇哪種方法,本質上還是取決於最初的研究設計。