性質1: 設X是一個隨機變數,其分佈函式為F(x),則Y=F(X)服從在〔0,1〕的均勻分佈。 性質2: 設X1,K,Xn是某個分佈的一個簡單樣本,其分佈函式為F(x),由性質1可知,在機率意義下,F(X1),F(X2),K,F(Xn)在(0,1)上呈均勻分佈,按從小到大依次排序,記為F(X1),F(X2),K,F(Xn),其相應理論值應為ri=i-0,5[]n,i=1,2,…,n,對應分佈函式的反函式值F-1(r1),F-1(r2),K,F-1(rn)(在卡方分佈中即為卡方分數)應非常接近X1,X2K,Xn,故在機率意義下,這些散點(X1,F-1(r1)),(X2,F-1(r2)),L,(Xn,F-1(rn))應在一條直線上。 根據性質2,如果X服從正態分佈,則散點理論上應落在一直線上,可以用Pearson係數刻畫這種分佈。但由於隨機變異的存在,Pearson係數並不等於1,所以透過隨機模擬的方法,制定出Pearson係數的95%界值下限。 性質3: 由條件機率公式P(X,Y)=P(Y|X)P(X)可知:(X,Y)服從二元正態分佈的充分必要條件是固定X,Y服從正態分佈(條件機率分佈)並且X的邊際分佈為正態分佈。由線性迴歸的性質ε=Y-(α+βX)可知,固定X,Y的條件機率分佈為正態分佈的充分必要條件是線性迴歸的殘差ε服從正態分佈,由此可得:(X,Y)服從二元正態分佈的充分必要條件是X的邊際分佈為正態分佈以及線性迴歸模型Y=α+βX+ε中的殘差服從正態分佈。 設X來自於正態總體,從正態總體中隨機模擬抽樣5000次,每次抽樣樣本含量分別為7至50,對F(x)求秩,求出排序後的F(x)和排序後的X的Pearson相關係數。表1 隨機模擬5000次得到的檢驗正態分佈的Pearson相關係數的界值(略) 類似地,我們也可以用同樣的方法得到檢驗卡方分佈的Pearson相關係數的界值表(簡化表)表2 相關係數界值表(略) 2 隨機模擬驗證 21 Pearson相關係數界值表的隨機模擬驗證 設X來自於正態總體,從正態總體中隨機模擬抽樣5000次,每次抽樣樣本含量分別為10,20,30,40,50,並計算相應的Pearson卡方係數,以及落在界值外面的比例,即拒絕比例,再在同一批資料的前提下用McNemar檢驗比較本方法和Swilk法的差別。表3 (一元正態分佈)模擬次數(略)表4(一元偏態分佈,χ2)模擬次數(略) 以上方法拒絕比例在樣本量為7的可信區間為[78.37%,94.12%],在其餘樣本量時都接近100%,可以證實是正確的。 22 卡方分佈界值表的隨機模擬驗證 表5 卡方分佈:模擬5000次(略) 23 馬氏距離的隨機模擬驗證 根據馬氏距離的定義,從正態分佈總體中隨機抽取樣本量分別為10,20,30,40,50的樣本模擬5000次,根據上面提到的方法以卡方分數對X1,X2K,Xn求Pearson係數,並根據以上的相關係數界值表,計算相應的統計量,即拒絕比例。表6 馬氏距離落在Pearson係數界值表外的比例(略) 24 二元正態分佈資料的隨機模擬驗證 設定一個二維矩陣A,分別求出特徵值P和特徵向量Z,設X的元素均來自於正態總體分佈,則Y=Z′×X必服從二元正態分佈,隨機模擬5000次,根據性質三介紹的方法驗證的拒絕比例如下。表7 (二元正態分佈)模擬次數(略)表8 (二元偏態分佈,χ2)模擬次數(略) 25 三元正態分佈資料的隨機模擬驗證 類似地,隨機模擬5000次,用同樣方法進行驗證,得到對於三元正態分佈資料的拒絕比例。表9 (三元正態分佈)模擬次數:5000次
性質1: 設X是一個隨機變數,其分佈函式為F(x),則Y=F(X)服從在〔0,1〕的均勻分佈。 性質2: 設X1,K,Xn是某個分佈的一個簡單樣本,其分佈函式為F(x),由性質1可知,在機率意義下,F(X1),F(X2),K,F(Xn)在(0,1)上呈均勻分佈,按從小到大依次排序,記為F(X1),F(X2),K,F(Xn),其相應理論值應為ri=i-0,5[]n,i=1,2,…,n,對應分佈函式的反函式值F-1(r1),F-1(r2),K,F-1(rn)(在卡方分佈中即為卡方分數)應非常接近X1,X2K,Xn,故在機率意義下,這些散點(X1,F-1(r1)),(X2,F-1(r2)),L,(Xn,F-1(rn))應在一條直線上。 根據性質2,如果X服從正態分佈,則散點理論上應落在一直線上,可以用Pearson係數刻畫這種分佈。但由於隨機變異的存在,Pearson係數並不等於1,所以透過隨機模擬的方法,制定出Pearson係數的95%界值下限。 性質3: 由條件機率公式P(X,Y)=P(Y|X)P(X)可知:(X,Y)服從二元正態分佈的充分必要條件是固定X,Y服從正態分佈(條件機率分佈)並且X的邊際分佈為正態分佈。由線性迴歸的性質ε=Y-(α+βX)可知,固定X,Y的條件機率分佈為正態分佈的充分必要條件是線性迴歸的殘差ε服從正態分佈,由此可得:(X,Y)服從二元正態分佈的充分必要條件是X的邊際分佈為正態分佈以及線性迴歸模型Y=α+βX+ε中的殘差服從正態分佈。 設X來自於正態總體,從正態總體中隨機模擬抽樣5000次,每次抽樣樣本含量分別為7至50,對F(x)求秩,求出排序後的F(x)和排序後的X的Pearson相關係數。表1 隨機模擬5000次得到的檢驗正態分佈的Pearson相關係數的界值(略) 類似地,我們也可以用同樣的方法得到檢驗卡方分佈的Pearson相關係數的界值表(簡化表)表2 相關係數界值表(略) 2 隨機模擬驗證 21 Pearson相關係數界值表的隨機模擬驗證 設X來自於正態總體,從正態總體中隨機模擬抽樣5000次,每次抽樣樣本含量分別為10,20,30,40,50,並計算相應的Pearson卡方係數,以及落在界值外面的比例,即拒絕比例,再在同一批資料的前提下用McNemar檢驗比較本方法和Swilk法的差別。表3 (一元正態分佈)模擬次數(略)表4(一元偏態分佈,χ2)模擬次數(略) 以上方法拒絕比例在樣本量為7的可信區間為[78.37%,94.12%],在其餘樣本量時都接近100%,可以證實是正確的。 22 卡方分佈界值表的隨機模擬驗證 表5 卡方分佈:模擬5000次(略) 23 馬氏距離的隨機模擬驗證 根據馬氏距離的定義,從正態分佈總體中隨機抽取樣本量分別為10,20,30,40,50的樣本模擬5000次,根據上面提到的方法以卡方分數對X1,X2K,Xn求Pearson係數,並根據以上的相關係數界值表,計算相應的統計量,即拒絕比例。表6 馬氏距離落在Pearson係數界值表外的比例(略) 24 二元正態分佈資料的隨機模擬驗證 設定一個二維矩陣A,分別求出特徵值P和特徵向量Z,設X的元素均來自於正態總體分佈,則Y=Z′×X必服從二元正態分佈,隨機模擬5000次,根據性質三介紹的方法驗證的拒絕比例如下。表7 (二元正態分佈)模擬次數(略)表8 (二元偏態分佈,χ2)模擬次數(略) 25 三元正態分佈資料的隨機模擬驗證 類似地,隨機模擬5000次,用同樣方法進行驗證,得到對於三元正態分佈資料的拒絕比例。表9 (三元正態分佈)模擬次數:5000次