用同一套試卷在兩個不同時間內來測試同一批受試者,這樣便獲得兩組分數,然後計算出兩組分數的相關係數。當然,在兩次測試中,學生第二次的測試成績理應比第一次的要高,因為在第二次測試時學生已經有了進步而且臨場經驗也更豐富了。但是若該試題是比較可靠的,每個學生在兩次測試中的排名次序應該是基本不變的。
測試信度也叫測試的可靠性,指的是測試結果是否穩定可靠。也就是說,測試的成績是不是反映了受試者的實際語言水平。例如,如果同一套測試在對同一測試物件(即受試者本身沒有變化)進行的數次測試中,受試者的分數忽高忽低的話,則說明該測試缺乏信度。測試的信度與測試的效度有著密切的關係。一般說來,只有信度較高的測試才能有較高的效度,但效度較高不能保證信度也一定較高。測試的信度主要涉及到試題本身的可靠性和評分的可靠性這兩個方面。試題本身是否可靠主要取決於試題的範圍、數量、試題的區分度等因素;評分是否可靠則要看評分標準是否客觀和準確。
測試的信度通常用一種相關係數(即兩個數之間的比例關係)來表示,相關係數越大,信度則越高。當係數為1.00時,說明測試的可靠性達到最高程度;而係數是0.00時,則測試的可靠性降到最低程度。在一般情況下,係數不會高到1.00,也不會降到0.00,而是在兩者之間。對信度指數的要求因測試類別的不同而不同,人們通常對標準化測試的信度係數要求在0.90以上,例如“託福”的信度大致為0.95,而課堂測試的信度係數則以0.70-0.80之間為可接受性係數。測試信度的計算方法有很多種,以下僅介紹三種易於操作的方法:
用同一套試卷在兩個不同時間內來測試同一批受試者,這樣便獲得兩組分數,然後計算出兩組分數的相關係數。當然,在兩次測試中,學生第二次的測試成績理應比第一次的要高,因為在第二次測試時學生已經有了進步而且臨場經驗也更豐富了。但是若該試題是比較可靠的,每個學生在兩次測試中的排名次序應該是基本不變的。
測試信度也叫測試的可靠性,指的是測試結果是否穩定可靠。也就是說,測試的成績是不是反映了受試者的實際語言水平。例如,如果同一套測試在對同一測試物件(即受試者本身沒有變化)進行的數次測試中,受試者的分數忽高忽低的話,則說明該測試缺乏信度。測試的信度與測試的效度有著密切的關係。一般說來,只有信度較高的測試才能有較高的效度,但效度較高不能保證信度也一定較高。測試的信度主要涉及到試題本身的可靠性和評分的可靠性這兩個方面。試題本身是否可靠主要取決於試題的範圍、數量、試題的區分度等因素;評分是否可靠則要看評分標準是否客觀和準確。
測試的信度通常用一種相關係數(即兩個數之間的比例關係)來表示,相關係數越大,信度則越高。當係數為1.00時,說明測試的可靠性達到最高程度;而係數是0.00時,則測試的可靠性降到最低程度。在一般情況下,係數不會高到1.00,也不會降到0.00,而是在兩者之間。對信度指數的要求因測試類別的不同而不同,人們通常對標準化測試的信度係數要求在0.90以上,例如“託福”的信度大致為0.95,而課堂測試的信度係數則以0.70-0.80之間為可接受性係數。測試信度的計算方法有很多種,以下僅介紹三種易於操作的方法: