一、名詞解釋(每題10分,共30分)
(一)評分者間信度(inter-rater reliability)與內容關聯效度(content related validity)
(二)試題難易度(item difficulty)與試題鑑別度(item discrimination)
(三)古典測驗理論(classical test theory)與試題反應理論(item response theory)
一、評分者間信度
-
定義:評分者間信度是一種測量測驗的評分者之間,評分是否一致的工具。
-
計算方式:需評估評分者數量、評分的方式,選用不同的相關計算方式。如:兩位評分者,評分為連續變項,可以求皮爾森積差相關;若兩位評分者,評分為等第,則適用於斯皮爾曼等級相關。評分者間信度越高,表示評分的結果越穩定。
-
影響評分者間信度的因素:包含評分者標準的明確性、評分標的的客觀程度等。
二、內容關聯效度
-
定義:內容關聯效度又稱內容效度,其主要欲了解該測驗所施測的題項是否涵蓋欲測量的所有特質,且沒有背離理論與目的。
-
檢驗內容效度的方法:會透過檢索文獻以及詢問專家進行評估。
一、試題難易度
-
定義:難易度主要有兩種測量方式:P 與 delta。
a. P 是用於了解一個試題使這些受試者答對的比例,如:100 人受試,第一題有 20 人答對,則第一題的難度(P)= 20/100 = 0.2。也可以運用(高分組的答對比例 + 低分組的答對比例)/ 2 得到 P
b. delta 是用於表達一個試題的答錯狀況,如:100 人當中有 16 人答對,其答對比例為 16%;轉換為 z 值約為 -1z。再通過公式轉換為 delta 值 = 4z + 13 ,得此題的 delta 值為:9。 -
P 與 delta 都是表達難易度的方式,為其中差異在:P 值是 ordinal variance,只能排序,不能加減;但 delta 為 interval variance ,可以排序也可以加減。而 P 是表達「答對」的比例、delta 是表達「答錯」的狀況。
二、試題鑑別度
-
定義:鑑別度是用於表達一個題項是否能夠有效讓高分群的受試者答對、讓低分群答錯,分別出學習狀況。
-
其表達方式為 D = 高分組答對的比例 - 低分組答對的比例,其值可以介於 -1 ~ 1 之間,越靠近 1 表示鑑別度與高。
-
不過鑑別度也不是越高越好,主要還是要看試題本身的目的。無論難度、鑑別度、誘答力,都應該要回歸到:「施測者本身欲透過測驗得到什麼訊息」這個目標的檢核。
附圖:難度與鑑別力的關係
一、古典測驗理論
-
定義:古典測驗理論(CTT)的基本假設為 X = T + E (實得分數 = 真分數 + 誤差)。其中真分數是測驗施行無數次之後平均而來,而真分數與誤差間的關聯為零、數次誤差的相關係數亦為零。
-
古典測驗理論的施測方式為線性測驗,於特定樣本中施測,當中每位學生需要完成測驗當中的所有題項。
-
古典測驗理論的測驗指標,皆是樣本依賴的,亦即不同抽取出的樣本,其測驗的重要數據會有所變動。
-
試題檢驗會透過:難易度、鑑別度及誘答力評估。
二、試題反應理論
-
定義:試題反應理論(IRT)屏除古典測驗理論真分數的假設,而改以精密的數學計算建立題項與題庫。
-
IRT 的施測方式會透過電腦適性測驗,根據每題測驗的結果評估派題的內容,在少量的施測當中獲得對受試者較大的能力評估。
-
IRT 是以個別試題計量的,因此各個試題的測驗指標是穩定的,會透過試題特徵曲線(ICC)呈現。
-
施測模式分為:單參數、雙參數及三參數等。
三、兩者的比較
- CTT 的測驗精準度會較 IRT 低:原因是 CTT 是以整張試卷為單位思考配題的方式,因此不一定能精準測驗出每位受試者的能力狀況;然而 IRT 是先分析試題,在測驗的過程中不斷施測、了解受試者能力、調整配題,直到題項能夠測到受試者的能力波動變異數變小,方終止測驗。這樣的施測方式使得 IRT 能夠更貼近受試者本位,更精準的測驗。