台師大113測統Q1-1~1-3

Hermes · 2025年02月20日02:56

一、名詞解釋（每題10分，共30分）
（一）評分者間信度（inter-rater reliability）與內容關聯效度（content related validity）
（二）試題難易度（item difficulty）與試題鑑別度（item discrimination）
（三）古典測驗理論（classical test theory）與試題反應理論（item response theory）

Yvonne · 2025年03月20日04:16

一、評分者間信度

定義：評分者間信度是一種測量測驗的評分者之間，評分是否一致的工具。
計算方式：需評估評分者數量、評分的方式，選用不同的相關計算方式。如：兩位評分者，評分為連續變項，可以求皮爾森積差相關；若兩位評分者，評分為等第，則適用於斯皮爾曼等級相關。評分者間信度越高，表示評分的結果越穩定。
影響評分者間信度的因素：包含評分者標準的明確性、評分標的的客觀程度等。

二、內容關聯效度

定義：內容關聯效度又稱內容效度，其主要欲了解該測驗所施測的題項是否涵蓋欲測量的所有特質，且沒有背離理論與目的。
檢驗內容效度的方法：會透過檢索文獻以及詢問專家進行評估。

Yvonne · 2025年03月20日04:17

一、試題難易度

定義：難易度主要有兩種測量方式：P 與 delta。
a. P 是用於了解一個試題使這些受試者答對的比例，如：100 人受試，第一題有 20 人答對，則第一題的難度（P）= 20/100 = 0.2。也可以運用（高分組的答對比例 + 低分組的答對比例）/ 2 得到 P
b. delta 是用於表達一個試題的答錯狀況，如：100 人當中有 16 人答對，其答對比例為 16%；轉換為 z 值約為 -1z。再通過公式轉換為 delta 值 = 4z + 13 ，得此題的 delta 值為：9。
P 與 delta 都是表達難易度的方式，為其中差異在：P 值是 ordinal variance，只能排序，不能加減；但 delta 為 interval variance ，可以排序也可以加減。而 P 是表達「答對」的比例、delta 是表達「答錯」的狀況。

二、試題鑑別度

定義：鑑別度是用於表達一個題項是否能夠有效讓高分群的受試者答對、讓低分群答錯，分別出學習狀況。
其表達方式為 D = 高分組答對的比例 - 低分組答對的比例，其值可以介於 -1 ~ 1 之間，越靠近 1 表示鑑別度與高。
不過鑑別度也不是越高越好，主要還是要看試題本身的目的。無論難度、鑑別度、誘答力，都應該要回歸到：「施測者本身欲透過測驗得到什麼訊息」這個目標的檢核。

附圖：難度與鑑別力的關係

Yvonne · 2025年03月20日04:19

一、古典測驗理論

定義：古典測驗理論（CTT）的基本假設為 X = T + E （實得分數 = 真分數 + 誤差）。其中真分數是測驗施行無數次之後平均而來，而真分數與誤差間的關聯為零、數次誤差的相關係數亦為零。
古典測驗理論的施測方式為線性測驗，於特定樣本中施測，當中每位學生需要完成測驗當中的所有題項。
古典測驗理論的測驗指標，皆是樣本依賴的，亦即不同抽取出的樣本，其測驗的重要數據會有所變動。
試題檢驗會透過：難易度、鑑別度及誘答力評估。

二、試題反應理論

定義：試題反應理論（IRT）屏除古典測驗理論真分數的假設，而改以精密的數學計算建立題項與題庫。
IRT 的施測方式會透過電腦適性測驗，根據每題測驗的結果評估派題的內容，在少量的施測當中獲得對受試者較大的能力評估。
IRT 是以個別試題計量的，因此各個試題的測驗指標是穩定的，會透過試題特徵曲線（ICC）呈現。
施測模式分為：單參數、雙參數及三參數等。

三、兩者的比較

CTT 的測驗精準度會較 IRT 低：原因是 CTT 是以整張試卷為單位思考配題的方式，因此不一定能精準測驗出每位受試者的能力狀況；然而 IRT 是先分析試題，在測驗的過程中不斷施測、了解受試者能力、調整配題，直到題項能夠測到受試者的能力波動變異數變小，方終止測驗。這樣的施測方式使得 IRT 能夠更貼近受試者本位，更精準的測驗。