測驗編製程序
一、步驟一:定義測驗所欲測量之構念、受試者與目的
(一)確定所欲測量的構念
(二)確定受試者
(三)確定測驗的目的
- 是常模參照或標準參照性質?
- 教學情境的四種評量
- 安置性評量:課前測試學生是否具備基礎能力
- 形成性評量:了解學生學習情形
- 診斷性評量:確認學習困難
- 總結性評量
- 情意測驗和認知測驗的差異大
二、步驟二:決定測驗的基本特性
(一)需決定題項及測量的形式
- 選擇題
- 成就測驗的題項分類&評分
- 選擇反應試題:有限的反應選項
- 是非題
- 選擇題
- 配合題
- 建構反映試題:自行建立答案選項
-
填充題
-
論文題
- 類別
- 限制反應題:簡答題
- 擴展反應題:申論題
- 論文的評分方式
- 分析方法:分數法,給各項答案適當分數,較適用限制反應題
- 整體方法:等級法,一整體品質給於一評核分數,較適用於擴展反應題
- 論文題的優缺點
- 優點
- 可測量複雜的學習成果
- 對學生學習方法有正面影響
- 試題比較容易編擬
- 缺點
- 信度低:評分者、學生自積、月暈效應…
- 效度低:題目少,代表性不足
- 優點
- 類別
-
選擇題的猜測校正
R:答對題數、W:答錯題數、n:選項數
-
- 選擇反應試題:有限的反應選項
- 是非題
- 配合題
- 填充題
- 論文題
- 強迫選擇:二選一
- 自比測驗形式 ipsative test format
- 李克特氏量尺
- 賽士通量尺(Thurstone scale)
- 葛特曼量尺(Guttman scale)
- 語意區分量表(semantic different scale)
- 給兩個極端形容詞(如善良與狠毒),在兩者間用分數評分
- 善的_ _ _ X_ _ 惡的
疏遠 _ _ _ _ _ X 親近
乾淨_X_ _ _ _ _ _骯髒 - 形容詞內涵分類
- 有關價值的:善、惡
- 有關質地強弱的:聰慧、笨
- 有關行動的:迅速、遲緩
- 情意測量常用的其他題項與技術
- 猜是誰:問句-提名,每題被提名者可超過一名,最後在以消極特質和積極特質相減而推論評價高低
- 社會計量技術:問題-提名,分析被提名正負面題名總數、雙向提名總數…
- 了解受歡迎情形&凝聚力
- 在心理劇中使用
- 社會關係圖
- Q分類技術
- 給一疊特質卡片,分別排在1~9(非常不符合~非常符合)的適當位置上
- 個人中心學派會用
- 生活適應良好的人Q分類一致程度(理想我&現實我Q分類)較接近
- 投射測驗
- 觀察
- 軼事記錄法
- 評定量表法
- 項目檢核表
三、步驟三:編寫題項
(一)題項編寫的原則:
- 表面效度原則:
盡可能與所測量的議題直接有關,或可以引導作答者朝向與議題有關的方向作答。 - 內容效度原則:
題目盡可能涵蓋所有與特質概念有關的範圍。 - 單一維度原則:
題目宜精簡,避免多重意涵(一題項不能有雙重目的[double-barrele])。 - 語意難度原則:
用字遣詞必須使主要受測者均能完全理解。 - 共同理解原則:
研究者和受試者對題目和答案皆有清楚一致的理解。 - 最大愛異原則:
受試者之間對題目意涵雖有共同的了解,但卻能引發不同受試者回答出不同的答案。 - 類別窮盡原則:
題目的答案選項盡可能涵蓋所有的反應(不要使有些受試者找不到他想選的答案)。 - 類別互斥原則:
題目的答案選項必須讓受測者清楚分辨其間差異(不要使受試者覺得選項當中有兩個或兩個以上是合適的答案)。 - 標準程序原則:
不受測量時間地點與環境、測量方式、實施者的影響而產生不同的結果,例如指導語的使用必須統一,實施者的訓練必須相當。 - 專業倫理原則:
避免歧視,包括性別、能力、種族上的攻擊性或不當言詞應予以避免。
(二)成就測驗編寫的原則
-
一般原則
- 依據先訂好的雙項細目表
- 文字簡要清楚
- 避免直接抄課本或教材
……..
-
編制是非題原則
- 避免冗長距子
- 避免雙重否定
………
-
編制選擇題的原則
- 選項數目一致
- 避免冗長
- 題幹完整
…….
-
編制論文題的原則
- 多題短答比少題長答好
- 提議應明確,要讓受試者有線索進行合宜反應
……
(三)編寫題項時應留心受試者的反應心向
- 反應心向類別
- 社會讚許性
- 假裝
- 三種作答風格
- 順從:都同意
- 挑剔:都不同意
- 中庸:都填中間
- 隨機反應
- 防止&檢查反應心向的方式
- 注重試題親和性
- 使用強迫選擇的題目格式
- 建立友善關係,增進合作意願
- 作答一致性評估
- 設計測謊量表
- 統計控制
四、步驟四:預試實施
(一)篩選先前編寫的題項,形成預試的題本。
(二)抽取小樓本進行預試,人數上比正式施測少
(三)了解完成整份測驗所需的時間,作為正式施測的參考。
(四)有些測驗編製者會在預試結束對受試者進行個別的或是團體的訪談
- 內容:
- 文化敏感度(有沒有題項可能激怒到你的族群)。
- 表面效度(你覺得測驗有沒有測量到這個測驗所聲稱要測量的)。
- 施測者(施測者的在過程中的行為有沒有影響到你的填答)。
- 施測環境(施測環境有沒有影響到你的填答)。
- 題項的偏見(有沒有題項可能會使你的族群不易作答)。
- 用字遭詞(測驗中的指示和題項的敘述有沒有造成你的閱讀困難)。
- 測驗長度(題目會不會太多、時間會不會太久)。
- 猜測(你有沒有用猜的?你怎麽猜?)。
- 身心狀況(剛剛做測驗的時候,你身體或心情有沒有影響你的作答)
五、步驟五、項目分析與訪談分析
(一)對測驗預試結果進行難度、鑑別力、選項分析(第六講)。
(二)有些測驗會根據預試結果,了解題項的試題特徵曲線(ICC)。
(三)分析於前一步驟的訪談資料。
(四)由專家進行内容的分析。
六、步驟六正式施測
(一)決定效標。
(二)決定背景變項,如性別、地區、族群等,使未來得以建立整體常模和次團體常模。
(三)抽取有代表性的樣本,原則上人數少則400、多則上千,但仍須考量母群人數、題項總數、測驗測量的構念數。
七、步驟七:建立測驗技術指標
(一)考察測驗信度(第三講)
(二)考察測驗效度(第四講)
(三)覆核效化(交叉檢驗 cross validation)
八、步驟八:後續事項
(一)建立常模(第五講)
(二)編寫測驗手冊
(三)量表維護
