原文刊載於中華民國91年2月10日《中央日報.英語教與學》
「全民英檢」的初、中、中高級均含寫作測驗,主要目的是評量考生的文字表達能力,也就是語言的使用能力。有別於聽力、閱讀能力測驗之使用客觀題、採電腦閱卷,寫作測驗則是主觀題,需要由專業的評分老師做人工評分。既然是人工評分,則難免因評分老師的個人主觀判斷或個人因素(如疲倦)影響評分。要使寫作評分能正確的反應考生的真實寫作能力,如果排除考生本身的因素,則命題與評分是最關鍵的兩個因素。
為提高評分的一致性(inter-rater consistency),「全民英檢」的寫作測驗題型不是「自由寫作」(free writing),而是「引導寫作」(guided writing),利用圖片、大綱等提示明確的要求考生寫作的內容。這種「引導寫作」的測驗方式有助於降低評分老師的主觀判斷。然而對寫作評分影響最大的還是評分過程。不同的評分老師可能閱了同一篇作文而給了不同的分數,因此如何建立評分者之間的一致性(inter-rater consistency),也就是評分的信度(reliability)是非常重要的。評分的信度越高,(信度越接近1)表示評分者之間的給分標準趨於一致,評分越可靠。一般而言,信度達0.85以上時,就表示評分相當可靠。
「全民英檢」一向重視閱卷信度的確保,採取質量並重的控管措施盡量減低評分者的評分誤差。開辦兩年以來,寫作測驗與口說能力測驗的評分信度均保持在0.86-0.90之間,達到不錯的水準。這個數值與大家所熟知的「托福」寫作測驗(TWE—Test of Written English)、口說能力測驗(TSE—Test of Spoken English)0.87-0.90的信度相當。我們是怎麼辦到的?本文特別針對「全民英檢」的寫作測驗評分程序提出說明(口說能力測驗的評分程序與寫作測驗類似,故不重複),希望有助於外界對「全民英檢」的認識。
一、「全民英檢」各級寫作測驗均訂有評分指標(0-5級分),評分人員在確切掌握評分指標後,依據考生的整體表現評分。每一篇作文皆由兩位評分老師分別獨立評分,若兩者評分差距在1級分以內,求其平均值;兩者評分差距大於l級分以上,則由第三位(資深)評分老師複閱,並以其評分為最後成績。
二、評分人員培訓,分兩階段進行。評分老師需全程參與培訓並通過測試,始得開始正式評分工作。此外,不同級數的測驗對評分老師的資格也有不同的要求,例:中高級測驗的評分老師資格為任教於大學的英語教師;中級、初級為高中以上之英語教師。
1. 第一階段培訓:目的在使新進評分老師對於全民英檢測驗、評分方式與評分指標有充分的認識,然後針對每個級分提供樣卷(rangefinders)說明,做為建立評分標準之用。同時選出平均分佈於各級分的15篇作文做為試評卷請評分老師試評,以確定其是否已能掌握評分標準。這些作文事實上已經過研究小組確定評分並將評分隱藏起來。評分老師的給分需至少七成與「正確答案」(研究小組的給分)相符且各卷給分差異在1級分以內才得進入第二階段的培訓。目前完成第一階段培訓的寫作評分老師約有一百五十位,本中心在確定當次測驗報名人數後即概算出所需的評分老師人數,邀請其參加第二階段培訓。以三萬名考生為例,需在三週內完成閱卷評分工作,則需邀請約五十名評分老師參加。
2. 第二階段培訓:通常在每次考後的一週後辦理培訓。研究小組在考後的一週內從當次測驗考生實際的作文隨機抽選一百份進行評閱,並開會討論決定評分。在短短的一週內要完成這些工作,壓力實在很大,但是這個過程忽略不得且極為重要,因為藉此討論,評分標準得以再度確認,且可針對當次測驗題目的命題要求具體規範評分重點。待評分標準確定後,研究小組從上述抽選的一百份作文中再選出平均分布於各級分的二十份做為樣卷,另選出A、B兩組共三十份(每組十五份)的試評卷。第二階段培訓的前半段中,我們針對二十份的樣卷一一提出說明,老師如有不同的看法,也藉此機會進行雙向的溝通。培訓的後半段則是要求每位老師獨立試評A組的十五份作文(B組的十五份作文保留於正式評分段作為複習評分標準之用),老師的評分結果交由統計人員計算出其與「正確答案」(研究小組的評分)的一致性,通過試評的老師才得參與正式評分。
三、正式評分:雖然參與正式評分的老師都已完成培訓並通過測試,但是我們認為人工評分難免在過程中因疲倦或閱卷速度影響了評分的標準。因此,在這個階段中我們特別運用了一些設計協助評分老師維持評分的一致性。我們希望從每位 老師評分的第一日起就每日對其評分一致性進行追蹤,以便一發現問題時(例如那位 老師的評分偏嚴、那位 老師的評分偏鬆,或那位 老師評分過於集中等),研究人員即可讓老師知道並請其做必要的調整。
1. 電腦化資料處理:我們運用電腦科技輔助評分資料的追蹤管理。每一篇寫作均有兩張電腦評分卡,由兩位評分老師劃記。每位評分老師有一個指定電腦代碼,領卷與交卷的數量、時間均有電腦紀錄。評分老師將其代碼及該篇寫作的得分劃記在電腦評分卡上。每天我們將電腦評分卡收齊後用電腦掃瞄,很快的我們便能統計每位評分老師的閱卷量、分析閱卷的速度與評分一致性。統計報表一出爐後,即交由研究人員依下列原則判讀並作適當的處理。
2. 閱卷速度及數量:我們認為評分標準的一致與閱卷量的多寡有很大的關係,而閱卷量的多寡又與速度有關聯。簡單地說,某位老師一小時閱四十份與一小時閱二十五份的品質應該是有差異的。因此根據「全民英檢」各個級數的寫作測驗,我們具體的訂定適當的閱卷速度與閱卷量。以初級測驗為例,我們認為適當的閱卷速度為每小時二十五份。另外我們也認為每人每天的閱卷時數不宜過長(原則上以六小時為限),畢竟人不是機器,會因身體的疲倦而影響評分老師本身的評分一致性(intra-rater reliability)。例如同一位評分老師在不同時段閱同一篇寫作,可能會因身體的疲倦而打出不同的分數而造成標準不一、評分不公的現象。
3. 運用統計方法檢測評分信度:評分信度又可分為評分者間信度(inter-rater reliability)與評分者本身的內部信度(intra-rater reliability)。目前我們使用兩種統計指標進行信度的檢測,第一種是較常用的相關(correlation)分析,一般的電腦統計軟體(如SPSS)即可算出。所謂相關分析就是檢定兩位老師在相同寫作上的評分是否一致,以及個別老師的給分與該篇寫作的最後得分(兩個得分的平均)一致的程度。同時我們也採用近年來才被運用在語言測驗的Many Facet Rasch Measurement的統計量作為第二種指標,它除了可檢視評分者間信度外,亦可檢視評分者本身的內部信度,提供更多的訊息。
坦白說,當我們制定這套評分程序時,我們曾經懷疑它是否太理想化了?它會被接受嗎?想來參與評分的老師會不會因為要參加培訓、測試、控制閱卷的質量等條件而卻步呢?但是現在的結果證明我們當時是多慮了。不過,在執行的過程中,的確有幾位老師,尤其是已有大型測驗閱卷經驗的老師,認為我們這麼多規定,似乎表示不太相信教師的專業判斷能力。但經過我們具體的說明,同時與 老師分享我們從統計分析上的發現,結果他們都接受了,並樂於積極協助評分的工作。特別在幾位大學教授的帶頭響應及示範下,使得執行工作得以事半功倍。我想大家都體認到這第一套專為國人所研發的英語能力檢定測驗的重要性,也非常樂意在建立測驗專業與品質上盡份心力。作者在此謹代表本中心和「全民英檢」研究團隊向協助評分的教授、老師們致上我們最高的敬意與謝意。
隨著社會大眾對「全民英檢」的支持,每次的考生人數正快速成長中,我們將需要更多的評分老師,非常歡迎尚未加入評分行列的老師與我們聯絡(可至「全民英檢」網https://www.gept.org.tw/Resource/gept_03_02_04.asp下載報名表)。
留言
張貼留言