跳到主要內容

補出的成績/多益排名 意義何在

【聯合報╱吳若蕙/語言訓練測驗中心研發長(台北市)】                     2010.11.11 02:05 am

ETS多益台灣區代表十日發布「2009年台灣與國際產學英語能力差距報告」指出,2009年台灣考生多益平均較前一年只進步6分;台灣多益成績在亞洲排名第6,並以兩岸三地的多益成績(台灣贏香港129分,但大幅落後中國大陸171分)作為英語力的比較。本人認為,只憑藉英語測驗成績來探討不同地區人民的英語能力或競爭力,似過於簡化。

日前在一場討論不同國家托福成績比較意義的論壇上,許多語言測驗學者認為,類似的分數比較忽略各國學習者、英語教育制度、社會環境等因素,且用一標準化測驗的成績來評比不同國家英語力、國際競爭力過於武斷。

可見在了解台灣民眾的英語能力時,僅靠英語測驗的成績是不足的。以多益成績為例,需要先瞭解並比較不同地區的英語學習者參加多益測驗的目的、態度。

在這次多益台灣區代表發布的報告中,台灣也明顯落後南韓73分,但韓人自己卻質疑多益高分的真正意義。

韓國學者指出韓人每年有超過二百萬人次報考多益,日、韓兩國多益考生量佔全球多益總數量的九成。多益自1979年引進南韓,原為評量職場人士英語溝通能力,但近年來因韓國人偏好國際測驗而擴大其原測驗目的,例如學校入學與畢業門檻。因此,除職場人士外,學生族群也報考此測驗。

這位學者也指出,學生為拿高分,紛紛參加補習學校的考前準備班,且重考率頗高。另一位學者更指出南韓多益考生中,近四成密集重考達四次以上。考前惡補的確使得南韓學生多益表現不差,但南韓學者及媒體紛紛質疑多益高分者是否真的具有英語能力。為降低對國際測驗的過度依賴與減緩測驗的不良影響,南韓政府已自行研發英語能力測驗,預計2012年正式施測。

政府多年來積極設法提升台灣民眾的英語能力,當又聽到台灣的英語測驗表現落後他國的訊息,無疑令人感到挫敗。但當我們理性冷靜地思考不同地區多益使用情形、考生人數、考生群落、學習背景、考試動機、考前準備等相異之處,應該可以用較平常心來看待。

美國國家評量理事會暨教育協會呼籲:「要能辨識不當的評量方法與評量資料的誤用」。長久以來,台灣社會存在「考試領導教學」的觀念,近年在政府提升國人英語能力的政策下,英語標準化測驗更被視為推動的工具,測驗成績即被用作招募、甄選、評鑑之條件。英語測驗成績意義已有被擴大解釋,甚至有可能被誤用的情形,值得關注。

留言

這個網誌中的熱門文章

何謂測驗信度、效度? What is Test Reliability and Validity?

原文刊載於 中華民國 91 年 3 月 23 日 《 中央日報.英語教與學 》 國內近來掀起了一股英語能力檢測的熱潮,各種英語測驗紛紛出籠,如全民英檢、托福、愛普、多益、劍橋認證等。這些測驗各自標榜特色,有的強調測驗簡單易考、有的則是強調含聽、讀、說、寫四項測驗的全方位英語能力評量,讓大家真是眼花撩亂。而對有興趣要報考英語測驗的人來說,更是難以做選擇。其實選擇英語測驗就像選購商品一樣,除了功能、價格等因素外,最重要的就是品質了。賣毛衣的商家為了說明商品的品質良好,會說所賣的毛衣絕對是純羊毛做的,而多數人大概也知道如何判斷羊毛衣的真假。相對於賣毛衣的商家,辦理英語測驗的機構會以測驗具有「信度」與「效度」來說明測驗的品質,專業的測驗機構甚至會提出些數據加以補充說明。但是很多人卻連「信度」與「效度」這兩個名詞的意義是甚麼都弄不清楚,更別提判斷其所言的真假了。 事實上,「信度」與「效度」是測驗理論的術語,一般人較感陌生。作者從事「全民英檢」的研發工作,認為測驗單位應有責任提供測驗的使用者( stakeholders )有關「信度」與「效度」的資訊,協助大家了解,以便在選擇採用英語測驗時做出正確的判斷。 壹、「信度」( reliability ) 信度是指測驗分數可靠的程度,也就是這一測驗受信賴的程度。而一測驗為甚麼會受到信賴,關鍵在於結果的一致。同一位考生在能力沒有變化的前提下,在不同時間或不同的測試狀況下重複受測,其所得的分數應該是一致的,否則就產生測驗的誤差。一個測驗有誤差是難免的,但是當誤差過大時就影響了測驗的公平性了。測驗理論上有一個基本假定:實得分數等於真實分數加上誤差( X=T+E ),但是真實分數是一個未知數。例如甲生考了某英語閱讀測驗的 A 卷得到 80 分,一天後考了 B 卷得了 82 分。雖然有 2 分的差距,但這是可被接受的誤差值,顯示該測驗結果的一致性頗高。又例如乙生考了某寫作測驗,閱卷老師 A 給 60 分,閱卷老師 B 給 62 分,這個結果顯示評分標準相當一致,而測驗的信度自然就高。總之,實得分數與真實分數愈接近即表示誤差愈小,測驗的分數就愈能代表考生的能力,如此,測驗的可信度也就愈高。 貳、「效度」( validity ) 測驗效度即指測驗分數的正確性,簡單的說,就是指一測驗是否評量到它所要評量的...

「全民英檢」寫作測驗之評分標準與程序 GEPT Writing Tests: Rating Criteria and Process

原文刊載於中華民國 91 年 2 月 10 日 《 中央日報.英語教與學 》 「全民英檢」的初、中、中高級均含寫作測驗,主要目的是評量考生的文字表達能力,也就是語言的使用能力。有別於聽力、閱讀能力測驗之使用客觀題、採電腦閱卷,寫作測驗則是主觀題,需要由專業的評分老師做人工評分。既然是人工評分,則難免因評分老師的個人主觀判斷或個人因素(如疲倦)影響評分。要使寫作評分能正確的反應考生的真實寫作能力,如果排除考生本身的因素,則命題與評分是最關鍵的兩個因素。 為提高評分的一致性( inter-rater consistency ),「全民英檢」的寫作測驗題型不是「自由寫作」( free writing ),而是「引導寫作」( guided writing ),利用圖片、大綱等提示明確的要求考生寫作的內容。這種「引導寫作」的測驗方式有助於降低評分老師的主觀判斷。然而對寫作評分影響最大的還是評分過程。不同的評分老師可能閱了同一篇作文而給了不同的分數,因此如何建立評分者之間的一致性( inter-rater consistency ),也就是評分的信度( reliability )是非常重要的。評分的信度越高,(信度越接近 1 )表示評分者之間的給分標準趨於一致,評分越可靠。一般而言,信度達 0.85 以上時,就表示評分相當可靠。 「全民英檢」一向重視閱卷信度的確保,採取質量並重的控管措施盡量減低評分者的評分誤差。開辦兩年以來,寫作測驗與口說能力測驗的評分信度均保持在 0.86-0.90 之間,達到不錯的水準。這個數值與大家所熟知的「托福」寫作測驗( TWE—Test of Written English )、口說能力測驗( TSE—Test of Spoken English ) 0.87-0.90 的信度相當。我們是怎麼辦到的?本文特別針對「全民英檢」的寫作測驗評分程序提出說明(口說能力測驗的評分程序與寫作測驗類似,故不重複),希望有助於外界對「全民英檢」的認識。 一、「全民英檢」各級寫作測驗均訂有評分指標( 0-5 級分),評分人員在確切掌握評分指標後,依據考生的整體表現評分。每一篇作文皆由兩位評分老師分別獨立評分,若兩者評分差距在 1 級分以內,求其平均值;兩者評分差距大於 l 級分以上,則由第三位(資深)評分老師複閱,並以其評分為最...
Rethinking the use of CEFR in Taiwan: What’s next? Jessica Wu The CEFR has been ‘borrowed’ by the Ministry of Education in Taiwan since 2005, aiming to establish a common yardstick against which learners’ English proficiency can be measured. Having been mandated in Taiwan for a decade, the CEFR has had several positive impacts as well as difficulties and problems in its application in the local education context (Chang, 2012; Wu, 2012). Therefore, it is necessary to rethink the use of the CEFR in Taiwan. The paper suggests that the CEFR has been overtly used in testing and assessment in Taiwan, but its significance in promoting transparency and coherence in language teaching and empowering autonomous learning has been overlooked. The paper argues that the current asymmetric application of the CEFR in assessment should be improved to achieve better balance between learning and assessment. While reflecting on our current use of the CEFR, a review of practices in simila...