跳到主要內容

測驗實務與研究成果分享—2019國際語言測驗研究年會、美國應用語言學國際研討會 LTTC Attends 2019 LTRC and AAAL in Atlanta, USA

由國際語言測驗協會( International Language Testing Association, ILTA)主辦之「國際語言測驗研究年會」(Language Testing Research Colloquium, LTRC),以及由美國應用語言學學會(American Association for Applied Linguistics, AAAL)主辦之研討會,今年3月於美國民權運動重鎮—亞特蘭大市舉行。LTTC由研發長吳若蕙博士以及全民英檢組林君文組長代表參與。


 語言教育與評量趨勢

從兩大會議中學者和研究人員的分享,觀察到當今獲語言教育界重視及關切的議題與趨勢,和本中心近年著重之發展方向有不少呼應之處:


  1. 「英語為共通語言」(English as a Lingua Franca, ELF)的教學與評量;英語做為具國際溝通需求領域(例如商業貿易、科學研究、運輸航空等)之共通語,對教學及評量都造成衝擊,包括如何具體界定ELF的能力(如意義協商、修正策略)、如何學習及教導這些能力、如何設計適合ELF情境的評量。值得注意的是,學者認為英語母語人士以及非英語母語人士對ELF溝通的可靠性與正確性要擔負相等的責任,因此英語母語人士同樣也應接受ELF能力評量。
  2. 語言測驗評量界肩負的社會責任日益重大,包括語言測驗從業單位以及採認單位須積極檢視測驗用途及其造成之影響、開創更能符合學習與教學利益的評量模式、提倡以學習為導向的評量(learning-oriented assessment)等。LTTC多年來推動「學習導向評量」不遺餘力。例如,在「全民英檢」(GEPT)、「小學英檢」(GEPT Kids)等測驗研發與服務方面,透過成績回饋的優化,以更人性化且有利輔助學習的方式呈現成績,方便使用者了解明確的能力落點、其分數代表之意義,甚至是強弱項分析等,作為自主規劃學習之參考。另,LTTC也辦理「語言教學實踐與研究計畫補助專案」,提供測驗資料(如考生語料)及實質的經費補助,鼓勵國內外研究人員從事研究及發表,將研究成果反饋給教學,促進教學、學習與評量間的正向循環。
  3. 「以英語教授學科」(English as a medium of instruction, EMI)及「學科內容與語言整合學習」(Content and Language Integrated Learning, CLIL)帶來的影響、挑戰及對策。學者提出之重點包括EMI、CLIL絕非單一、僵化的概念;相反的,其定位應考量各地文化背景及教育環境的特殊性,因地制宜,以尋求能兼顧當地學習情境與全球教育發展的途徑。例如,如何適性融入母語的運用,以顧及學生吸取專業知識的學習權益,跳脫EMI等於「全英語」的迷思。近年LTTC為了探討這些議題為教學現場帶來之問題與挑戰,陸續透過活動及座談之辦理,邀集各教育階段第一線教育工作者就EMI及CLIL實務與設計交流意見,藉此拋磚引玉、集思廣益;未來也考慮透過出版,結合學科教師與外語教師的經驗,深入探討EMI之定義、發展,並分享實際案例。另,LTTC累積多年教學與評量專業,獲實施EMI或CLIL的學校或縣市政府,依照需求提供師資增能訓練、客製化評量工具等資源。

■ LTTC研究發表

LTTC身為ILTA 的會員,多年來積極參與年會,今年不僅贊助LTRC,更受邀參與座談會 “Local needs and global priorities in ensuring fair test use”,主旨在探討全球化潮流下,語言評量如何兼顧本地需求以及國際標準,並確保測驗的公平、公正性。與談人分享來自包括日本、中國大陸、臺灣、越南等地研發之測驗的特色、經驗及挑戰。本中心由吳若蕙研發長以「全民英檢」(GEPT)為例說明本地英語測驗如何透過“glocal”(全球在地)的模式,在設計及服務上回應本地教育需求,同時藉由扎實的信效度研究以及追蹤GEPT對教學、學習的影響 ,達到國際品質標準之要求。本座談討論人Barry O’Sullivan教授於總結時特別指出,亞洲國家在英語非主要語言的環境中發展測驗,竭盡所能符合國際的測驗標準,同時兼顧測驗效力以及內容的真實性,持續不懈累積信效度證據,又各自在獨特的時空情境下,因應不斷變遷的本地需求(例如雙語教學、以英語教授學科等),肩負和政策決策者、教育工作者、家長、學習者等多方利害關係人溝通對話的責任,實屬不易。



除了參與上述座談外,吳研發長亦和羅慧芸、林君文兩位LTTC同仁共同執行、發表研究 “High-stakes tests can improve learning- Reality or wishful thinking?”,進一步以GEPT為例探討大規模標準化測驗在實踐「為學習而評量」此一目標方面,有哪些契機及實際做法,學習者及家長的需求及看法又為何。此一議題密切呼應大會主題「社會責任」,引起與會聽眾熱烈評論,肯定LTTC在銜接評量與學習、以評量促進學習方面的努力。




留言

這個網誌中的熱門文章

何謂測驗信度、效度? What is Test Reliability and Validity?

原文刊載於 中華民國 91 年 3 月 23 日 《 中央日報.英語教與學 》 國內近來掀起了一股英語能力檢測的熱潮,各種英語測驗紛紛出籠,如全民英檢、托福、愛普、多益、劍橋認證等。這些測驗各自標榜特色,有的強調測驗簡單易考、有的則是強調含聽、讀、說、寫四項測驗的全方位英語能力評量,讓大家真是眼花撩亂。而對有興趣要報考英語測驗的人來說,更是難以做選擇。其實選擇英語測驗就像選購商品一樣,除了功能、價格等因素外,最重要的就是品質了。賣毛衣的商家為了說明商品的品質良好,會說所賣的毛衣絕對是純羊毛做的,而多數人大概也知道如何判斷羊毛衣的真假。相對於賣毛衣的商家,辦理英語測驗的機構會以測驗具有「信度」與「效度」來說明測驗的品質,專業的測驗機構甚至會提出些數據加以補充說明。但是很多人卻連「信度」與「效度」這兩個名詞的意義是甚麼都弄不清楚,更別提判斷其所言的真假了。 事實上,「信度」與「效度」是測驗理論的術語,一般人較感陌生。作者從事「全民英檢」的研發工作,認為測驗單位應有責任提供測驗的使用者( stakeholders )有關「信度」與「效度」的資訊,協助大家了解,以便在選擇採用英語測驗時做出正確的判斷。 壹、「信度」( reliability ) 信度是指測驗分數可靠的程度,也就是這一測驗受信賴的程度。而一測驗為甚麼會受到信賴,關鍵在於結果的一致。同一位考生在能力沒有變化的前提下,在不同時間或不同的測試狀況下重複受測,其所得的分數應該是一致的,否則就產生測驗的誤差。一個測驗有誤差是難免的,但是當誤差過大時就影響了測驗的公平性了。測驗理論上有一個基本假定:實得分數等於真實分數加上誤差( X=T+E ),但是真實分數是一個未知數。例如甲生考了某英語閱讀測驗的 A 卷得到 80 分,一天後考了 B 卷得了 82 分。雖然有 2 分的差距,但這是可被接受的誤差值,顯示該測驗結果的一致性頗高。又例如乙生考了某寫作測驗,閱卷老師 A 給 60 分,閱卷老師 B 給 62 分,這個結果顯示評分標準相當一致,而測驗的信度自然就高。總之,實得分數與真實分數愈接近即表示誤差愈小,測驗的分數就愈能代表考生的能力,如此,測驗的可信度也就愈高。 貳、「效度」( validity ) 測驗效度即指測驗分數的正確性,簡單的說,就是指一測驗是否評量到它所要評量的

「全民英檢」寫作測驗之評分標準與程序 GEPT Writing Tests: Rating Criteria and Process

原文刊載於中華民國 91 年 2 月 10 日 《 中央日報.英語教與學 》 「全民英檢」的初、中、中高級均含寫作測驗,主要目的是評量考生的文字表達能力,也就是語言的使用能力。有別於聽力、閱讀能力測驗之使用客觀題、採電腦閱卷,寫作測驗則是主觀題,需要由專業的評分老師做人工評分。既然是人工評分,則難免因評分老師的個人主觀判斷或個人因素(如疲倦)影響評分。要使寫作評分能正確的反應考生的真實寫作能力,如果排除考生本身的因素,則命題與評分是最關鍵的兩個因素。 為提高評分的一致性( inter-rater consistency ),「全民英檢」的寫作測驗題型不是「自由寫作」( free writing ),而是「引導寫作」( guided writing ),利用圖片、大綱等提示明確的要求考生寫作的內容。這種「引導寫作」的測驗方式有助於降低評分老師的主觀判斷。然而對寫作評分影響最大的還是評分過程。不同的評分老師可能閱了同一篇作文而給了不同的分數,因此如何建立評分者之間的一致性( inter-rater consistency ),也就是評分的信度( reliability )是非常重要的。評分的信度越高,(信度越接近 1 )表示評分者之間的給分標準趨於一致,評分越可靠。一般而言,信度達 0.85 以上時,就表示評分相當可靠。 「全民英檢」一向重視閱卷信度的確保,採取質量並重的控管措施盡量減低評分者的評分誤差。開辦兩年以來,寫作測驗與口說能力測驗的評分信度均保持在 0.86-0.90 之間,達到不錯的水準。這個數值與大家所熟知的「托福」寫作測驗( TWE—Test of Written English )、口說能力測驗( TSE—Test of Spoken English ) 0.87-0.90 的信度相當。我們是怎麼辦到的?本文特別針對「全民英檢」的寫作測驗評分程序提出說明(口說能力測驗的評分程序與寫作測驗類似,故不重複),希望有助於外界對「全民英檢」的認識。 一、「全民英檢」各級寫作測驗均訂有評分指標( 0-5 級分),評分人員在確切掌握評分指標後,依據考生的整體表現評分。每一篇作文皆由兩位評分老師分別獨立評分,若兩者評分差距在 1 級分以內,求其平均值;兩者評分差距大於 l 級分以上,則由第三位(資深)評分老師複閱,並以其評分為最

LTTC培力英檢研發團隊受邀出席「臺灣高教雙語教育論壇」 BESTEP R&D Team Attends Taiwan Bilingual Higher Education Forum

LTTC獲邀出席由教育部、臺灣大學、台灣評鑑協會於4月8、9日舉辦的「2023 臺灣高教雙語教育論壇:Bridging Forward」,會中發表本中心獲教育部補助研發、今年9月將正式施測的「培力英語能力檢定測驗」(簡稱培力英檢,BESTEP)。