跳到主要內容

何謂測驗信度、效度? What is Test Reliability and Validity?

原文刊載於中華民國91323中央日報.英語教與學


國內近來掀起了一股英語能力檢測的熱潮,各種英語測驗紛紛出籠,如全民英檢、托福、愛普、多益、劍橋認證等。這些測驗各自標榜特色,有的強調測驗簡單易考、有的則是強調含聽、讀、說、寫四項測驗的全方位英語能力評量,讓大家真是眼花撩亂。而對有興趣要報考英語測驗的人來說,更是難以做選擇。其實選擇英語測驗就像選購商品一樣,除了功能、價格等因素外,最重要的就是品質了。賣毛衣的商家為了說明商品的品質良好,會說所賣的毛衣絕對是純羊毛做的,而多數人大概也知道如何判斷羊毛衣的真假。相對於賣毛衣的商家,辦理英語測驗的機構會以測驗具有「信度」與「效度」來說明測驗的品質,專業的測驗機構甚至會提出些數據加以補充說明。但是很多人卻連「信度」與「效度」這兩個名詞的意義是甚麼都弄不清楚,更別提判斷其所言的真假了。

事實上,「信度」與「效度」是測驗理論的術語,一般人較感陌生。作者從事「全民英檢」的研發工作,認為測驗單位應有責任提供測驗的使用者(stakeholders)有關「信度」與「效度」的資訊,協助大家了解,以便在選擇採用英語測驗時做出正確的判斷。

壹、「信度」(reliability
信度是指測驗分數可靠的程度,也就是這一測驗受信賴的程度。而一測驗為甚麼會受到信賴,關鍵在於結果的一致。同一位考生在能力沒有變化的前提下,在不同時間或不同的測試狀況下重複受測,其所得的分數應該是一致的,否則就產生測驗的誤差。一個測驗有誤差是難免的,但是當誤差過大時就影響了測驗的公平性了。測驗理論上有一個基本假定:實得分數等於真實分數加上誤差(X=T+E),但是真實分數是一個未知數。例如甲生考了某英語閱讀測驗的A卷得到80分,一天後考了B卷得了82分。雖然有2分的差距,但這是可被接受的誤差值,顯示該測驗結果的一致性頗高。又例如乙生考了某寫作測驗,閱卷老師A60分,閱卷老師B62分,這個結果顯示評分標準相當一致,而測驗的信度自然就高。總之,實得分數與真實分數愈接近即表示誤差愈小,測驗的分數就愈能代表考生的能力,如此,測驗的可信度也就愈高。

貳、「效度」(validity
測驗效度即指測驗分數的正確性,簡單的說,就是指一測驗是否評量到它所要評量的能力。例如一項英語聽力與閱讀測驗,聲稱也可評量出英語的口語表達溝通能力,如果測驗結果顯示,口語能力不同的考生確實在得分上有明顯的不同,能力好的,其得分就高,而能力較差的,其得分也較低。這個結果就表示該測驗是具有效度的。如果能力好的,其得分較低,而能力差的,其得分反而較高,這個結果顯示,該測驗所評量到的可能是聽解或閱讀能力,而非口語能力。效度是測驗最重要的指標,它能讓測驗的使用者(stakeholders)判斷某測驗是否達到測量的目的。但是不同於信度,效度是無法直接測量,必須從其他資料推論。因此,測驗的使用者必須審慎評估效度的資料是否適合其使用該測驗的目的。

一個測驗通常會有多個不同的使用目的,因此,一個測驗也就有不止一種的效度。大致上,測驗效度有下列三種:

(一)構念效度(construct validity):構念效度的重點是指測驗分數所說明的意義,也就是指測驗能夠測量到理論上的構念。以「全民英檢」為例,其理論構念是為評量學習者的一般英語能力(general English proficiency)與考生在聽、讀、說、寫四方面的語言使用能力。為證明其具構念效度,一個可用經驗方法來觀察「全民英檢」各分項測驗究竟是考了甚麼語言能力;另一個則是運用相關係數來檢驗測驗的構念。根據「全民英檢」歷次測驗的分析資料,聽、讀、說、寫各項測驗的相關係數均在0.3-0.7的合理範圍內,這個結果說明語言能力是可以分解的,聽、讀、說、寫各項能力有其獨立性,同時也是互相有關聯的。因此,各項測驗的綜合應能正確且有效的反應考生的整體語言能力。

(二)內容效度(content validity):內容效度是指命題內容採樣的適切性。例如,教師要給學生做一個英語成就測驗(achievement test),該測驗的題目應該涵蓋教學的目標與教材的內容。由此可見,教學目標與教材內容是確定內容效度時的兩個重要指標。又一般大規模標準化英語測驗,在設計階段就製定明確的命題原則,從命題開始即注意語言採樣的隨機性(language sampling),同時也製定測驗內容規範(test specifications)。例如「全民英檢」在每一份試卷中對於語言技能(language skills)和語言知識(language knowledge)均有適當比例的要求,以避免同一內容的重複。如要檢視該測驗是否具有內容效度,應該將歷次的試卷中的所有試題與測驗內容規範逐一做比較並進行統計分析,看是否其大致涵蓋了測驗內容規範所規定的內容。這對於導正英語教學是非常重要的,因為如果一考試只集中在某類語言技能和語言知識上,內容一成不變,將造成鼓勵應考技巧的訓練,而影響了教學的正常化,更不利於學習者實際語言能力的提昇。

(三)效標關聯效度(criterion-related validity):前述兩項效度檢驗均指某項考試本身的效度,通稱為內在效度。除此,也可就某種外在標準來檢驗某項考試的效度,稱做外在效度,同期效度(concurrent validity)就是其中一種。同期效度的目的在於用另一種測驗來對當前正在被驗證的測驗進行檢驗。當然進行同期效度研究有兩個前提,首先作為對比測驗的效度要已獲得驗證;其次兩種測驗應具有相近的構念效度,所評量的是相同的能力。近年來亞洲地區國家積極研發全國性大規模英語能力檢定考試,例如日本的STEP考試、大陸的大學英語四、六級考試等,與我國的「全民英檢」考試大致相近,基本上符合上述條件。未來「全民英檢」與STEP或大學英語四、六級考試可進行同期效度的研究,安排考生進行對比考試,結果除了可以驗證「全民英檢」的效度外,更可以分析不同測驗的異同,進而探討擬訂亞洲地區英語能力等級統一量表(proficiency scales)的可行性。

總之,信度與效度是評鑑測驗品質優劣的標準。效度是指測驗分數的正確性,而信度是測驗分數的可靠性,兩者的關係十分密切。一個有效度的測驗必須先有信度,因為不可靠的測驗連自己都無法預測,就別提用他來預測其他東西。但是,有信度的測驗並不表示一定有效度。例如一把尺每次測量都多了3公分,測量結果一致(信度高),但卻不正確(效度低)。由此可知,信度只需有一致性即可,而效度是需要兼具一致性和正確性的。當您評估、選擇測驗時,記得要「內行」地先要求測驗單位提出信度及效度的說明資料喔!


留言

這個網誌中的熱門文章

「全民英檢」寫作測驗之評分標準與程序 GEPT Writing Tests: Rating Criteria and Process

原文刊載於中華民國 91 年 2 月 10 日 《 中央日報.英語教與學 》 「全民英檢」的初、中、中高級均含寫作測驗,主要目的是評量考生的文字表達能力,也就是語言的使用能力。有別於聽力、閱讀能力測驗之使用客觀題、採電腦閱卷,寫作測驗則是主觀題,需要由專業的評分老師做人工評分。既然是人工評分,則難免因評分老師的個人主觀判斷或個人因素(如疲倦)影響評分。要使寫作評分能正確的反應考生的真實寫作能力,如果排除考生本身的因素,則命題與評分是最關鍵的兩個因素。 為提高評分的一致性( inter-rater consistency ),「全民英檢」的寫作測驗題型不是「自由寫作」( free writing ),而是「引導寫作」( guided writing ),利用圖片、大綱等提示明確的要求考生寫作的內容。這種「引導寫作」的測驗方式有助於降低評分老師的主觀判斷。然而對寫作評分影響最大的還是評分過程。不同的評分老師可能閱了同一篇作文而給了不同的分數,因此如何建立評分者之間的一致性( inter-rater consistency ),也就是評分的信度( reliability )是非常重要的。評分的信度越高,(信度越接近 1 )表示評分者之間的給分標準趨於一致,評分越可靠。一般而言,信度達 0.85 以上時,就表示評分相當可靠。 「全民英檢」一向重視閱卷信度的確保,採取質量並重的控管措施盡量減低評分者的評分誤差。開辦兩年以來,寫作測驗與口說能力測驗的評分信度均保持在 0.86-0.90 之間,達到不錯的水準。這個數值與大家所熟知的「托福」寫作測驗( TWE—Test of Written English )、口說能力測驗( TSE—Test of Spoken English ) 0.87-0.90 的信度相當。我們是怎麼辦到的?本文特別針對「全民英檢」的寫作測驗評分程序提出說明(口說能力測驗的評分程序與寫作測驗類似,故不重複),希望有助於外界對「全民英檢」的認識。 一、「全民英檢」各級寫作測驗均訂有評分指標( 0-5 級分),評分人員在確切掌握評分指標後,依據考生的整體表現評分。每一篇作文皆由兩位評分老師分別獨立評分,若兩者評分差距在 1 級分以內,求其平均值;兩者評分差距大於 l 級分以上,則由第三位(資深)評分老師複閱,並以其評分為最

LTTC培力英檢研發團隊受邀出席「臺灣高教雙語教育論壇」 BESTEP R&D Team Attends Taiwan Bilingual Higher Education Forum

LTTC獲邀出席由教育部、臺灣大學、台灣評鑑協會於4月8、9日舉辦的「2023 臺灣高教雙語教育論壇:Bridging Forward」,會中發表本中心獲教育部補助研發、今年9月將正式施測的「培力英語能力檢定測驗」(簡稱培力英檢,BESTEP)。