跳到主要內容

何謂測驗信度、效度? What is Test Reliability and Validity?

原文刊載於中華民國91323中央日報.英語教與學


國內近來掀起了一股英語能力檢測的熱潮,各種英語測驗紛紛出籠,如全民英檢、托福、愛普、多益、劍橋認證等。這些測驗各自標榜特色,有的強調測驗簡單易考、有的則是強調含聽、讀、說、寫四項測驗的全方位英語能力評量,讓大家真是眼花撩亂。而對有興趣要報考英語測驗的人來說,更是難以做選擇。其實選擇英語測驗就像選購商品一樣,除了功能、價格等因素外,最重要的就是品質了。賣毛衣的商家為了說明商品的品質良好,會說所賣的毛衣絕對是純羊毛做的,而多數人大概也知道如何判斷羊毛衣的真假。相對於賣毛衣的商家,辦理英語測驗的機構會以測驗具有「信度」與「效度」來說明測驗的品質,專業的測驗機構甚至會提出些數據加以補充說明。但是很多人卻連「信度」與「效度」這兩個名詞的意義是甚麼都弄不清楚,更別提判斷其所言的真假了。

事實上,「信度」與「效度」是測驗理論的術語,一般人較感陌生。作者從事「全民英檢」的研發工作,認為測驗單位應有責任提供測驗的使用者(stakeholders)有關「信度」與「效度」的資訊,協助大家了解,以便在選擇採用英語測驗時做出正確的判斷。

壹、「信度」(reliability
信度是指測驗分數可靠的程度,也就是這一測驗受信賴的程度。而一測驗為甚麼會受到信賴,關鍵在於結果的一致。同一位考生在能力沒有變化的前提下,在不同時間或不同的測試狀況下重複受測,其所得的分數應該是一致的,否則就產生測驗的誤差。一個測驗有誤差是難免的,但是當誤差過大時就影響了測驗的公平性了。測驗理論上有一個基本假定:實得分數等於真實分數加上誤差(X=T+E),但是真實分數是一個未知數。例如甲生考了某英語閱讀測驗的A卷得到80分,一天後考了B卷得了82分。雖然有2分的差距,但這是可被接受的誤差值,顯示該測驗結果的一致性頗高。又例如乙生考了某寫作測驗,閱卷老師A60分,閱卷老師B62分,這個結果顯示評分標準相當一致,而測驗的信度自然就高。總之,實得分數與真實分數愈接近即表示誤差愈小,測驗的分數就愈能代表考生的能力,如此,測驗的可信度也就愈高。

貳、「效度」(validity
測驗效度即指測驗分數的正確性,簡單的說,就是指一測驗是否評量到它所要評量的能力。例如一項英語聽力與閱讀測驗,聲稱也可評量出英語的口語表達溝通能力,如果測驗結果顯示,口語能力不同的考生確實在得分上有明顯的不同,能力好的,其得分就高,而能力較差的,其得分也較低。這個結果就表示該測驗是具有效度的。如果能力好的,其得分較低,而能力差的,其得分反而較高,這個結果顯示,該測驗所評量到的可能是聽解或閱讀能力,而非口語能力。效度是測驗最重要的指標,它能讓測驗的使用者(stakeholders)判斷某測驗是否達到測量的目的。但是不同於信度,效度是無法直接測量,必須從其他資料推論。因此,測驗的使用者必須審慎評估效度的資料是否適合其使用該測驗的目的。

一個測驗通常會有多個不同的使用目的,因此,一個測驗也就有不止一種的效度。大致上,測驗效度有下列三種:

(一)構念效度(construct validity):構念效度的重點是指測驗分數所說明的意義,也就是指測驗能夠測量到理論上的構念。以「全民英檢」為例,其理論構念是為評量學習者的一般英語能力(general English proficiency)與考生在聽、讀、說、寫四方面的語言使用能力。為證明其具構念效度,一個可用經驗方法來觀察「全民英檢」各分項測驗究竟是考了甚麼語言能力;另一個則是運用相關係數來檢驗測驗的構念。根據「全民英檢」歷次測驗的分析資料,聽、讀、說、寫各項測驗的相關係數均在0.3-0.7的合理範圍內,這個結果說明語言能力是可以分解的,聽、讀、說、寫各項能力有其獨立性,同時也是互相有關聯的。因此,各項測驗的綜合應能正確且有效的反應考生的整體語言能力。

(二)內容效度(content validity):內容效度是指命題內容採樣的適切性。例如,教師要給學生做一個英語成就測驗(achievement test),該測驗的題目應該涵蓋教學的目標與教材的內容。由此可見,教學目標與教材內容是確定內容效度時的兩個重要指標。又一般大規模標準化英語測驗,在設計階段就製定明確的命題原則,從命題開始即注意語言採樣的隨機性(language sampling),同時也製定測驗內容規範(test specifications)。例如「全民英檢」在每一份試卷中對於語言技能(language skills)和語言知識(language knowledge)均有適當比例的要求,以避免同一內容的重複。如要檢視該測驗是否具有內容效度,應該將歷次的試卷中的所有試題與測驗內容規範逐一做比較並進行統計分析,看是否其大致涵蓋了測驗內容規範所規定的內容。這對於導正英語教學是非常重要的,因為如果一考試只集中在某類語言技能和語言知識上,內容一成不變,將造成鼓勵應考技巧的訓練,而影響了教學的正常化,更不利於學習者實際語言能力的提昇。

(三)效標關聯效度(criterion-related validity):前述兩項效度檢驗均指某項考試本身的效度,通稱為內在效度。除此,也可就某種外在標準來檢驗某項考試的效度,稱做外在效度,同期效度(concurrent validity)就是其中一種。同期效度的目的在於用另一種測驗來對當前正在被驗證的測驗進行檢驗。當然進行同期效度研究有兩個前提,首先作為對比測驗的效度要已獲得驗證;其次兩種測驗應具有相近的構念效度,所評量的是相同的能力。近年來亞洲地區國家積極研發全國性大規模英語能力檢定考試,例如日本的STEP考試、大陸的大學英語四、六級考試等,與我國的「全民英檢」考試大致相近,基本上符合上述條件。未來「全民英檢」與STEP或大學英語四、六級考試可進行同期效度的研究,安排考生進行對比考試,結果除了可以驗證「全民英檢」的效度外,更可以分析不同測驗的異同,進而探討擬訂亞洲地區英語能力等級統一量表(proficiency scales)的可行性。

總之,信度與效度是評鑑測驗品質優劣的標準。效度是指測驗分數的正確性,而信度是測驗分數的可靠性,兩者的關係十分密切。一個有效度的測驗必須先有信度,因為不可靠的測驗連自己都無法預測,就別提用他來預測其他東西。但是,有信度的測驗並不表示一定有效度。例如一把尺每次測量都多了3公分,測量結果一致(信度高),但卻不正確(效度低)。由此可知,信度只需有一致性即可,而效度是需要兼具一致性和正確性的。當您評估、選擇測驗時,記得要「內行」地先要求測驗單位提出信度及效度的說明資料喔!


留言

這個網誌中的熱門文章

「全民英檢」初級寫作能力測驗

原文刊載於 中華民國 92 年 1 月 3 日 《 中央日報.英語教與學 》   「全民英檢」五級的測驗當中,以初級(相當國中畢的英語文程度)的報考人數最多,佔 40 萬全部報考人數的一半。初級的通過率也高於其他級數,以其初試(含聽、讀、寫三項)而言,即有四成二的考生達通過標準(聽、讀兩項均達 80 分及寫作達 70 分)。但是,事實上考生在聽、讀部分表現不錯,近六成的考生其實在這兩項上已達通過標準。換言之,其中有近兩成考生是因為寫作成績未盡理想才未能通過初試,實在是令人感到惋惜。 新( 92 )年度第一次初級測驗即將於明日( l 月 4 日)舉行,己有五萬多人報考。在測驗前夕,為協助報考者做好準備,特別藉這篇文章說明初級寫作的測驗方式,並就多數考生感到較困難的「單句寫作」部分的題型、評分標準等提出較詳細的說明。 壹、測驗方式 「全民英檢」初級之寫作能力指標訂為:「能寫簡單的句子及段落,如寫明信片、便條、賀卡及填表格等。對一般日常生活相關的事物,能以簡短的文字敘述或說明」。命題即根據上述能力指標設計,測驗時間共 40 分鐘,全部採直接寫作,以引導寫作( guided writing )方式為原則。各部分答題說明皆以中文書寫,試卷與答案卷分開,題目全部印在試卷上。該測驗共分兩部份(見下表):第一部分單句寫作(包含句子改寫、句子合併、重組三種題型)和第二部分段落寫作。 初級寫作測驗題型與題數分配 分項測驗 題型 題數 第一部分 單句寫作 A. 句子改寫 5 題( 1~5 題) B. 句子合併 5 題( 6~10 題) C. 重組 5 題( 11~15 題) 第二部分 段落寫作 看圖寫作 1 篇(約 50 字的段落) 貳、單句寫作題型說明 一、句子改寫:試卷上有一英文單句或簡短對話及一個未完成的句子,考生須依題目之提示將原句改寫成指定型式,並將整句謄寫於答案卷中。這個部分通常測試的重點包括改變時態、直接問句改間接問句、肯定句改否定句或問句等。下面的例題所測試的就是評量考生是否會將肯定句改寫為問句,並且會正確的使用過去式助動詞 did 。 例題: Mary went to the market. When___________...
Rethinking the use of CEFR in Taiwan: What’s next? Jessica Wu The CEFR has been ‘borrowed’ by the Ministry of Education in Taiwan since 2005, aiming to establish a common yardstick against which learners’ English proficiency can be measured. Having been mandated in Taiwan for a decade, the CEFR has had several positive impacts as well as difficulties and problems in its application in the local education context (Chang, 2012; Wu, 2012). Therefore, it is necessary to rethink the use of the CEFR in Taiwan. The paper suggests that the CEFR has been overtly used in testing and assessment in Taiwan, but its significance in promoting transparency and coherence in language teaching and empowering autonomous learning has been overlooked. The paper argues that the current asymmetric application of the CEFR in assessment should be improved to achieve better balance between learning and assessment. While reflecting on our current use of the CEFR, a review of practices in simila...