PTE学术英语考试有效性评估研究报告
上个月(2065 438+2009年3月28日)在PTE官网发布了一份完整的PTE学术评估效率报告。
有趣的是,文章的标题是:
PTE学术如何支持其测试结果?
任何教育考试都是要建立一套评价体系的。要想被全球广泛接受和认可,首先要证明其过程的公平性和结果的合法性。
PTE学术英语考试自2009年推出以来,得到了澳大利亚移民局、新西兰移民局、英国、美国、加拿大、澳大利亚以及全球数千所大学和教育机构的认可。考生分布在180多个国家和地区;每年的对价以30%左右的速度递增。从各种事实和数据来看,PTE学术英语测试已经得到了考生和应试者的深刻认可,这一评价体系也在实践中得到检验和推广。
所以,回到原点。
从科学研究的角度来看,逻辑论证的体系如何证明PTE学术英语考试的成绩能够得到考试本身的支持?在大白话里,如何证明结果是可靠的?
在新发布的《效率报告》中,培生通过文本研究和实地调查,论证了PTE Academic作为考试的过程的公平性和结果的合法性。
PTE学术英语测试有效性报告的目的是尽可能公开透明地解释PTE学术英语测试是如何设计和开发的,并评估其产品对学习者的影响。
测量考试质量:评价的三个质量标准。
这项研究和分析的经理萨拉·休斯帮助* * *组织了这份PTE学术报告。以下是她列举的这份报告的核心内容:
“PTE学术评估功效报告解释了我们的研究如何与评估质量的三个关键指标相关联:有效性、可靠性和公平性。”
“关于PTE学术英语测试有效性的评估报告解释了我们的研究如何将PTE学术与测试质量的三个关键指标——有效性、可靠性和公平性——联系起来。”
“我们将这三个主要的评价质量标准作为有效性评价的基础,并将其应用于PTE Academic的主要目的。PTE学术的主要目的是衡量考生在听、读、说、写方面的学术英语语言能力。”
这里讨论的三个主要评价质量标准是评价测试使用者在多大程度上被允许对考生的英语能力(效度)、分数的一致性和准确性(信度)以及测试的公平性做出合理的解释(AERA、APA和NCME,2014)。
为什么要用这三个评价质量标准?
《教育与心理测验标准》(AERA,APA,NCME,2014)给出了定义,用三个基本属性来评价测验的效率:有效性、可靠性和公平性。
效率
“证据和理论支持使用考试分数的程度(P11)”的有效性,需要证据证明考试分数可以被理解为考试意图或目的,并合理地用于某一具体明确的目的。
可靠性
"在重复过程中测验分数的一致性(P33). "可靠性要求证明考试分数与时间、跨领域多种考试形式和/或多名评分者一致。
公平
“分数对于所有适应人群的个体来说,意义是一样的”(P50)。公平性要求有证据证明,当考试按预期进行时,不存在对每个项目中特定考生群体的系统性偏见,学生不会受到考试管理过程中不相关障碍的阻碍。
考虑到上述三个标准作为开发和评估测试的最佳实践指南,以及理论系统所发挥的长期作用,以及它们在评估的法律辩护中的作用,培生采用这三个属性作为我们公开发布培生考试产品的评估质量指数(AQI)。
质量标准的评估I .有效性
有证据表明,考试分数可以被用来和理解为考试所定义的目的。对于PTE学术英语考试来说,很重要的一点是考试成绩能够有意义的反映一个考生的语言水平,全世界都能够了解并帮助考生未来的下一步。
PTE学术英语测试的主要目的是使测试使用者能够对考生的英语语言能力做出合理的解释。通过考试提供的精准抓取能力,以及对四种沟通技巧相对优劣的总结描述,对考试用户进行判断或定位。
PTE学术英语测试的结果可以解释为英语语言能力的评估,也可以用于学术项目招生或技术移民。(有效性已验证)
评价质量标准二。可靠性
信度是一个测量的概念,是指无论时间、考试形式或多个考试组织者,分数总是相同的。无论考生什么时候参加考试,都应该有同样的机会面对一致的评价。
PTE学术英语考试的另一个主要目标是通过在各种考试场合提供一致的分数来最大限度地减少判断和决策的错误。
无论体验时间和/或多个考试组织者,PTE学术英语考试的考试成绩都是一致的。(可靠性已验证)
评价质量标准三。公平
公平是指考试不存在系统性偏差,对所有考生来说,考试成绩都可以用同样的方式解读。对PTE学术英语考试公平性和自动评分的研究,保证了考生无论性别、种族、国籍,都能有同等的机会证明自己的语言能力。
针对PTE学生的英语考试也力求所有考生的成绩都能以同样的方式解读,不论性别、种族/民族或母语。公平是指当考试按预期进行时,不存在对每个项目中某个特殊群体考生的系统性偏见,考生在考试过程中也不会被无关的障碍所阻碍而一展身手。
对于不同的考生群体,PTE学术英语考试成绩可以用同样的方式来解释。(公平性已验证)
产品调查和研究:多种论据的收集
为了论证以上三个标准,PTE学术英语考试团队进行了大量的研究,收集科学系统的证据。所有这些证据都汇编并发表在技术手册中。其中一些调查完全是内部数据,感兴趣的学者和研究人员可以参考培生的官方技术手册。
以下是PTE学术英语测试的成绩评估报告,以及使用的产品研究项目:
将PTE学术考试成绩与欧洲共同参考框架接轨
英语全球等级与其他等级的一致:PTE学术、雅思和托福之间的一致性
标准设定研究——与加拿大语言基准的一致性(CLB)
自动化评分白皮书
差异项目功能与单维性
项目敏感性审查
现场测试一
现场测试II
PTE制备