Workflow
Educational Testing
icon
搜索文档
CRASE5用于ACT写作技术报告
ACT· 2026-02-04 07:35
报告概述 - 报告为ACT公司发布的《CRASE5® for ACT Writing Technical Report》技术研究报告 旨在评估其新版自动化作文评分引擎CRASE5的性能 [1][3][4] - 报告的核心观点是 CRASE5通用评分模型在1-6分制和2-12分制上的表现与人类评分员相当甚至更优 其评分分布和一致性指标均符合或超过ACT及自动化评分的行业标准 因此适合投入运营使用 [4][30][42][66] - 报告通过复现早期CRASE+技术报告中的研究 验证了CRASE5模型的有效性 并展示了其在处理偏题作文、干扰性内容检测以及提供评分置信度等方面的新功能 [3][4][45] 自动化评分引擎背景与升级 - CRASE(Constructed Response Automated Scoring Engine)自动化评分引擎自2007年创建 已用于多个州级评估项目 并于2022年10月开始为ACT国际项目的写作文章提供两个评分员分数中的一个 [6][7] - CRASE5是CRASE引擎的第五个主要版本 于2025年开发 旨在增加新功能 包括自动检测偏题作文、自动检测干扰性内容、利用现代模型拟合方法以及提供引擎评分的置信度信息 [3][8] - 通用评分模型使用来自多个写作提示的作文数据构建 目标是对可比提示的作文进行评分 自2022年起用于ACT写作评分 其优势在于评分与提示无关 且允许题库中的新提示自动评分 [14] 模型训练与验证方法 - 训练和验证数据来自约14,000篇具有有效人工评分的作文 其中不到1%的作文因条件代码被排除 数据来源于2020年9月和10月的ACT国际考试 以及2021年春季选定的州和地区考试 [12] - 训练样本包含来自16个写作提示的8,862篇作文 盲验证样本包含来自11个提示的5,128篇作文 样本分配规则确保了国际提示与州和地区提示的均衡代表 [16][17] - 引擎使用默认的39个写作特征进行训练 并将这些特征映射到人工评分的原始记录分数 评分记录分数根据两位评分员的分数按照特定规则(如分数相同或相差1分则求和 相差超过1分则由第三位评分员裁决)得出 范围在2到12分之间 [18][19][22] - 模型评估使用分布性指标(如分数点分布、均值、标准差、标准化均值差SMD)和一致性指标(如精确一致率、相邻一致率、二次加权Kappa QWK) ACT标准要求1-6分制的精确一致率≥60% 精确加相邻一致率≥95% 人机QWK需≥0.70 [24][26][27] CRASE5在1-6分制上的验证结果 - 在四个写作维度上 CRASE5的分数点分布、均值和标准差均与评分员1和评分员2的统计数据相似 例如 在“思想与分析”维度 CRASE5均值为3.4 评分员1和2均为3.5 标准差均为1.0 [31][33] - CRASE5与人类评分员的一致性指标达到或超过了人类评分员之间的一致性 在所有维度上 CRASE5与评分员1/2的精确一致率(范围69.6%至72.6%)均高于人类评分员之间的精确一致率(范围68.0%至68.4%) 且均超过60%的阈值 [32][35][38][41] - CRASE5与人类评分员之间的二次加权Kappa(QWK)在0.82至0.85之间 均超过0.70的运营使用标准 且略高于人类评分员之间的QWK(0.81至0.83) [32][35][38][41] - 按提示细分分析 在11个提示的44个SMD指标中 有10个超出-0.15至0.15的理想范围 影响3个提示 仅有一个QWK低于0.70 一个精确一致率低于60% 此表现优于CRASE+模型 [45] CRASE5在2-12分制上的验证结果 - 在2-12分制上 CRASE5的分数点分布、均值和标准差与基于记录分数的统计数据具有可比性 例如 在“思想与分析”维度 记录分数均值为7.0 CRASE5均值为6.9 标准差均为1.9 [52][54][56] - 记录分数与CRASE5之间的精确一致率在54.2%至58.5%之间 精确加相邻一致率在90.9%至92.8%之间 二次加权Kappa(QWK)在0.88至0.91之间 均处于较高水平 [55][59][62][65] - 报告指出 由于2-12分制有11个分数类别 精确一致率通常会低于1-6分制 因此需要利益相关者判断该尺度下的精确一致率(如高于54%)和精确加相邻一致率(如高于90.9%)是否可以接受 [53][66] 亚组分析结果 - 采用ETS风格的亚组分析方法 评估了基于报告性别、西班牙裔身份和种族/族裔的评分差异 [71][72] - 在1-6分制上 亚组差异极小 所有性别亚组指标均符合预期 西班牙裔/非西班牙裔亚组中仅有一个指标(领域2的西班牙裔SMD为0.20)超出0.10的阈值 种族亚组中仅有一个指标(领域2的多种族SMD为0.14)超出阈值 [76][77][78] - 在2-12分制上 亚组差异同样微小 所有性别亚组指标符合预期 西班牙裔/非西班牙裔亚组中有一个指标(领域2的西班牙裔SMD为0.22)超出阈值 种族亚组中有两个指标超出阈值(领域2的多种族SMD为0.18;领域4的白人未离散化SMD为0.11) [80][82][84] - 总体而言 亚组差异对评分准确性影响不显著 且使用CRASE5后超阈值指标数量少于CRASE+分析 [79][83] CRASE5的预评分与条件代码自动检测 - CRASE5新增了在评分前自动分配条件代码的模型 用于识别无效作答 此过程称为预评分 [96] - 条件代码检测包括 空白作文、作废作文、拒绝参与声明、偏题作文、字迹不清/乱码、非英语作文等 [97] - 偏题检测功能在CRASE5中得到极大增强 通过基于神经网络的编码器模型检查提示与回答之间的语义相似性(余弦相似度低于0.6视为偏题) 并能检测单一单词、直接复制提示等偏题情况 [102][103][105][106] - 新增了干扰性内容检测功能 通过微调基于神经网络的语言模型 更可靠地识别暗示对考生、他人或财产造成伤害的文本 [112] - 预评分流程还包括对短作文(少于25词)和大部分大写字母(≥20%字符为大写)的作文进行“踢出”处理 交由至少两位人工评分员评分 [114]
Pearson Advances English Language Assessment with Enhanced PTE and New Express Test
Prnewswire· 2025-07-10 16:00
英语测试产品更新 - 公司宣布对Pearson Test of English (PTE)进行升级,并推出新产品Pearson English Express Test,旨在提升测试安全性、准确性和可信度[1] - PTE Academic将于2025年8月新增两项口语任务:"Respond to a Situation"和"Summarize a Group Discussion",以更真实评估应试者沟通能力[2] - 评分模型引入AI与人工专家结合机制,增强对抄袭或非原创回答的检测能力[3] PTE Academic核心优势 - 保持全计算机化考试、主要采用AI评分、通常两天内出结果的核心特点[4] - 目前全球超过3,500家机构和数百万学习者认可该测试[4] - 2025年新增30个考试中心,总数达517个,覆盖加拿大、中国、澳大利亚等关键留学移民市场[5] 新产品Pearson English Express Test - 针对美国留学需求设计的一小时在线测试,可随时随地参加,结果数分钟内生成,48小时内提供认证报告[6] - 采用与PTE Academic相同的安全平台,高校可基于Global Scale of English (GSE)设定分数要求[7] - 安全机制包括身份设备检查、人工监督和双摄像头环境监控,结合公司30年专业经验[8] 市场战略与实施计划 - PTE Academic升级将于2025年8月7日生效[10] - Pearson English Express Test将于2025年Q4在巴西、墨西哥、美国等8国首发,2026年扩展至其他市场[11] - 公司全球18,000名员工致力于为近200个国家提供数字内容、评估和资格认证服务[12]