Educational Testing - 财报，业绩电话会，研报，新闻

Educational Testing

搜索文档

ACT· 2026-02-04 07:35

报告概述 - 报告为ACT公司发布的《CRASE5® for ACT Writing Technical Report》技术研究报告旨在评估其新版自动化作文评分引擎CRASE5的性能 [1][3][4] - 报告的核心观点是 CRASE5通用评分模型在1-6分制和2-12分制上的表现与人类评分员相当甚至更优其评分分布和一致性指标均符合或超过ACT及自动化评分的行业标准因此适合投入运营使用 [4][30][42][66] - 报告通过复现早期CRASE+技术报告中的研究验证了CRASE5模型的有效性并展示了其在处理偏题作文、干扰性内容检测以及提供评分置信度等方面的新功能 [3][4][45] 自动化评分引擎背景与升级 - CRASE（Constructed Response Automated Scoring Engine）自动化评分引擎自2007年创建已用于多个州级评估项目并于2022年10月开始为ACT国际项目的写作文章提供两个评分员分数中的一个 [6][7] - CRASE5是CRASE引擎的第五个主要版本于2025年开发旨在增加新功能包括自动检测偏题作文、自动检测干扰性内容、利用现代模型拟合方法以及提供引擎评分的置信度信息 [3][8] - 通用评分模型使用来自多个写作提示的作文数据构建目标是对可比提示的作文进行评分自2022年起用于ACT写作评分其优势在于评分与提示无关且允许题库中的新提示自动评分 [14] 模型训练与验证方法 - 训练和验证数据来自约14,000篇具有有效人工评分的作文其中不到1%的作文因条件代码被排除数据来源于2020年9月和10月的ACT国际考试以及2021年春季选定的州和地区考试 [12] - 训练样本包含来自16个写作提示的8,862篇作文盲验证样本包含来自11个提示的5,128篇作文样本分配规则确保了国际提示与州和地区提示的均衡代表 [16][17] - 引擎使用默认的39个写作特征进行训练并将这些特征映射到人工评分的原始记录分数评分记录分数根据两位评分员的分数按照特定规则（如分数相同或相差1分则求和相差超过1分则由第三位评分员裁决）得出范围在2到12分之间 [18][19][22] - 模型评估使用分布性指标（如分数点分布、均值、标准差、标准化均值差SMD）和一致性指标（如精确一致率、相邻一致率、二次加权Kappa QWK） ACT标准要求1-6分制的精确一致率≥60% 精确加相邻一致率≥95% 人机QWK需≥0.70 [24][26][27] CRASE5在1-6分制上的验证结果 - 在四个写作维度上 CRASE5的分数点分布、均值和标准差均与评分员1和评分员2的统计数据相似例如在“思想与分析”维度 CRASE5均值为3.4 评分员1和2均为3.5 标准差均为1.0 [31][33] - CRASE5与人类评分员的一致性指标达到或超过了人类评分员之间的一致性在所有维度上 CRASE5与评分员1/2的精确一致率（范围69.6%至72.6%）均高于人类评分员之间的精确一致率（范围68.0%至68.4%）且均超过60%的阈值 [32][35][38][41] - CRASE5与人类评分员之间的二次加权Kappa（QWK）在0.82至0.85之间均超过0.70的运营使用标准且略高于人类评分员之间的QWK（0.81至0.83） [32][35][38][41] - 按提示细分分析在11个提示的44个SMD指标中有10个超出-0.15至0.15的理想范围影响3个提示仅有一个QWK低于0.70 一个精确一致率低于60% 此表现优于CRASE+模型 [45] CRASE5在2-12分制上的验证结果 - 在2-12分制上 CRASE5的分数点分布、均值和标准差与基于记录分数的统计数据具有可比性例如在“思想与分析”维度记录分数均值为7.0 CRASE5均值为6.9 标准差均为1.9 [52][54][56] - 记录分数与CRASE5之间的精确一致率在54.2%至58.5%之间精确加相邻一致率在90.9%至92.8%之间二次加权Kappa（QWK）在0.88至0.91之间均处于较高水平 [55][59][62][65] - 报告指出由于2-12分制有11个分数类别精确一致率通常会低于1-6分制因此需要利益相关者判断该尺度下的精确一致率（如高于54%）和精确加相邻一致率（如高于90.9%）是否可以接受 [53][66] 亚组分析结果 - 采用ETS风格的亚组分析方法评估了基于报告性别、西班牙裔身份和种族/族裔的评分差异 [71][72] - 在1-6分制上亚组差异极小所有性别亚组指标均符合预期西班牙裔/非西班牙裔亚组中仅有一个指标（领域2的西班牙裔SMD为0.20）超出0.10的阈值种族亚组中仅有一个指标（领域2的多种族SMD为0.14）超出阈值 [76][77][78] - 在2-12分制上亚组差异同样微小所有性别亚组指标符合预期西班牙裔/非西班牙裔亚组中有一个指标（领域2的西班牙裔SMD为0.22）超出阈值种族亚组中有两个指标超出阈值（领域2的多种族SMD为0.18；领域4的白人未离散化SMD为0.11） [80][82][84] - 总体而言亚组差异对评分准确性影响不显著且使用CRASE5后超阈值指标数量少于CRASE+分析 [79][83] CRASE5的预评分与条件代码自动检测 - CRASE5新增了在评分前自动分配条件代码的模型用于识别无效作答此过程称为预评分 [96] - 条件代码检测包括空白作文、作废作文、拒绝参与声明、偏题作文、字迹不清/乱码、非英语作文等 [97] - 偏题检测功能在CRASE5中得到极大增强通过基于神经网络的编码器模型检查提示与回答之间的语义相似性（余弦相似度低于0.6视为偏题）并能检测单一单词、直接复制提示等偏题情况 [102][103][105][106] - 新增了干扰性内容检测功能通过微调基于神经网络的语言模型更可靠地识别暗示对考生、他人或财产造成伤害的文本 [112] - 预评分流程还包括对短作文（少于25词）和大部分大写字母（≥20%字符为大写）的作文进行“踢出”处理交由至少两位人工评分员评分 [114]

Pearson Advances English Language Assessment with Enhanced PTE and New Express Test

Prnewswire· 2025-07-10 16:00

英语测试产品更新 - 公司宣布对Pearson Test of English (PTE)进行升级，并推出新产品Pearson English Express Test，旨在提升测试安全性、准确性和可信度[1] - PTE Academic将于2025年8月新增两项口语任务："Respond to a Situation"和"Summarize a Group Discussion"，以更真实评估应试者沟通能力[2] - 评分模型引入AI与人工专家结合机制，增强对抄袭或非原创回答的检测能力[3] PTE Academic核心优势 - 保持全计算机化考试、主要采用AI评分、通常两天内出结果的核心特点[4] - 目前全球超过3,500家机构和数百万学习者认可该测试[4] - 2025年新增30个考试中心，总数达517个，覆盖加拿大、中国、澳大利亚等关键留学移民市场[5] 新产品Pearson English Express Test - 针对美国留学需求设计的一小时在线测试，可随时随地参加，结果数分钟内生成，48小时内提供认证报告[6] - 采用与PTE Academic相同的安全平台，高校可基于Global Scale of English (GSE)设定分数要求[7] - 安全机制包括身份设备检查、人工监督和双摄像头环境监控，结合公司30年专业经验[8] 市场战略与实施计划 - PTE Academic升级将于2025年8月7日生效[10] - Pearson English Express Test将于2025年Q4在巴西、墨西哥、美国等8国首发，2026年扩展至其他市场[11] - 公司全球18,000名员工致力于为近200个国家提供数字内容、评估和资格认证服务[12]

培生(US:PSO)

English Proficiency Assessment

Educational Testing

Pearson Test of English (PTE)

Pearson English Express Test

English Proficiency Assessment

Educational Testing

Pearson Test of English (PTE)

Pearson English Express Test