Educational Testing
搜索文档
ACT增强功能的设计框架
ACT· 2026-02-19 07:35
报告行业投资评级 * 该报告为ACT考试增强版的设计框架文件,属于教育测评行业的技术研发报告,未提供对行业或公司的投资评级 [1][12][72] 报告的核心观点 * ACT考试将于2025年进行重大更新,旨在通过缩短考试时间、增加每题答题时间、使科学部分可选等方式,为考生提供更灵活、压力更小的测试体验,同时保持其衡量大学和职业准备度的核心效度与信度 [12][13][14][30] * 增强版ACT将维持1-36分的分数标尺、大学准备度基准分数以及预测大学学业成功的能力,确保分数的连续性和可比性 [15][23][121] * 更新涉及考试结构、内容和评分方式的调整,包括减少题目总数、引入嵌入式现场测试题、调整各科目报告类别的题目比例,并重新定义综合分数(仅基于英语、数学和阅读) [31][32][40][56] 根据相关目录分别进行总结 考试结构与时长的变化 * **总测试时间缩短**:包含科学部分的总测试时间从175分钟减少至165分钟,不包含科学部分的核心科目测试仅需125分钟即可获得可报告的综合分数 [32][34][35] * **各科目时长与题量调整**:英语部分从75题45分钟减少为40题35分钟,数学部分从60题60分钟减少为41题50分钟,阅读部分从40题35分钟调整为27题40分钟,科学部分从40题35分钟调整为34题40分钟 [32][95] * **平均答题时间增加**:增强版ACT平均每题答题时间比旧版增加约9秒,达到平均每题57-58秒 [32][34] 考试内容与题型的具体更新 * **英语部分**:每套试卷将至少包含一篇议论文,以评估论证相关技能;增加“写作产出”和“语言知识”报告类别的题目比例,减少“标准英语惯例”类题目比例;所有题目将添加题干以提供更清晰的指令;取消部分可能引起混淆或偏见的题型 [40][45][139][147] * **数学部分**:选择题选项从五个减少至四个,以减轻阅读负担、改善测量质量并符合通用设计原则;减少设置在现实情境中的题目数量和“整合基本技能”报告类目的题目比例 [40][46][179] * **阅读部分**:减少“关键思想和细节”类题目的比例,特别是认知复杂度较低的题目;文章长度将包含约750标准词和约650标准词两种;继续使用单一文章、配对文章和包含视觉/定量信息的文章等格式 [40][47][159][160] * **科学部分**:加强与国家科学标准的对接,每套试卷将至少包含一个涉及工程与设计主题的文章;将“使用证据评估科学论证和模型”报告类别的题目比例调整为24%至38% [40][48] 评分方式与可选部分 * **科学部分变为可选**:自2025年4月(美国全国在线考试)起,考生可选择是否参加科学部分测试,选择参加者将获得STEM分数 [13][49][50] * **综合分数重新定义**:自2025年4月起,报告的综合分数将仅基于英语、数学和阅读三部分的分数,科学分数将单独报告 [13][56] * **超级分数更新**:超级分数的计算将遵循新的综合分数定义,仅基于英语、数学和阅读的最佳部分分数,但可以合并旧版和增强版考试的成绩 [59] 设计原则与效度验证 * **保持核心测量理念**:增强版ACT将继续通过直接评估高中所学、大学成功所需的技能来衡量学生的学术准备度,其哲学基础、研究依据和反馈机制保持不变 [20][21][22] * **强调公平与可及性**:在设计过程中贯穿通用设计原则和公平性考量,所有题目均经过多元背景专家的多轮评审,并继续提供考试便利设施和费用减免计划 [25][26][27][116] * **提供全面的效度证据**:通过外部专家评审、认知实验室研究、眼动追踪、链接研究、模式可比性研究等多种方式,收集基于测试内容、反应过程和其他变量的证据,以支持增强版考试分数的解释和使用 [63][64][65][66][67]
CRASE5用于ACT写作技术报告
ACT· 2026-02-04 07:35
报告概述 - 报告为ACT公司发布的《CRASE5® for ACT Writing Technical Report》技术研究报告 旨在评估其新版自动化作文评分引擎CRASE5的性能 [1][3][4] - 报告的核心观点是 CRASE5通用评分模型在1-6分制和2-12分制上的表现与人类评分员相当甚至更优 其评分分布和一致性指标均符合或超过ACT及自动化评分的行业标准 因此适合投入运营使用 [4][30][42][66] - 报告通过复现早期CRASE+技术报告中的研究 验证了CRASE5模型的有效性 并展示了其在处理偏题作文、干扰性内容检测以及提供评分置信度等方面的新功能 [3][4][45] 自动化评分引擎背景与升级 - CRASE(Constructed Response Automated Scoring Engine)自动化评分引擎自2007年创建 已用于多个州级评估项目 并于2022年10月开始为ACT国际项目的写作文章提供两个评分员分数中的一个 [6][7] - CRASE5是CRASE引擎的第五个主要版本 于2025年开发 旨在增加新功能 包括自动检测偏题作文、自动检测干扰性内容、利用现代模型拟合方法以及提供引擎评分的置信度信息 [3][8] - 通用评分模型使用来自多个写作提示的作文数据构建 目标是对可比提示的作文进行评分 自2022年起用于ACT写作评分 其优势在于评分与提示无关 且允许题库中的新提示自动评分 [14] 模型训练与验证方法 - 训练和验证数据来自约14,000篇具有有效人工评分的作文 其中不到1%的作文因条件代码被排除 数据来源于2020年9月和10月的ACT国际考试 以及2021年春季选定的州和地区考试 [12] - 训练样本包含来自16个写作提示的8,862篇作文 盲验证样本包含来自11个提示的5,128篇作文 样本分配规则确保了国际提示与州和地区提示的均衡代表 [16][17] - 引擎使用默认的39个写作特征进行训练 并将这些特征映射到人工评分的原始记录分数 评分记录分数根据两位评分员的分数按照特定规则(如分数相同或相差1分则求和 相差超过1分则由第三位评分员裁决)得出 范围在2到12分之间 [18][19][22] - 模型评估使用分布性指标(如分数点分布、均值、标准差、标准化均值差SMD)和一致性指标(如精确一致率、相邻一致率、二次加权Kappa QWK) ACT标准要求1-6分制的精确一致率≥60% 精确加相邻一致率≥95% 人机QWK需≥0.70 [24][26][27] CRASE5在1-6分制上的验证结果 - 在四个写作维度上 CRASE5的分数点分布、均值和标准差均与评分员1和评分员2的统计数据相似 例如 在“思想与分析”维度 CRASE5均值为3.4 评分员1和2均为3.5 标准差均为1.0 [31][33] - CRASE5与人类评分员的一致性指标达到或超过了人类评分员之间的一致性 在所有维度上 CRASE5与评分员1/2的精确一致率(范围69.6%至72.6%)均高于人类评分员之间的精确一致率(范围68.0%至68.4%) 且均超过60%的阈值 [32][35][38][41] - CRASE5与人类评分员之间的二次加权Kappa(QWK)在0.82至0.85之间 均超过0.70的运营使用标准 且略高于人类评分员之间的QWK(0.81至0.83) [32][35][38][41] - 按提示细分分析 在11个提示的44个SMD指标中 有10个超出-0.15至0.15的理想范围 影响3个提示 仅有一个QWK低于0.70 一个精确一致率低于60% 此表现优于CRASE+模型 [45] CRASE5在2-12分制上的验证结果 - 在2-12分制上 CRASE5的分数点分布、均值和标准差与基于记录分数的统计数据具有可比性 例如 在“思想与分析”维度 记录分数均值为7.0 CRASE5均值为6.9 标准差均为1.9 [52][54][56] - 记录分数与CRASE5之间的精确一致率在54.2%至58.5%之间 精确加相邻一致率在90.9%至92.8%之间 二次加权Kappa(QWK)在0.88至0.91之间 均处于较高水平 [55][59][62][65] - 报告指出 由于2-12分制有11个分数类别 精确一致率通常会低于1-6分制 因此需要利益相关者判断该尺度下的精确一致率(如高于54%)和精确加相邻一致率(如高于90.9%)是否可以接受 [53][66] 亚组分析结果 - 采用ETS风格的亚组分析方法 评估了基于报告性别、西班牙裔身份和种族/族裔的评分差异 [71][72] - 在1-6分制上 亚组差异极小 所有性别亚组指标均符合预期 西班牙裔/非西班牙裔亚组中仅有一个指标(领域2的西班牙裔SMD为0.20)超出0.10的阈值 种族亚组中仅有一个指标(领域2的多种族SMD为0.14)超出阈值 [76][77][78] - 在2-12分制上 亚组差异同样微小 所有性别亚组指标符合预期 西班牙裔/非西班牙裔亚组中有一个指标(领域2的西班牙裔SMD为0.22)超出阈值 种族亚组中有两个指标超出阈值(领域2的多种族SMD为0.18;领域4的白人未离散化SMD为0.11) [80][82][84] - 总体而言 亚组差异对评分准确性影响不显著 且使用CRASE5后超阈值指标数量少于CRASE+分析 [79][83] CRASE5的预评分与条件代码自动检测 - CRASE5新增了在评分前自动分配条件代码的模型 用于识别无效作答 此过程称为预评分 [96] - 条件代码检测包括 空白作文、作废作文、拒绝参与声明、偏题作文、字迹不清/乱码、非英语作文等 [97] - 偏题检测功能在CRASE5中得到极大增强 通过基于神经网络的编码器模型检查提示与回答之间的语义相似性(余弦相似度低于0.6视为偏题) 并能检测单一单词、直接复制提示等偏题情况 [102][103][105][106] - 新增了干扰性内容检测功能 通过微调基于神经网络的语言模型 更可靠地识别暗示对考生、他人或财产造成伤害的文本 [112] - 预评分流程还包括对短作文(少于25词)和大部分大写字母(≥20%字符为大写)的作文进行“踢出”处理 交由至少两位人工评分员评分 [114]
Pearson Advances English Language Assessment with Enhanced PTE and New Express Test
Prnewswire· 2025-07-10 16:00
英语测试产品更新 - 公司宣布对Pearson Test of English (PTE)进行升级,并推出新产品Pearson English Express Test,旨在提升测试安全性、准确性和可信度[1] - PTE Academic将于2025年8月新增两项口语任务:"Respond to a Situation"和"Summarize a Group Discussion",以更真实评估应试者沟通能力[2] - 评分模型引入AI与人工专家结合机制,增强对抄袭或非原创回答的检测能力[3] PTE Academic核心优势 - 保持全计算机化考试、主要采用AI评分、通常两天内出结果的核心特点[4] - 目前全球超过3,500家机构和数百万学习者认可该测试[4] - 2025年新增30个考试中心,总数达517个,覆盖加拿大、中国、澳大利亚等关键留学移民市场[5] 新产品Pearson English Express Test - 针对美国留学需求设计的一小时在线测试,可随时随地参加,结果数分钟内生成,48小时内提供认证报告[6] - 采用与PTE Academic相同的安全平台,高校可基于Global Scale of English (GSE)设定分数要求[7] - 安全机制包括身份设备检查、人工监督和双摄像头环境监控,结合公司30年专业经验[8] 市场战略与实施计划 - PTE Academic升级将于2025年8月7日生效[10] - Pearson English Express Test将于2025年Q4在巴西、墨西哥、美国等8国首发,2026年扩展至其他市场[11] - 公司全球18,000名员工致力于为近200个国家提供数字内容、评估和资格认证服务[12]