Workflow
育人维度
icon
搜索文档
GPT-4o准确率仅为24%,权威中文教育基准:知识+情商的双重考验
36氪· 2025-11-14 15:20
研究背景与核心问题 - 当前大模型评测基准存在维度单一和忽视育人能力两大局限性,主要关注知识储备而忽略了启发式教学、情感支持等真实教育场景中的关键能力[1] - 行业面临的关键问题是现有评估方式不足以全面衡量大模型在复杂教育环境中的综合能力,一个好的AI老师不应仅仅是解题高手[1] OmniEduBench基准框架设计 - 该基准包含24,602个高质量问答对,采用独特的双维度评估体系,首次从知识+育人双维度系统评测大模型教育能力[1][3][5] - 知识维度包含18,121个条目,覆盖从小学到专业考试的五个难度级别和41个学科,包含11种常见考试题型[6] - 育人维度包含6,481个条目,聚焦6大细分领域和20个具体教学主题,包括思维与认知、个性化发展、情感与心理健康、品格与价值观等[7][8][9][10] 基准构建方法与质量保障 - 构建过程历经多源收集(927K)、结构化清洗(657K)、双机筛难(50K)、专家定版(24.6K)四道严苛关卡[11][13] - 采用对抗式筛选方法,先用QWQ-32B过滤简单题,再用更强的Qwen3-235B进行二次筛选,只保留高难度样本以防模型背题[13] - 最终由50位硕士生和5位资深专家进行人工审核,抽样质检显示整体质量4.8/5,答案准确性4.8/5,标注者一致性高达0.90[13] 主要评测结果与发现 - 在知识维度测试中,GPT-4o准确率仅为24.17%,远低于多个顶尖开源模型,显示其在处理本土化中文教育题目时存在水土不服[15] - 在育人维度上,表现最好的模型QwQ-32B准确率为70.27%,但与人类水平相比仍有近30%的巨大差距,表明当前LLM在高级教育能力上普遍缺乏[15][16] - 在高难度子集OmniEduBench HARD上,所有模型性能出现断崖式下跌,最强模型Gemini-2.5 Pro准确率也不足50%[16] 行业意义与影响 - 该基准首次将教育场景中的互动能力系统化、可量化,推动行业关注模型在启发、反馈等真实互动场景中的价值[17] - 作为原生中文教育基准,从数据到任务定义都更接地气,能更准确地评估模型在本土环境下的表现[19] - 为中文大模型在教育领域的评测提供了更全面的视角,清晰揭示了当前LLM在实现教育核心目标育人方面的明显短板[20][21]