AI写作文

搜索文档
九大AI模型再答高考作文:座次剧烈变动
第一财经· 2025-06-07 23:24
AI模型高考作文表现 - 2025年九大AI模型高考作文测评显示,谷歌Gemini和DeepSeek以61.5分并列第一,元宝(61分)、通义千问(59.75分)、Kimi(59.5分)紧随其后,豆包(59分)、文心一言(58.5分)表现中等,智谱清言(50.75分)和ChatGPT(50.5分)垫底 [3][4][20][28][36][46][62][70][80][92][94] - 新晋模型Gemini和DeepSeek首次参评即登顶,去年前三名通义千问、元宝、豆包排名下滑至第三、第四和第六位 [3][4] - 测评采用上海卷思辨性作文题目,AI在逻辑明确的任务中表现更优;全国一卷诗歌类题目则普遍审题不清 [6][7] AI作文能力进步与局限 - 教师评价AI作文语言规范、材料丰富、逻辑性强,审题准确且结构程式化,但缺乏个性化思考和情感共鸣 [97][98][99] - 相比2024年,AI在情感表达和思想深度上有进步,但仍存在案例堆砌、逻辑错误和"论文味过重"问题 [1][2][99] - 高分作文如Gemini和DeepSeek的共性:论点鲜明、论据充实(引用爱因斯坦相对论、马尔克斯《百年孤独》等),结构完整且扣题紧密 [20][28] 头部模型厂商格局变化 - 测评覆盖国内外头部厂商,包括谷歌、DeepSeek、腾讯(元宝)、阿里(通义千问)、字节(豆包)、百度(文心一言)、月之暗面(Kimi)、智谱和OpenAI(ChatGPT) [5] - 谷歌Gemini和DeepSeek凭借技术迭代迅速崛起,成为新头部;国内厂商中腾讯元宝稳定性较强,阿里通义千问和字节豆包排名波动较大 [3][4][36][46] - 智谱清言和ChatGPT因内容生硬、分析浅显垫底,反映部分厂商在语言理解和逻辑构建上的技术短板 [92][94][96] 作文内容与评分细节 - 高分作文典型结构:Gemini采用"点题-关系阐述-正反论证-结论"框架,DeepSeek通过历史典故(孔子、钱锺书)强化思辨 [20][24][28] - 评分差异体现教师偏好:元宝获左建国最高分(63分)但文旭仅给52分,通义千问获文旭和许珊68分高分但左建国仅评51分 [36][46] - AI仍存在事实错误(如将黄庭坚诗句误标为苏轼),显示幻觉问题未完全解决 [47]