大模型高考评测表现 - 核心观点:字节跳动Seed团队发布的大模型高考评测结果显示,Gemini和豆包在理科和文科总分分别位列第一,展现领先的学科能力 [2] - 理科总分排名:Gemini以655分居首,豆包648分次之;文科总分豆包683分第一 [2] - 细分科目优势:豆包在语文(128)、英语(144)、物理(90)、地理(92)、历史(92)、政治(84)6科中排名第一,数学(141)仅次于Deepseek(145) [3] - 国际模型短板:国外模型在文综科目(政治/历史)表现较弱,对中国知识点理解不足 [24] 评测方法与标准 - 试卷构成:主科采用全国一卷(语数英),副科采用山东卷,总分750分 [9] - 评分机制:选择题机评+人工质检,开放题实行双评制由高中教师阅卷 [10] - 测试环境:API测试不联网,未使用提示词优化技巧确保公平性 [11] 学科能力深度分析 - 数学进步:模型均达140分水平,较去年显著提升(此前多数不及格) [13] - 视觉短板:全国一卷第6题因图表识别问题全军覆没(正解A,模型多选C) [16][17] - 语文写作:得分率高但存在刻板化、字数不达标、立意偏差等问题 [20] - 英语表现:接近完美,仅写作存在用词和句式单调等细微缺陷 [21] - 理综挑战:图像题仍是难点,豆包与Gemini相对优势明显 [22][23] 技术能力突破 - 多模态融合:Seed1.6通过三阶段训练(文本预训练/多模态混合/长上下文)实现256K上下文支持,提升阅读理解准确率 [33][34][35] - 深度思考优化:采用RFT+RL迭代方法,引入parallel decoding技术,数学高难度测试集成绩提升8分 [36][37][38] - 动态思考机制:AutoCoT技术解决过度思考问题,复杂任务中思维链触发率达100% [39][40][44] 国际考试对比 - JEE Advanced表现:豆包与Gemini进入全印度前10,Gemini物理化学突出,豆包数学5次采样全对 [27][28] - 多模态潜力:使用清晰图片重新测试后,豆包理科总分提升30分至676分,验证图文结合输入的效能 [42][43]
国产大模型高考出分了:裸分683,选清华还是北大?
量子位·2025-06-26 14:25