国产大模型高考出分了：裸分683，选清华还是北大？

大模型高考评测表现 - 核心观点：字节跳动Seed团队发布的大模型高考评测结果显示，Gemini和豆包在理科和文科总分分别位列第一，展现领先的学科能力 [2] - 理科总分排名：Gemini以655分居首，豆包648分次之；文科总分豆包683分第一 [2] - 细分科目优势：豆包在语文(128)、英语(144)、物理(90)、地理(92)、历史(92)、政治(84)6科中排名第一，数学(141)仅次于Deepseek(145) [3] - 国际模型短板：国外模型在文综科目(政治/历史)表现较弱，对中国知识点理解不足 [24] 评测方法与标准 - 试卷构成：主科采用全国一卷(语数英)，副科采用山东卷，总分750分 [9] - 评分机制：选择题机评+人工质检，开放题实行双评制由高中教师阅卷 [10] - 测试环境：API测试不联网，未使用提示词优化技巧确保公平性 [11] 学科能力深度分析 - 数学进步：模型均达140分水平，较去年显著提升(此前多数不及格) [13] - 视觉短板：全国一卷第6题因图表识别问题全军覆没(正解A，模型多选C) [16][17] - 语文写作：得分率高但存在刻板化、字数不达标、立意偏差等问题 [20] - 英语表现：接近完美，仅写作存在用词和句式单调等细微缺陷 [21] - 理综挑战：图像题仍是难点，豆包与Gemini相对优势明显 [22][23] 技术能力突破 - 多模态融合：Seed1.6通过三阶段训练(文本预训练/多模态混合/长上下文)实现256K上下文支持，提升阅读理解准确率 [33][34][35] - 深度思考优化：采用RFT+RL迭代方法，引入parallel decoding技术，数学高难度测试集成绩提升8分 [36][37][38] - 动态思考机制：AutoCoT技术解决过度思考问题，复杂任务中思维链触发率达100% [39][40][44] 国际考试对比 - JEE Advanced表现：豆包与Gemini进入全印度前10，Gemini物理化学突出，豆包数学5次采样全对 [27][28] - 多模态潜力：使用清晰图片重新测试后，豆包理科总分提升30分至676分，验证图文结合输入的效能 [42][43]