Workflow
文心 X1 turbo
icon
搜索文档
高考数学全卷重赛!一道题难倒所有大模型,新选手Gemini夺冠,豆包DeepSeek并列第二
机器之心· 2025-06-11 01:56
大模型高考数学测评结果 核心观点 - 7家大模型参与2025年新课标Ⅰ卷数学测试(14道客观题73分+5道解答题77分),Gemini 2.5 Pro以总分145分排名第一,Doubao和DeepSeek R1以144分并列第二 [9] - 多模态大模型在图像题(第6题)上全军覆没,非图像类客观题表现接近(最高分差仅3分) [7][20] - 解答题成为主要失分区,仅Gemini 2.5 Pro获满分77分,其他模型因推理步骤不严谨、计算错误等共性问题扣分 [8][11] 客观题表现 - 除第6题外,Doubao、Qwen3、Gemini 2.5 Pro等6款模型均获68分(满分73分),o3因多选题漏选一项得65分 [20][21] - 第6题(图像题)测试中,所有多模态模型均失败,其中Doubao和o3识别了坐标但误判风速方向,Gemini 2.5 Pro连基本坐标都未识别 [24][25] - o3在第9题忽视"正三棱柱"关键条件导致坐标系建立错误,影响选项判断 [21] 解答题表现 - 第15题(概率)和第17题(立体几何)所有模型均满分,展现基础题型处理能力 [11] - 第16题(数列)仅Qwen3因答案冗余假设扣1分,其他模型满分 [12] - 第18题(椭圆几何)仅Gemini 2.5 Pro、Doubao、DeepSeek R1满分,Qwen3因多余约等于步骤扣1分,文心X1 Turbo因轨迹证明不全扣6分 [13][16] - 第19题(压轴题)仅Gemini 2.5 Pro全对,Doubao因震荡项相位论证不严谨扣1分,DeepSeek R1因未完整讨论解的分类扣1分 [17] 模型能力短板 - 多模态图像理解能力不足,所有参测模型均无法正确处理含图像的数学题 [27] - 复杂推理存在缺陷,如文心X1 Turbo在极值证明和比大小计算上连续出错 [18] - 严谨性待提升,Qwen3在正确答案中混入冗余内容导致扣分 [12]
AI周度跟踪2025年第6期:阿里发布Qwen 3,国内大模型发布加速
东方证券· 2025-05-06 20:23
报告行业投资评级 - 看好(维持) [5] 报告的核心观点 - 看好AI新周期带动算力 - 算法 - 应用生态三端依次持续推进,建议增加港股互联网板块配置仓位,核心推荐阿里巴巴 - W、快手 - W、腾讯控股、百度集团 - SW [3][87] 根据相关目录分别进行总结 本期AI专题跟踪 阿里发布通义千问3.0系列模型 - 4月29日凌晨,阿里巴巴开源新一代通义千问模型Qwen 3系列,包含8款模型,Qwen 3 - 235B - A22B测评超DeepSeek R1等位列开源系列模型榜首 [13] - Qwen 3系列优势:有8种尺寸,适配各场景,各尺寸均为SOTA水平;Qwen 3 - 235B - A22B测评超第一梯队大模型,代码能力超Gemini 2.5 Pro;部署成本低,仅需4张H20即可部署满血版 [15] - 模型应用侧优化:国内首个混合推理模型,集成深度思考与快速回答功能,支持调整回答思考长度;agent调用性能好,接入MCP协议,可调用即梦生图功能;支持119种语言和方言,利于小语种国家AI应用开发和模型出海 [18] 百度召开AI开发者大会,发布多项AI重磅更新 - 4月25日,百度召开大会,发布文心4.5 turbo与推理模型X1 turbo,及AI模型、应用与生态的九大更新 [19] - 新一代大模型降本提质:文心4.5 turbo多模态能力升级,文本和多模态能力达行业第一梯队;X1 turbo思维链等能力升级,总体表现优;文心大模型4.5 Turbo价格降80%,仅为DeepSeek V3的40%,文心大模型X1 Turbo价格再降50%,仅为DeepSeek R1的25% [21] - 其他更新:算力侧点亮国内首个全自研3万卡集群,提升稳定性、芯片利用率并降低能耗;应用侧发布高说服力数字人,新增剧本生成和AI大脑功能,降低使用门槛;代码智能体包含文心快码comate与秒哒;通用AI agent心响可一站式解决复杂问题,接入MCP服务 [24][25][28] 本期AI动态跟踪 算力基建 - 4月25日中央政治局进行人工智能集体学习,凸显人工智能核心地位,习近平强调发挥举国体制优势,推动人工智能健康发展,明确技术、应用、政策端工作部署,预计未来有多重政策落地 [32][33] - 英伟达4月14日宣布与台积电、富士康等合作,未来四年在美国本土生产价值5000亿美元的AI基础设施 [35] AI大模型 - 2024年以来大模型发布提速,国内互联网大厂等加大AI投入,模型快速迭代升级,AI渗透率进入爬坡期 [36] - DeepSeek发布DeepSeek - prover - V2数学推理模型,在数学推理上表现领先 [39] - 4月30日小米发布首个推理模型Xiaomi MiMo,7B参数规模在数学和代码推理测评上超越部分模型,可在端侧部署 [41] - 4月17日字节发布豆包1.5深度思考模型与豆包文生图3.0模型,推理与文生图能力达全球第一梯队水平 [45] 算法技术 - 4月19日快手Kwaipilot团队发布创新强化学习算法SRPO,训练步数仅为DeepSeek的1/10,在数学和代码bench测试中超越DeepSeek - R1 - Zero - 32B,拓宽了强化学习算法能力边界 [51] AI应用 - 4月18日字节跳动新通用AI agent产品扣子空间开始内测,提供两种模式,强化解决工作任务能力,未来会随用户反馈迭代,国内AI agent处于快速迭代竞争阶段 [56] - 本周AI应用数据跟踪:4月14 - 20日,国内AI应用web端访问量前三为DeepSeek、夸克、豆包;全球前三为ChatGPT、Canva、DeepSeek。3月Web端访问量数据,各应用场景有不同Top3产品。3月国内AI应用app端MAU前三为夸克、豆包、DeepSeek;全球前三为ChatGPT、夸克、豆包。4月28日 - 5月4日,应用免费榜Top10中有豆包、DeepSeek、夸克 [61][64][70] 本周行情跟踪 - 本周恒生科技指数上涨5.24%至5244.06点,成分股涨幅前五为金蝶国际、金山软件、小米集团 - W、阿里健康、商汤 - W;跌幅前五为比亚迪电子、百度集团 - SW、小鹏汽车 - W、蔚来 - SW、腾讯控股 [79] - 本周传媒板块成分股涨幅前五为山东出版、冰川网络、上海电影、盛天网络、完美世界;跌幅前五为中广天择、*ST返利、芒果超媒、横店影视、生意宝 [81] - 互联网板块重点公司行情跟踪:截至5月2日,各公司有不同收盘价、周度涨跌幅、月度涨跌幅、年初至今涨跌幅及PE值 [86] 投资建议 - 看好AI新周期带动算力 - 算法 - 应用生态三端依次持续推进,建议增加港股互联网板块配置仓位,核心推荐阿里巴巴 - W、快手 - W、腾讯控股、百度集团 - SW [3][87]