xBench基准评测平台更新 - 截至2026年1月底,xBench的三个基准评测榜单已完成分数更新,月之暗面公司的Kimi K2.5模型在所有榜单中均表现突出[1] - 平台近期新增两个评测基准:用于评估多模态视觉理解能力的BabyVision,以及用于评估智能体在复杂任务中指令遵循能力的AgentIF-OneDay[1] - 平台采用长青评估机制,持续追踪并汇报最新模型的能力表现,更多榜单将陆续更新[1] ScienceQA基准评测结果 - 在ScienceQA榜单中,Gemini 3 Pro以71.6分排名第一,Grok-4以65.0分排名第二,GPT-5 (high)以64.4分排名第三[3] - Kimi K2.5以63.2分排名第四,在国内模型中排名第一,其BoN(N=5)得分为77.0分[3][4] - 在性能提升的同时,Kimi K2.5的平均响应时间为101.00秒,较前代K2的178.94秒有显著提升,同时其API价格更具性价比,输入/输出价格分别为每百万token 0.57美元和3美元[3][4][5] DeepSearch基准评测结果 - 在DeepSearch榜单中,ChatGPT-5-Pro以75+的档位排名第一,每100题成本约为8.5美元,耗时5-8分钟[7] - Kimi K2.5达到40+档位,跻身榜单第二,成为国内模型中的最佳水平,每道题推理耗时仅2-3分钟,速度提升明显,每100题成本约为28美元[7] BabyVision多模态基准评测结果 - 在BabyVision多模态理解能力评测中,人类基线得分高达94.1%[8] - Gemini 3 Pro以49.7%的得分排名第一,Kimi K2.5以36.5%的得分排名第二,在国内大模型中排名第一[8] - GPT-5.2以34.4%排名第三,字节跳动的Doubao-seed-1.8以30.2%排名第四[8] 月之暗面Kimi K2.5模型技术特点 - Kimi K2.5于2026年1月27日发布,是一款原生多模态模型,深度集成了视觉理解、逻辑推理、编程及智能体能力[10] - 模型基于约15万亿(15T)混合视觉和文本token进行持续预训练,采用混合专家架构,总参数量约为1万亿(1 Trillion),推理时激活参数量约为320亿(32 Billion)[10] - 模型支持超长上下文,版本均支持256k token的上下文窗口,并集成了多模态视觉编码器,标志着其从长文本向多模态与智能体的全面进化[10] 行业最新动态:通用世界模型进展 - Google DeepMind于2025年推出通用世界模型Genie 3,可根据文本或图文提示生成可实时(24 fps)探索、可交互的环境,用于快速生成可探索世界和交互式内容创作[11] - Google DeepMind的D4RT框架将静态3D重建与动态物体追踪统一为4D建模框架,可成为Genie系列的4D数据引擎[12] - Runway公司发布了基于其Gen 4.5模型架构的通用世界模型,其应用包括用于机器人训练和策略评估的生成性模拟器、实时世界模拟与探索,以及能够进行长时间对话的实时虚拟形象[13][14]
榜单更新!Kimi 2.5表现突出|xbench月报
红杉汇·2026-02-03 08:04