榜单更新！Kimi 2.5表现突出｜xbench月报

xBench基准评测平台更新 - 截至2026年1月底，xBench的三个基准评测榜单已完成分数更新，月之暗面公司的Kimi K2.5模型在所有榜单中均表现突出[1] - 平台近期新增两个评测基准：用于评估多模态视觉理解能力的BabyVision，以及用于评估智能体在复杂任务中指令遵循能力的AgentIF-OneDay[1] - 平台采用长青评估机制，持续追踪并汇报最新模型的能力表现，更多榜单将陆续更新[1] ScienceQA基准评测结果 - 在ScienceQA榜单中，Gemini 3 Pro以71.6分排名第一，Grok-4以65.0分排名第二，GPT-5 (high)以64.4分排名第三[3] - Kimi K2.5以63.2分排名第四，在国内模型中排名第一，其BoN(N=5)得分为77.0分[3][4] - 在性能提升的同时，Kimi K2.5的平均响应时间为101.00秒，较前代K2的178.94秒有显著提升，同时其API价格更具性价比，输入/输出价格分别为每百万token 0.57美元和3美元[3][4][5] DeepSearch基准评测结果 - 在DeepSearch榜单中，ChatGPT-5-Pro以75+的档位排名第一，每100题成本约为8.5美元，耗时5-8分钟[7] - Kimi K2.5达到40+档位，跻身榜单第二，成为国内模型中的最佳水平，每道题推理耗时仅2-3分钟，速度提升明显，每100题成本约为28美元[7] BabyVision多模态基准评测结果 - 在BabyVision多模态理解能力评测中，人类基线得分高达94.1%[8] - Gemini 3 Pro以49.7%的得分排名第一，Kimi K2.5以36.5%的得分排名第二，在国内大模型中排名第一[8] - GPT-5.2以34.4%排名第三，字节跳动的Doubao-seed-1.8以30.2%排名第四[8] 月之暗面Kimi K2.5模型技术特点 - Kimi K2.5于2026年1月27日发布，是一款原生多模态模型，深度集成了视觉理解、逻辑推理、编程及智能体能力[10] - 模型基于约15万亿（15T）混合视觉和文本token进行持续预训练，采用混合专家架构，总参数量约为1万亿（1 Trillion），推理时激活参数量约为320亿（32 Billion）[10] - 模型支持超长上下文，版本均支持256k token的上下文窗口，并集成了多模态视觉编码器，标志着其从长文本向多模态与智能体的全面进化[10] 行业最新动态：通用世界模型进展 - Google DeepMind于2025年推出通用世界模型Genie 3，可根据文本或图文提示生成可实时（24 fps）探索、可交互的环境，用于快速生成可探索世界和交互式内容创作[11] - Google DeepMind的D4RT框架将静态3D重建与动态物体追踪统一为4D建模框架，可成为Genie系列的4D数据引擎[12] - Runway公司发布了基于其Gen 4.5模型架构的通用世界模型，其应用包括用于机器人训练和策略评估的生成性模拟器、实时世界模拟与探索，以及能够进行长时间对话的实时虚拟形象[13][14]