小米万亿模型全面开源：MIT 协议、1M 上下文，但还是打不过 DeepSeek

小米MiMo-V2.5系列模型发布 - 公司开源了MiMo-V2.5和MiMo-V2.5-Pro两款模型，其中基础模型提供原生多模态能力，Pro模型专为“长周期一致性”和复杂软件工程设计[2] - 模型采用宽松、对企业友好的MIT License，适合商业应用，用户可修改并在本地或私有云上运行[2] - 在GDPVal-AA (Elo)基准测试中，Pro模型取得1581分，超过了Kimi K2.6 (1480分) 和 GLM 5.1 (1535分) 等竞争对手[2][3] 模型技术架构与训练 - MiMo-V2.5-Pro是一个总参数规模为1.02T的MoE模型，激活参数为42B，支持最高100万token的上下文长度[25][28] - MiMo-V2.5核心采用稀疏专家混合架构，总参数规模达到310B，激活参数15B[25] - Pro模型采用混合注意力架构，局部滑动窗口注意力和全局注意力以6:1的比例交错排列，可将KV-cache存储量减少近7倍[28] - 模型训练遵循五阶段路线：文本预训练(基于48万亿token)、Projector Warmup、多模态预训练、Agentic后训练(上下文窗口从32K扩展到1M)以及RL和MOPD[27] - MiMo-V2.5-Pro使用27T tokens进行训练，采用FP8混合精度，训练重点转向扩展后训练计算量以注入“脚手架意识”[32] 模型性能表现 - 在多项基准测试中，MiMo-V2.5-Pro表现强劲：GDPVal-AA (Elo) 1581分，T3-bench 72.9分，ClawEval (pass^3) 63.8分，Humanity‘s Last Exam 48.0分(不使用工具)[3] - 在ClawEval基准测试中，V2.5-Pro以每条轨迹约7万token的消耗，取得了64%的Pass^3成绩，比Claude Opus 4.6、Gemini 3.1 Pro和GPT-5.4少用了大约40%到60%的token[17] - 模型被强调具有较高的token效率，在完成基准测试中的claw任务时表现很强，同时消耗的token最少[14] - 模型展示了完成高复杂度任务的能力：用4.3小时、672次工具调用从零实现Rust编译器并在测试集取得满分；用11.5小时、1868次工具调用生成8192行的全功能视频编辑器；在研究生级工程任务中将线性调整率等指标提升了22倍[9] 定价策略与市场定位 - 公司为模型提供了有竞争力的价格，覆盖国内和国际市场[8] - 对于海外开发者，MiMo-V2.5-Pro在最高256K上下文窗口内，缓存未命中时每百万输入token价格为1.00美元，输出为3.00美元；对于256K到1M token的超长上下文任务，价格翻倍[10] - 公司推出了重新设计后的“Token Plan”，分为四档：Lite “Starter Pack” 提供7.2亿credits年费63.36美元；Standard档提供24亿credits年费168.96美元；Pro档提供84亿credits年费528.00美元；Max档提供192亿credits年费1056.00美元[24] - 所有套餐包括更优惠的API价格、离峰调用20%折扣，以及对Cursor、Zed、Claude Code等工具的“Day-0”支持[20] - 当前模型定价处于较低位置，限时免收缓存写入费用，整个MiMo-V2.5-TTS套件也完全免费[18] - 公司宣布提供100万亿免费token[21] 行业背景与竞争格局 - 行业正从AI推理补贴时代转向按使用量计费，微软GitHub Copilot宣布转向基于token消耗的计费方式[6] - 在Agent编程场景下，真实成本来自长上下文、反复工具调用、缓存命中率和模型倍率等[7] - 与竞争对手相比，从单纯模型定价角度看，MiMo在国内模型横向比较中价格并不便宜[11] - 与DeepSeek-V4相比，V2.5-Pro更接近主流推理框架可部署方案，架构创新相对更工程化，而DeepSeek-V4更偏自研系统栈和底层kernel优化，系统复杂度高、部署门槛可能更高[30] - 公司大模型负责人认为“价格战是陷阱”，真正的出路是“更高token效率的Agent框架”叠加“更强大高效的模型”[17] 用户反馈与评价 - 有开发者评价MiMo-V2.5-Pro是目前token效率最高的开源模型之一，会思考但不会陷入冗长的循环[17] - 有用户指出该模型在工作和个人爱好(如游戏开发、创意写作、数据分析)中表现良好[23] - 也有用户指出模型存在不足，例如思考时间过长、在缺乏明确错误反馈时长链推理表现不佳、以及存在免费期后使用占比下降的情况[23][32][34]