Workflow
具身幻觉
icon
搜索文档
罗福莉执掌小米大模型首秀!定调下一代模型,全新MiMo-V2开源还横扫Agent第一梯队
AI前线· 2025-12-17 16:00
小米大模型战略与MiMo-V2-Flash发布 - 小米在2025年合作伙伴大会上,由新任命的大模型负责人罗福莉首次公开亮相,并发布了新一代开源大模型MiMo-V2-Flash [2][3][4] - 该模型采用MoE(混合专家)架构,总参数规模达3090亿,但每次推理仅激活约150亿参数,旨在实现高速、高频、低成本的推理 [8] - 模型设计目标明确为“要跑得快、跑得久、被高频调用也跑得起”,核心是为Agent(智能体)和真实世界应用场景服务 [8][16] 技术负责人背景 - 大模型负责人罗福莉是行业知名AI技术专家,硕士毕业于北大,曾任职于阿里巴巴达摩院和DeepSeek母公司幻方量化,参与研发DeepSeek-V2等模型 [11][12] - 她于2024年11月加入小米,此次演讲是其入职后的首次公开亮相 [13] 模型设计理念与工程逻辑 - 公司认为当前大语言模型本质上是解码了人类思维在文本空间中的投影,而非真正理解物理世界,因此语言是工具而非终点 [19][20][35] - MiMo-V2-Flash的设计目标不是追求“更聪明”,而是“更好用、更可部署”,其技术选择是被Agent场景需求“倒逼”出来的工程取舍 [21][22] - 模型研发主要围绕三大现实挑战展开:智能体需要高效的代码与工具调用沟通语言、智能体间交互带宽低要求极高推理效率、大模型范式正从预训练转向后训练和强化学习 [25][41] 核心技术特点与性能 - 模型采用Hybrid Attention混合注意力结构(Sliding Window Attention与Full Attention比例约5:1),以兼顾长短文本推理并适配现有推理基础设施 [45] - 深入挖掘多词元预测技术潜力,在预训练和微调阶段引入MTP层以提升模型潜能,在推理阶段使用三层MTP并行,实现约2到2.6倍的推理加速 [24][46][47] - 在单机环境下,模型输出吞吐可达5000到15000 token/s,单请求输出速度达150 token/s,相比不使用MTP速度提升约2-3倍 [24][47] - 在后训练阶段,公司提出了Multi-Teacher On-Policy Distillation范式,以高效、稳定地将多个专家模型能力蒸馏到学生模型中 [47][50] 模型性能对比与评测结果 - 在7项主流评测中,MiMo-V2-Flash在Agent、代码、工具调用和复杂任务执行方面已进入全球开源模型第一梯队,整体表现与DeepSeek-V3.2、Kimi-K2-Thinking基本相当 [27][40] - 在SWE-Bench基准测试中,MiMo-V2-Flash在多语言模式下以71.7%的准确率获得一项第一 [28] - 在推理效率对比上,MiMo-V2-Flash的推理成本略低于DeepSeek-V3.2,但推理速度约为后者的三倍;与综合能力相近的Gemini 2.5 Pro相比,推理速度接近,但成本低约20倍 [40][48] 对AGI发展的观点与未来方向 - 公司认为当前大模型虽能完成复杂任务,但缺乏对物理一致性、时空连续性及因果关系的理解,这是“具身幻觉”的根源 [30][52] - 真正的下一代智能体需从“回答问题”转向“完成任务”,并具备与世界交互的能力,其核心是构建一个统一、动态的世界模型,而非仅增加多模态输入 [31][32][52][53] - 智能不是从文本中“读出来”,而是要在与真实环境的持续交互中“活出来”,AI进化的下一个关键点是发展能够持续交互的物理模型 [33][52] - 公司对开源持积极态度,视其为一种分布式的技术加速机制,是缩短开源与闭源差距、推动AGI普惠化的现实路径 [33] 模型发布与生态 - MiMo-V2-Flash已正式发布并开源,同步开放了模型权重、技术报告和API,方便开发者接入Web Coding、IDE等场景,体验网页也已上线 [50]