被全网猜是DeepSeek V4的神秘大模型，被小米认领了！还能免费「养龙虾」

MiMo大模型系列发布概览 - 小米于3月19日重磅发布MiMo大模型系列三款新模型，包括旗舰基座大模型MiMo-V2-Pro、全模态Agent模型MiMo-V2-Omni和语音合成大模型MiMo-V2-TTS，该系列旨在为智能体时代打造全栈模型家族，未来稳定后将开源 [6] - 此前在OpenRouter平台API调用量多日登顶的匿名模型Hunter Alpha和Healer Alpha，实为MiMo-V2-Pro和MiMo-V2-Omni的早期测试版，目前仍对开发者免费开放 [9] - 该系列模型发布由原DeepSeek核心成员、被称为“天才少女”的罗福莉领导的小米MiMo团队完成 [4][15] 旗舰基座模型MiMo-V2-Pro性能与定价 - MiMo-V2-Pro总参数量超过1T，激活参数量为42B，较前代MiMo-V2-Flash扩大约3倍，支持100万（1M）上下文长度 [12][19] - 在全球权威大模型综合智能排行榜Artificial Analysis上，MiMo-V2-Pro位列全球第九、国内第三，仅次于智谱GLM-5和MiniMax M2.7 [19] - 在专为智能体能力评估的OpenClaw标准评测榜单PinchBench和Claw-Eval上，MiMo-V2-Pro排名第三，仅次于Claude Sonnet 4.6和Claude Opus 4.6 [22] - 该模型API定价显著低于竞争对手，其价格仅为Claude Opus 4.6的1/5，具体按上下文长度分段计价：256K以内输入每百万tokens 1美元，输出3美元；1M以内输入每百万tokens 2美元，输出6美元 [12][13][27] 全模态模型MiMo-V2-Omni能力与应用 - MiMo-V2-Omni是专为复杂多模态交互与执行场景打造的全模态基座模型，融合文本、视觉、语音能力，能够跨模态理解环境、自主制定执行计划并实时修正策略 [14][30][32] - 在多模态感知能力上表现突出：音频理解超越Gemini 3 Pro；图像理解超过Claude Opus 4.6，逼近Gemini 3 Pro；视频理解超越Gemini 3 Flash [30] - 在真实数字环境交互评测中，其性能逼近Gemini 3 Pro，纯文本智能体任务平均表现仅次于Claude Opus 4.6 [33] - 该模型已展示出实际应用能力，例如结合OpenClaw框架，可操控浏览器完成从小红书查攻略到京东比价、砍价、下单的全流程 [35][36] - MiMo-V2-Omni支持256K上下文，输入定价为每百万tokens 0.4美元，输出2美元 [40] 语音合成模型MiMo-V2-TTS技术特点 - MiMo-V2-TTS旨在让智能体用有温度、有情感的声音与人对话，基于上亿小时语音数据的大规模预训练与多维度强化学习 [14][41][42] - 模型采用自研Audio Tokenizer和多码本语音-文本联合建模架构，实现高度可控的多粒度语音风格控制，支持从整体基调到句内片段的细粒度情绪调节 [42][43] - 具备强大的文本理解能力，可智能识别标点、语气词等格式信号并转化为自然语音表达 [14][43] - 支持多方言（如东北话、四川话、粤语等）、多角色扮演及高质量的歌声合成 [43] 生态整合与市场策略 - 同步上线了基于MiMo-V2-Pro的“MiMo Claw”体验功能，用户可免费体验30分钟创建智能体应用，例如自动生成并部署网站 [14][15][17] - MiMo Claw模块已全面打通金山WebOffice生态，原生支持Word、Excel、PPT、PDF四大格式，覆盖超95%日常文档类型；小米浏览器也已接入MiMo-V2-Pro [27] - MiMo-V2-Omni接入了WPS Office，可通过自然语言指令直接生成各类办公文档 [38] - 为推广模型，MiMo-V2-Pro和MiMo-V2-Omni将联合多个智能体开发框架团队，为全球开发者提供为期一周的限时免费接口支持 [17] 行业意义与研发方向 - 此次发布意味着终端厂商可将底层大模型、系统权限与生态服务深度整合，打造系统级原生智能体 [46] - 小米大模型团队下一步核心研发方向是攻克高复杂度推理与长周期任务规划，提升模型在未知环境中的泛化与决策能力，并向长周期智能体规划、实时流式感知、多智能体协同等方向推进 [45]