文章核心观点 - 面壁智能开源的全模态模型MiniCPM-o4.5,实现了“边看、边听、主动说”的全双工实时交互,代表了AI从问答机向持续在场智能体的范式转变,是AI进入现实连续世界的关键分水岭[4][10][49] - 该模型是公司长期专注“端侧AI”战略路线的自然结果,其核心在于软硬一体、端侧原生,旨在打通端侧模型到应用的最后一公里,赋能汽车、手机、机器人等差异化终端和高价值长尾场景[51][56][64][66] 模型核心能力与特性 - 全双工实时交互:模型采用全双工多模态实时流机制,可一边持续接收视频和音频输入,一边同步生成语音或文本输出,实现“边看、边听、边主动说”,打破了传统串行模型的I/O阻塞[10][33][35] - 即时自由对话:模型在自身说话时也能听见并响应新插入的指令,支持即时自由对话与自然打断,改变了传统一问一答的交互模式[25][28][30] - 持续感知与主动响应:模型以1Hz频率持续进行语义判断以决定是否介入回应,不再依赖检测静音的VAD机制,从而能基于对场景的持续理解主动发起提醒或评论[39][40][46] - 高性能表现:在仅9B参数规模下,模型在全模态理解、视觉理解、文档解析、语音理解与生成、声音克隆等多个方向上,均达到了当前全模态模型的领先水平[42] 公司战略与商业模式 - 专注端侧AI路线:公司自2022年8月成立起,在行业重心仍在云端时,便将方向押注在端侧AI模型上,其差异化在于“只做端,把端做到极致”[51][69][71] - 软硬一体协同:公司与芯片厂商深度协同,芯片在设计阶段向模型侧开放以验证架构,模型研发也反向对硬件能力提出要求,形成软硬一体、双向奔赴的研发模式[53][58][59] - 端原生模型开发:不将云端模型压缩后部署,而是在训练阶段就以端侧芯片为目标环境,开发“生来就能跑在端上”的模型[60] - 构建端侧生态:通过配套推出AI Native的端侧智能开发板“松果派”,并实现模型在其上的开箱即用,旨在打通端侧模型到应用的最后一公里,赋能开发者与终端厂商[61][62][63] - 瞄准差异化市场:公司认为端侧市场由大量差异化终端和长尾高价值场景构成,并非统一市场,关键是用尽可能少的参数实现尽可能强的能力,该市场可同时容纳多家创业公司[66][67][68] 技术架构与实现 - 流式处理机制:通过将离线模态编码器与解码器升级为支持流式输入/输出的在线版本,并采用时分复用机制,在毫秒级时间线上对齐多模态输入与输出,实现高效流式处理[35][37] - 端到端全模态设计:通过稠密特征将各模态编码器与解码器直接连接到大语言模型主干,使视觉、音频等模态在模型生成输出的同时仍能持续更新[39] - 语音建模创新:语音侧采用文本与语音token交错建模,既支持全双工语音生成,也提升了长语音生成的稳定性[36] 应用场景与价值 - 场景适应性:模型能力可自然延展至具身智能、车端或终端助手、复杂系统等场景,其价值在于持续运行、一直在场,在合适的时机接话或提醒,而非仅回答问题[44][45][48] - 硬件产品规划:公司计划在年中发布首款AI硬件“松果派”,用于支持硬件场景的全栈开发,并已在智能座舱等方向落地,体现了软硬协同路线的具体实施[61]
AI能帮忙厨房看火了!面壁智能开源全模态模型MiniCPM-o4.5,边看边听还能主动抢答
量子位·2026-02-04 20:31