全双工(Full - Duplex)多模态实时流机制
搜索文档
AI能帮忙厨房看火了!面壁智能开源全模态模型MiniCPM-o4.5,边看边听还能主动抢答
量子位· 2026-02-04 20:31
文章核心观点 - 面壁智能开源的全模态模型MiniCPM-o4.5,实现了“边看、边听、主动说”的全双工实时交互,代表了AI从问答机向持续在场智能体的范式转变,是AI进入现实连续世界的关键分水岭[4][10][49] - 该模型是公司长期专注“端侧AI”战略路线的自然结果,其核心在于软硬一体、端侧原生,旨在打通端侧模型到应用的最后一公里,赋能汽车、手机、机器人等差异化终端和高价值长尾场景[51][56][64][66] 模型核心能力与特性 - **全双工实时交互**:模型采用全双工多模态实时流机制,可一边持续接收视频和音频输入,一边同步生成语音或文本输出,实现“边看、边听、边主动说”,打破了传统串行模型的I/O阻塞[10][33][35] - **即时自由对话**:模型在自身说话时也能听见并响应新插入的指令,支持即时自由对话与自然打断,改变了传统一问一答的交互模式[25][28][30] - **持续感知与主动响应**:模型以1Hz频率持续进行语义判断以决定是否介入回应,不再依赖检测静音的VAD机制,从而能基于对场景的持续理解主动发起提醒或评论[39][40][46] - **高性能表现**:在仅9B参数规模下,模型在全模态理解、视觉理解、文档解析、语音理解与生成、声音克隆等多个方向上,均达到了当前全模态模型的领先水平[42] 公司战略与商业模式 - **专注端侧AI路线**:公司自2022年8月成立起,在行业重心仍在云端时,便将方向押注在端侧AI模型上,其差异化在于“只做端,把端做到极致”[51][69][71] - **软硬一体协同**:公司与芯片厂商深度协同,芯片在设计阶段向模型侧开放以验证架构,模型研发也反向对硬件能力提出要求,形成软硬一体、双向奔赴的研发模式[53][58][59] - **端原生模型开发**:不将云端模型压缩后部署,而是在训练阶段就以端侧芯片为目标环境,开发“生来就能跑在端上”的模型[60] - **构建端侧生态**:通过配套推出AI Native的端侧智能开发板“松果派”,并实现模型在其上的开箱即用,旨在打通端侧模型到应用的最后一公里,赋能开发者与终端厂商[61][62][63] - **瞄准差异化市场**:公司认为端侧市场由大量差异化终端和长尾高价值场景构成,并非统一市场,关键是用尽可能少的参数实现尽可能强的能力,该市场可同时容纳多家创业公司[66][67][68] 技术架构与实现 - **流式处理机制**:通过将离线模态编码器与解码器升级为支持流式输入/输出的在线版本,并采用时分复用机制,在毫秒级时间线上对齐多模态输入与输出,实现高效流式处理[35][37] - **端到端全模态设计**:通过稠密特征将各模态编码器与解码器直接连接到大语言模型主干,使视觉、音频等模态在模型生成输出的同时仍能持续更新[39] - **语音建模创新**:语音侧采用文本与语音token交错建模,既支持全双工语音生成,也提升了长语音生成的稳定性[36] 应用场景与价值 - **场景适应性**:模型能力可自然延展至具身智能、车端或终端助手、复杂系统等场景,其价值在于持续运行、一直在场,在合适的时机接话或提醒,而非仅回答问题[44][45][48] - **硬件产品规划**:公司计划在年中发布首款AI硬件“松果派”,用于支持硬件场景的全栈开发,并已在智能座舱等方向落地,体现了软硬协同路线的具体实施[61]