文章核心观点 - 面壁智能于2024年2月4日开源了行业首个全双工全模态大模型MiniCPM-o 4.5,该模型以仅9B的参数量,实现了“边看边听边说”的实时、自主交互能力,标志着人机交互进入新时代[4][12][40] 技术突破与架构创新 - 全双工全模态交互:模型首次实现了输入与输出流互不阻塞,在生成语音或文本的同时,能持续感知外界的视频与音频流,解决了传统模型“间歇性失明失聪”的单工限制[4][28][29] - 自主交互机制:模型摆脱了对VAD等外部工具的依赖,通过内生高频语义决策机制(约每秒一次)自主判断何时开口,实现了主动提醒、主动评论等能力[33][34][36] - 三项关键技术设计:通过时间对齐与时分复用、循环分块编码、端到端语音生成三项设计,实现了毫秒级时间线对齐、流式输入输出处理以及拟人化的语音生成[30][35] 性能表现与基准测试 - 综合评估领先:在涵盖8个主流评测基准的OpenCompass综合评估中得分为77.6[5] - 关键任务超越顶级闭源模型:在MMBench(综合视觉理解)、MathVista(数学推理)及OmniDocBench(文档解析)等任务上击败了Gemini 2.5 Flash[7] - 具体基准数据:在MMBench EN v1.1得分为87.6,MMBench CN v1.1得分为87.2,MathVista得分为80.1,OmniDocBench (EN)错误率为0.109,均优于对比模型[9] - 高能力密度与能效比:在保持SOTA级多模态表现的同时,追求更低显存占用、更快响应速度,实现更高推理效率与更低推理成本[10] 应用场景与行业影响 - 重塑智能终端交互:模型轻量化(9B参数)与实时本能结合,使其成为智能眼镜、具身机器人、汽车等终端设备的理想“大脑”,能实现主动介入的类人交互[37] - 开启新应用空间:能力适用于智能监控与提醒、人机协作系统、无障碍辅助(如为视障听障人群提供支持)等领域[38] - 推动范式转换:全双工全模态能力是多模态走向类人化、深度交互的必经之路,并天然指向强端侧部署场景,解决了云端方案的隐私和延迟问题[37][40] - 行业技术方向引领:在Scaling Law边际效益递减的背景下,公司提出的“Densing Law”强调高能力密度,竞争逻辑从比拼参数量转向在更小规模下榨取更高能力[40]
刚刚,面壁小钢炮开源进阶版「Her」,9B模型居然有了「活人感」
机器之心·2026-02-04 19:20