高能力密度 - 财报，业绩电话会，研报，新闻

高能力密度

搜索文档

机器之心· 2026-02-04 19:20

文章核心观点 - 面壁智能于2024年2月4日开源了行业首个全双工全模态大模型MiniCPM-o 4.5，该模型以仅9B的参数量，实现了“边看边听边说”的实时、自主交互能力，标志着人机交互进入新时代[4][12][40] 技术突破与架构创新 - **全双工全模态交互**：模型首次实现了输入与输出流互不阻塞，在生成语音或文本的同时，能持续感知外界的视频与音频流，解决了传统模型“间歇性失明失聪”的单工限制[4][28][29] - **自主交互机制**：模型摆脱了对VAD等外部工具的依赖，通过内生高频语义决策机制（约每秒一次）自主判断何时开口，实现了主动提醒、主动评论等能力[33][34][36] - **三项关键技术设计**：通过时间对齐与时分复用、循环分块编码、端到端语音生成三项设计，实现了毫秒级时间线对齐、流式输入输出处理以及拟人化的语音生成[30][35] 性能表现与基准测试 - **综合评估领先**：在涵盖8个主流评测基准的OpenCompass综合评估中得分为77.6[5] - **关键任务超越顶级闭源模型**：在MMBench（综合视觉理解）、MathVista（数学推理）及OmniDocBench（文档解析）等任务上击败了Gemini 2.5 Flash[7] - **具体基准数据**：在MMBench EN v1.1得分为87.6，MMBench CN v1.1得分为87.2，MathVista得分为80.1，OmniDocBench (EN)错误率为0.109，均优于对比模型[9] - **高能力密度与能效比**：在保持SOTA级多模态表现的同时，追求更低显存占用、更快响应速度，实现更高推理效率与更低推理成本[10] 应用场景与行业影响 - **重塑智能终端交互**：模型轻量化（9B参数）与实时本能结合，使其成为智能眼镜、具身机器人、汽车等终端设备的理想“大脑”，能实现主动介入的类人交互[37] - **开启新应用空间**：能力适用于智能监控与提醒、人机协作系统、无障碍辅助（如为视障听障人群提供支持）等领域[38] - **推动范式转换**：全双工全模态能力是多模态走向类人化、深度交互的必经之路，并天然指向强端侧部署场景，解决了云端方案的隐私和延迟问题[37][40] - **行业技术方向引领**：在Scaling Law边际效益递减的背景下，公司提出的“Densing Law”强调高能力密度，竞争逻辑从比拼参数量转向在更小规模下榨取更高能力[40]

全双工全模态大模型

高能力密度

Artificial Intelligence

Artificial Intelligence

MiniCPM - o 4.5

ChatGPT

Gemini 2.5 Flash