高能力密度
搜索文档
刚刚,面壁小钢炮开源进阶版「Her」,9B模型居然有了「活人感」
机器之心· 2026-02-04 19:20
文章核心观点 - 面壁智能于2024年2月4日开源了行业首个全双工全模态大模型MiniCPM-o 4.5,该模型以仅9B的参数量,实现了“边看边听边说”的实时、自主交互能力,标志着人机交互进入新时代[4][12][40] 技术突破与架构创新 - **全双工全模态交互**:模型首次实现了输入与输出流互不阻塞,在生成语音或文本的同时,能持续感知外界的视频与音频流,解决了传统模型“间歇性失明失聪”的单工限制[4][28][29] - **自主交互机制**:模型摆脱了对VAD等外部工具的依赖,通过内生高频语义决策机制(约每秒一次)自主判断何时开口,实现了主动提醒、主动评论等能力[33][34][36] - **三项关键技术设计**:通过时间对齐与时分复用、循环分块编码、端到端语音生成三项设计,实现了毫秒级时间线对齐、流式输入输出处理以及拟人化的语音生成[30][35] 性能表现与基准测试 - **综合评估领先**:在涵盖8个主流评测基准的OpenCompass综合评估中得分为77.6[5] - **关键任务超越顶级闭源模型**:在MMBench(综合视觉理解)、MathVista(数学推理)及OmniDocBench(文档解析)等任务上击败了Gemini 2.5 Flash[7] - **具体基准数据**:在MMBench EN v1.1得分为87.6,MMBench CN v1.1得分为87.2,MathVista得分为80.1,OmniDocBench (EN)错误率为0.109,均优于对比模型[9] - **高能力密度与能效比**:在保持SOTA级多模态表现的同时,追求更低显存占用、更快响应速度,实现更高推理效率与更低推理成本[10] 应用场景与行业影响 - **重塑智能终端交互**:模型轻量化(9B参数)与实时本能结合,使其成为智能眼镜、具身机器人、汽车等终端设备的理想“大脑”,能实现主动介入的类人交互[37] - **开启新应用空间**:能力适用于智能监控与提醒、人机协作系统、无障碍辅助(如为视障听障人群提供支持)等领域[38] - **推动范式转换**:全双工全模态能力是多模态走向类人化、深度交互的必经之路,并天然指向强端侧部署场景,解决了云端方案的隐私和延迟问题[37][40] - **行业技术方向引领**:在Scaling Law边际效益递减的背景下,公司提出的“Densing Law”强调高能力密度,竞争逻辑从比拼参数量转向在更小规模下榨取更高能力[40]