视频理解 - 财报，业绩电话会，研报，新闻 - Reportify

视频理解

搜索文档

理想汽车MCAF重构辅助驾驶视觉认知新范式

理想TOP2· 2025-04-25 20:43

以下文章来源于AcademicDaily ，作者AcademicDaily AcademicDaily . AcademicDaily是一个跟踪、推荐和解读大模型等AI成果的技术交流平台，致力于传播和分享前沿技术。 MCAF在理想内部被称为自动驾驶第三只眼。兼容理想自研的Mind GPT-3o 与 BEV 大模型，无需重新训练。 MCAF是一个多模态粗到细注意力聚焦框架，核心解决的是长视频理解的关键瓶颈。当前视频理解领域对长视频（>5分钟）的处理存在显著缺陷，主流方法（如Video-MLLM）依赖全局压缩或均匀采样，导致细节丢失和冗余计算。MCAF直接针对这一问题，通过多模态分层注意力和时间扩展机制，在信息保留与计算效率之间找到了平衡点，这是其核心价值。在平均时长达60分钟的Video-MME数据集上，MCAF超越其他代理方法（如VideoTree、DrVideo）约3-5个百分点。不同于VideoTree等需要额外奖励模型评估置信度，MCAF利用单一LLM完成生成-评估-调整闭环。这不仅简化了架构（如代码实现仅需1个LLM接口），还避免了多模型协同的兼容性问题，更适合实际部署。不过在NEx ...

多模态大语言模型

MCAF（多模态粗到细注意力聚焦框架）

AD Max 3.0系统

多模态大语言模型

MCAF（多模态粗到细注意力聚焦框架）

AD Max 3.0系统