类人注意力

搜索文档
如何向一段式端到端注入类人思考的能力?港科OmniScene提出了一种新的范式...
自动驾驶之心· 2025-09-26 07:33
如何向一段式端到端注入人类思考的能力? 人类视觉能够将2D观察结果转化为以自身为中心的3D场景理解,这一能力为理解复杂场景和展现自适应行为提供了基础。然而当前自动驾驶系统仍缺乏 这种能力—主流方法在很大程度上依赖于基于深度的三维重建,而非真正的场景理解。 为解决这一局限,港科、理想和清华的团队提出一种全新的类人框架OmniScene。 首先本文引入OmniScene视觉-语言模型(OmniVLM),这是一种结合 环视感知与时序融合能力的VLM框架,可实现全面的4D场景理解。其次通过师生结构的OmniVLM架构与知识蒸馏,将文本表征嵌入3D实例特征中以实 现语义监督,既丰富了特征学习过程,又明确捕捉了类人的注意力语义信息。这些特征表征进一步与人类驾驶行为对齐,形成更贴近人类认知的"感知-理 解-行动"架构。 此外本文提出分层融合策略(HFS),以解决多模态融合过程中模态贡献不平衡的问题。该方法能在多个抽象层级上自适应校准几何特征与语义特征的相 对重要性,实现视觉模态与文本模态互补信息的协同利用。这种可学习的动态融合机制,使得异质信息能够被更细致、更有效地挖掘。 本文在nuScenes数据集上对OmniScene ...