Workflow
ThinkDeeper框架
icon
搜索文档
澳门大学首个世界模型驱动的视觉定位框架!
自动驾驶之心· 2025-12-10 08:04
文章核心观点 - 澳门大学研究团队提出全新框架ThinkDeeper,首次将世界模型引入自动驾驶视觉定位,旨在解决现有模型在复杂交互场景中因缺乏时空前瞻性而导致的指令理解模糊问题,使自动驾驶系统能像人类一样“预判”未来,从而精准理解乘客意图 [5][11][22] 现有自动驾驶视觉定位模型的局限性 - **空间感知不足**:普通模型缺乏3D深度感知,难以区分背景板与交互对象,例如可能将广告牌上的汽车误认为真车 [8] - **时间推演缺失**:现有模型仅基于当前帧图像“看图说话”,缺乏对未来状态的推演能力,无法从根本上消除指向未来的指令歧义 [10] - **落地可行性低**:通用多模态大模型参数量动辄百亿,推理延迟高,难以满足车载芯片的算力限制和自动驾驶毫秒级响应的实时性要求 [10] ThinkDeeper框架的核心创新 - **核心思想**:引入“三思而后行”理念,在行动前先思考未来 [5][12] - **空间感知世界模型**:该模型让系统在决策前完成两步关键操作 [14] - **去粗取精**:结合语音指令,从复杂街景中提取与任务强相关的关键潜变量状态,过滤无关信息 [14] - **推演未来**:基于提取的关键信息,快速预测未来画面,生成“未来状态链”,获得前瞻性线索 [14] - **信息融合与定位**:通过超图解码器,将时空推演线索与视觉、深度信息融合,从而在模糊指令下精准定位目标 [15] DrivePilot数据集 - **创建目的**:为解决传统自动驾驶数据集场景单一、标注缺乏深层语义理解的问题 [18] - **构建方法**:利用Qwen2-VL大模型的场景理解能力,结合检索增强生成和思维链技术,构建自动化高质量数据生产流水线 [18] - **数据特点**:包含数万个复杂场景,提供多达14个维度的详尽语义标注,涵盖天气、情绪上下文、交通规则、驾驶意图等多方面信息 [19] 实验性能与结果 - **基准测试表现**:在Talk2Car等六大主流基准测试中,ThinkDeeper超越了所有现有方案,登顶榜首 [20][26] - **处理复杂场景优势**:在DrivePilot数据集的长文本、多智能体和模糊指令等极端案例场景中,表现大幅领先MiniGPT-v2、Qwen2.5-VL等通用大模型 [26] - **效率与实时性**:模型在保持高性能的同时,在A40 GPU上的推理速度达到39毫秒,完全满足车载芯片的实时性要求 [26]