Workflow
端到端自动驾驶(E2E Autonomous Driving)
icon
搜索文档
资料汇总 | VLM-世界模型-端到端
自动驾驶之心· 2025-07-12 20:00
视觉大语言模型 - 文章汇总了视觉大语言模型(VLM)在自动驾驶和智能交通领域的最新研究资源和论文 [3][4] - 提供了多个开源项目链接,涵盖视觉语言模型的理论、应用和安全等方面 [3] - 列出了多个顶级会议(CVPR 2024、ICLR 2024等)的最新论文,涉及视觉语言模型的预训练、对齐和推理优化 [5][7] 迁移学习方法 - 总结了视觉语言模型在迁移学习中的最新进展,包括非自回归序列模型、公平性优化和高效微调方法 [7] - 提出了多种改进视觉语言模型迁移性能的技术,如动态视觉标记、上下文学习和检索增强对比学习 [7] - 涵盖了CVPR、ICLR、NeurIPS等会议的多篇论文,涉及模型架构优化和零样本泛化能力提升 [7] 知识蒸馏 - 讨论了视觉语言模型在检测、分割和多任务学习中的知识蒸馏技术 [8] - 未提供具体数据或论文细节,仅作为研究方向提及 [8] 世界模型 - 综述了自动驾驶中世界模型的研究,包括场景理解、未来预测和4D重建 [9][12] - 列出了多个创新模型,如HERMES、DriveDreamer4D和Vista,涵盖3D场景生成和可控视频预测 [9][12] - 提供了世界模型在自动驾驶中的全面调查和未来趋势分析 [12] 扩散模型 - 汇总了扩散模型在图像处理、视频生成和自动驾驶中的应用 [14][15] - 列出了多个开源资源和论文集合,涵盖图像恢复、3D视觉和推荐系统等领域 [14][15] - 提供了扩散模型在低层视觉、时间序列和多模态编辑中的最新研究进展 [15] 端到端自动驾驶 - 介绍了端到端自动驾驶的最新研究方向和论文资源 [16][19] - 提供了多个开源项目链接,涵盖感知、预测、规划和仿真等方向 [19] - 列出了CVPR、ICRA、NeurIPS等会议的相关研讨会和论文,涉及大规模基础模型和行为驱动驾驶 [19] 行业动态 - 提到自动驾驶行业有近4000人的交流社区,涵盖30+技术栈和300+公司与科研机构 [17] - 涉及感知、定位、规划控制等多个领域的技术方案和岗位发布 [17]