Workflow
传统的感知被嫌弃,VLA逐渐成为新秀...
自动驾驶之心·2025-08-20 17:15

理想VLA司机大模型技术 - 理想VLA司机大模型具备四大核心能力:空间理解能力、思维能力、沟通与记忆能力以及行为能力,其中思维能力和沟通与记忆能力由语言模型提供,记忆能力采用RAG技术 [2] - VLA结合动态目标、静态元素、导航地图和空间理解等元素进行思维链输出,代表自动驾驶领域最前沿方向 [2] - VLA技术整合端到端、轨迹预测、视觉语言模型和强化学习等多个前沿技术栈,正在成为学术界和工业界关注焦点 [4] 自动驾驶技术发展趋势 - 传统BEV感知、车道线和Occupancy等技术在顶会中占比下降,工业界仍在优化传统方案但学术界已转向大模型与VLA方向 [4] - VLA技术站在VLM和端到端技术基础上,具备更类人的思考推理能力,是当前最前沿研究方向 [2] - 模块化VLA自动驾驶模型和统一的端到端VLA模型成为重点研究方向,涉及OpenDriveVLA、CoVLA-Agent等算法 [30] 科研培训课程内容 - 课程为期14周,包含先导课、课题概览、选题讨论、传统/VLA端到端自动驾驶技术讲解等模块 [8][10] - 提供经典论文分析、创新点挖掘、baseline代码实现、数据集使用等全流程科研支持 [13][19] - 学员可获得论文初稿、结业证书及推荐信,课程采用"2+1"多师制教学团队,包含名校教授和行业导师 [23] 技术资源支持 - 提供多个开源代码库包括基于模仿学习的VAD、基于扩散模型的DiffusionDrive以及VLA方向的OpenDriveVLA等 [26] - 使用nuScenes、Waymo、Argoverse等公开自动驾驶数据集,VLA任务可结合大语言模型生成数据 [27] - 重点论文包括《A Survey on Vision-Language-Action Models for Autonomous Driving》等5篇核心文献 [28][29] 学员培养目标 - 帮助学员系统掌握VLA理论体系,解决知识碎片化问题,形成完整科研方法论 [5] - 通过baseline代码实践和论文写作指导,使学员具备独立完成科研论文能力 [5][19] - 针对不同基础学员提供先修课程,要求掌握Python和PyTorch,建议配备4-8张4090显卡 [20]