Workflow
VLA方向的论文还不知怎么下手?有的同学已经CCF-A了......
自动驾驶之心·2025-08-22 20:00

理想VLA司机大模型技术突破 - 多模态输入提升语义理解能力,结合动态目标、静态元素、导航地图和空间理解实现综合决策 [1] - 思维链推理技术增强模型逻辑能力,轨迹规划更接近人类驾驶直觉 [1][3] - 采用RAG技术强化记忆能力,整合视觉语言模型与端到端自动驾驶框架 [3][5] 自动驾驶技术发展趋势 - VLA成为学术界和工业界核心方向,涵盖端到端学习、轨迹预测和强化学习等技术栈 [5] - 传统BEV感知和Occupancy技术研究热度下降,顶会论文方向转向大模型应用 [5] - 工业界持续优化传统感知方案,学术界聚焦VLA子领域创新 [5] VLA科研培训课程体系 - 课程周期为14周,包含先导课、传统端到端自动驾驶介绍(4周)、VLA端到端自动驾驶介绍(4周)和论文写作指导 [9][11][30] - 提供模块化VLA模型(Week8-9)、统一端到端模型(Week10-11)和推理增强模型(Week12)三大研究方向 [30][35] - 每周课时1-1.5小时,覆盖算法原理、代码实践和论文写作方法论 [30][34] 课程资源与支持 - 提供公开数据集包括nuScenes、Waymo和Argoverse,支持感知任务和VLA任务开发 [27] - Baseline代码库涵盖模仿学习(VAD、UniAD)、扩散模型(DiffusionDrive、OccNet)和VLA模型(OpenDriveVLA、Senna) [26] - 必读论文包括Senna(2410.22313)、SimLingo(2503.09594)和OpenDriveVLA(2503.23463)等5篇核心文献 [28][29] 学员成果与培养目标 - 产出论文初稿、结业证书和推荐信(根据优秀程度) [24][34] - 获得定制化研究idea(每位学员1个)、baseline代码调试能力和数据集应用经验 [20][34] - 掌握创新点挖掘、实验方法设计和投稿策略等全流程科研能力 [6][20] 技术实施要求 - 硬件最低要求4张4090显卡,推荐8张4090或云服务器租赁方案 [21] - 需掌握Python编程、PyTorch框架和Linux开发环境,具备深度学习基础 [21] - 每周课后需投入1-2小时自学,完成作业和论文阅读任务 [19][23]