自动驾驶之心
搜索文档
自动驾驶基础模型应该以能力为导向,而不仅是局限于方法本身
自动驾驶之心· 2025-09-17 07:33
基础模型在自动驾驶感知领域的革命性变革 - 基础模型正将自动驾驶感知从特定任务深度学习模型转变为海量多样化数据集训练的多功能通用架构 [2] - 这些模型通过自监督或无监督学习策略在大规模数据集上预训练 基于Transformer等架构构建 能有效建模数据中的复杂交互关系 [4] - 基础模型展现出广泛泛化能力、高效迁移学习能力和对特定任务标注数据集依赖降低等显著优势 [4] 全新分类框架与核心能力 - 提出围绕动态驾驶环境中稳健性能需求的四项核心能力分类框架:通用知识、空间理解、多传感器鲁棒性和时序推理 [5] - 与传统"基于方法"的综述不同 该框架优先关注概念设计原则 提供"以能力为导向"的模型开发指导 [6] - 框架更清晰地揭示了基础模型的核心特性 为研究人员识别和解决特定缺陷提供系统性指导 [6] 通用知识能力 - 通用知识使模型能适应广泛驾驶场景 包括罕见或未见情况 并能合理推断可能结果和对未知智能体进行逻辑推理 [5] - 通过特征级蒸馏、伪标签监督和直接集成三种核心机制将基础模型集成到自动驾驶技术栈中 [37] - 视觉基础模型(VFMs)可直接集成到2D图像流水线 也能扩展至3D感知流水线 提供高层语义理解 [40] 空间理解能力 - 空间理解让自动驾驶车辆构建环境的连贯3D表示 捕捉物体身份、几何形状与上下文关系 [63] - 体积模型通过将传感器输入解读为3D场景的投影 构建密集、整体的环境表示 [65] - 3D掩码自动编码器通过"掩码输入-重建输出"策略 迫使模型学习场景级结构、物体边界和空间关系 [73] 多传感器鲁棒性 - 多传感器鲁棒性指系统在环境变化、传感器噪声或硬件性能下降时仍能保持感知精度与稳定性的能力 [80] - 跨模态对比学习构建统一表示空间 整合相机、激光雷达、毫米波雷达等不同传感器类型的互补信息 [82] - 多模态掩码自动编码器扩展至处理多模态输入 通过自监督重建任务让模型捕捉互补线索 [97] 时序推理能力 - 时序理解是对场景随时间演变过程进行推理 包括捕捉物体运动、跟踪遮挡物以及预测未来事件 [109] - 时序一致的4D预测模型从传感器观测序列中预测复杂动态环境的演变过程 [113] - 扩散概率模型能够表示复杂的多模态概率分布 成为解决未来场景不确定性问题的理想方案 [115] 技术实现与方法创新 - 知识蒸馏通过训练学生模型模仿教师模型的输出或内部行为 实现三类实现方式:输出级蒸馏、特征级蒸馏和关系级蒸馏 [17] - 神经辐射场(NeRF)采用隐式表示将场景建模为连续函数 通过可微体素渲染方程实现照片级真实感渲染 [24] - 3D高斯溅射(3DGS)采用显式表示将场景建模为一组3D高斯椭球体集合 通过可微前向光栅化器大幅提升渲染速度 [25] 模型对比与特性分析 - 基础模型相较于传统深度学习模型 在自动驾驶感知中的核心优势在于更优的泛化性和适应性 [36] - 视觉语言模型(VLMs)融合视觉基础模型与大语言模型的优势 实现视觉内容与文本语义对齐的联合表征 [35] - 大语言模型(LLMs)基于Transformer架构在海量文本语料上训练 具备强大的抽象、推理与指令遵循能力 [51] 当前挑战与未来方向 - 域间隙问题是核心挑战之一 需弥合基础模型预训练通用知识与自动驾驶感知特定需求之间的间隙 [59] - 幻觉风险带来严重安全风险 需深入探究故障根源并开发主动缓解策略 [60] - 延迟与效率问题与自动驾驶实时处理需求存在直接冲突 需通过模型优化技术构建更小、更高效的模型变体 [61]
3D/4D World Model(WM)近期发展的总结和思考
自动驾驶之心· 2025-09-17 07:33
文章核心观点 - 行业对具身智能的研究重点已从单纯的数据利用转向3D/4D世界模型的构建,旨在解决数据采集的合理性与丰富性问题 [3] - 当前3D/4D世界模型的研究分化为隐式和显式两大技术路线,但均存在局限性,未来发展方向是外挂或内嵌物理知识以提升模型的物理理解与预测能力 [4][7][16] 3D/4D世界模型技术路线 - 隐式3D世界模型通过提取3D/4D内容来增强视频的空间理解能力 [7] - 显式3D世界模型需依赖显式的3D Mesh等结构信息和物理规律来保证系统稳定 [7] 基于仿真器的显式世界模型研究 - 当前研究集中于静态3D场景构建,通过模型构建场景再解耦,或通过扫描方式初始化3D场景 [8] - 多项工作尝试完善世界模型的工作闭环,例如Discoverse和EmbodiedGen将环境构建区分为前景与背景,结合物理仿真与渲染 [8] - 存在3DGS与Mesh方案对表面建模效果不佳、跨物理仿真器平台部署困难以及难以进行大规模数据扩展等问题 [9][10] 基于视频生成/多视角的世界模型研究 - 得益于Feed forward 3D技术的进步,3DGS/4DGS与世界模型的结合工作开始发展 [11] - 3R技术(如Dust3R, Mono3R)的演进实现了从单/少帧到稠密几何的一站式推理,帮助模型学习3D空间知识 [11] - 该技术路线的核心问题在于2D到3D转换不成熟,存在像素漂移和难以保持跨视角一致性的挑战 [12] 4D生成技术及其挑战 - 当前4D生成技术主要分为三类:基于模板、基于生成以及从交互视频反演几何与物理 [13][19] - 将4D生成迁移到仿真环境面临挑战,视频生成模型难以从数据中反演物理规律,导致物体交互后的状态变化不连贯 [14] - 基于仿真器的物理驱动模拟短期内不会被取代,未来可能发展仿真器-视频生成组合的工作方式 [15] 未来发展趋势 - 未来3年,行业工作将朝外挂或内嵌物理知识的方向发展,以增强模型的直接物理理解与视觉推理能力 [16] - 世界模型可能最终发展成具身智能基模架构中的一个模块化组件 [16]
面对已读乱回的AI,到底要如何分辨真假?哈工大&华为大模型幻觉综述!
自动驾驶之心· 2025-09-17 07:33
大模型幻觉定义与分类 - 大模型幻觉指大语言模型在回复中出现的常见错误,包括事实矛盾、事实编造、指令不一致、内容不一致和逻辑不一致 [2][8][9][10][11] - 事实型幻觉分为事实矛盾(实体错误和关系错误)和事实编造(不可验证和夸大幻觉) [8] - 忠实型幻觉分为指令不一致、内容不一致和逻辑不一致 [9][10][11] 大模型训练与幻觉原因 - 大模型训练包括预训练、监督微调(SFT)和从人类反馈中强化学习(RLHF)三个阶段 [7] - 数据部分导致幻觉的原因包括错误数据、社会偏见、知识边界和低质量未校准数据 [17][18][19][21][23] - 训练部分导致幻觉的原因包括预训练阶段模型结构限制、微调阶段过拟合和RLHF阶段谄媚现象 [26][30][32] 幻觉检测方法 - 事实检测分为事实提取和事实验证(外部检索和内部检查) [42] - 不确定性估计方法包括LLM内部状态(标记概率、熵、自我评估)和LLM行为(直接查询、间接查询、多agent视角) [42][43][44] - 忠实性幻觉检测指标包括基于事实、分类、问答、不确定性和LLM评判的方法 [47][48][49][50][51] 幻觉基准 - 幻觉评估基准量化LLM产生幻觉的倾向,重点关注长尾知识和易引起捏造虚假的问题 [53] - 幻觉检测基准评估现有幻觉检测方法性能,针对特定任务如数据生成文本和机器翻译 [54] - 现有基准包括TruthfulQA(817条数据)、REALTIMEOA(动态数据)、HaluEval(30,000条通用数据)等 [55] 幻觉缓解策略 - 通过数据减少幻觉的方法包括数据过滤、模型编辑(定位-编辑和元学习)和检索增强生成(RAG) [57][58][61] - 减少训练产生幻觉的方法包括优化模型结构、训练方式以及避免SFT和RLHF阶段数据冲突 [62] - 减少推理产生幻觉的方法包括事实增强解码和忠诚增强解码(上下文一致性和逻辑一致性) [64][65] 检索增强生成中的幻觉 - 检索失败原因包括用户查询制定(盲目检索、模糊查询、复杂查询)、检索数据源可靠性和检索器性能 [68][69][71][72] - 生成瓶颈涉及上下文感知(嘈杂检索、上下文冲突、未充分利用上下文)和上下文对齐(来源归属和忠实解码) [74][75]
国内首个自动驾驶VLA实战课程来了(模块化/一体化/推理增强VLA)
自动驾驶之心· 2025-09-16 18:49
技术趋势转变 - 智能驾驶从规则驱动转向数据驱动 端到端和VLM技术标志着根本性转变 [1] - 端到端技术提供打通上下游视角的能力 但在复杂困难场景中仍受限 [1] - VLA技术取消传统端到端的复杂3D感知任务 借鉴VLM的通用泛化能力 提供解决corner case的可能性 [1] 技术发展现状 - 自动驾驶VLA技术栈尚未收敛 多种算法如雨后春笋般出现 [2] - 学习路径涉及视觉感知 语言模块 动作模块 配套大模型前沿技术包括RAG CoT 强化学习 MoE等技术栈 [2] - 领域面临论文数量繁多 知识碎片化 缺乏高质量文档等入门挑战 [2] 课程设计特点 - 基于Just-in-Time Learning理念 通过通俗语言和案例帮助快速掌握核心技术栈 [3] - 梳理自动驾驶VLA研究发展脉络 帮助形成个人研究体系和工作经验 [4] - 配备实战环节 完成从理论到实践的完整闭环 [5] 课程内容体系 - 涵盖VLA算法发展历史 开源BenchMark和评测指标 [14][15] - 包含Vision Language Action三大模块基础知识和开源大模型部署实践 [17] - 专题讲解VLM作为自动驾驶解释器的经典和最新算法包括DriveGPT4 TS-VLM DynRsl-VLM SENNA [19] - 深入解析模块化VLA的多阶段pipeline和一体化VLA的端到端映射技术 [21] - 配套ReCogDrive实战代码 包含预训练 模仿学习 强化学习GRPO 扩散模型轨迹输出等技术栈 [22] - 聚焦推理增强VLA子领域 讲解Chain-of-Thought 记忆体 工具调用等推理模块 [24] - 配套Impromptu VLA实战代码 基于Qwen2.5 VL进行数据集制作 训练和推理 [24] - 大作业基于ms-swift框架 自定义数据集和加载模型 提供V-L-A各部分代码解读 [26] 技术覆盖范围 - 涵盖OpenDriveVLA DriveMoE DiffVLA S4-Driver ORION FutureSightDrive AutoVLA Drive-R1等前沿算法 [29][30] - 涉及视觉感知 多模态大模型 强化学习等关键人工智能技术 [31] - 要求学员掌握transformer大模型 强化学习 BEV感知等基础概念 [31] 教学安排 - 课程周期两个半月 从10月20日开始分章节解锁 [32] - 教学方式包括离线视频教学 vip群答疑和三次线上答疑 [32]
BEVTraj:一个端到端的无地图轨迹预测新框架
自动驾驶之心· 2025-09-16 15:22
研究背景与问题 - 高精地图依赖成为自动驾驶规模化应用的主要瓶颈 其制作和维护成本高昂 覆盖范围有限 且无法应对道路动态变化[1][3] - 学术界和工业界探索两种解决方案:在线建图方案仍依赖建图模块 无图方案彻底放弃地图直接从原始传感器数据学习[4][6] BEVTraj框架核心架构 - 采用纯鸟瞰图空间端到端框架 包含场景上下文编码器和迭代式可变形解码器两部分[7] - 场景上下文编码器通过传感器融合模块生成BEV特征图 并采用可变形注意力机制高效聚合关键场景特征[11] - 迭代式可变形解码器创新性地使用稀疏目标候选提案模块 仅生成少量高质量目标候选点 大幅提升计算效率[13] - 通过迭代式轨迹细化过程 利用可变形注意力沿预测轨迹查询BEV特征 逐步修正完善轨迹预测[14] 性能表现与实验结果 - 在minADE10指标上达到0.9438 优于对比的SOTA模型如MTR(1.0446)和Wayformer(0.9877)[18] - 在minFDE10指标上取得2.0527 表现优于Autobot(2.3294)和MTR(2.2840)[18] - 在miss rate指标上达到0.3082 优于所有对比模型包括MTR(0.4240)和Wayformer(0.3868)[18] - 在无地图设置下 minADE10为0.6249 与有地图模型性能相当 验证了无地图方案的可行性[20] 技术价值与行业影响 - 首次验证无地图轨迹预测方案的可行性 性能达到甚至超越依赖高精地图的SOTA模型[26] - 通过摆脱高精地图依赖 为自动驾驶系统在更广泛区域部署扫清障碍 提升系统灵活性与可扩展性[26] - 提供高效的端到端架构设计范式 结合可变形注意力和稀疏目标提案等创新技术[26] - 代码开源将促进无地图感知预测研究方向的发展 推动行业技术进步[26]
中国具身智能的技术一号位们
自动驾驶之心· 2025-09-16 11:34
文章核心观点 - 具身智能行业正从实验室走向商业化落地 硬件与算法突破推动场景拓展 国内外团队在该赛道展开激烈竞争[4] - 通用具身智能体与场景自适应学习成为全球下一代技术突破关键领域 技术架构革新将重塑研发资源分配和市场竞争格局[4] - 技术领袖的战略决策直接决定团队能否在行业转型期抢占先机 领军人物正通过不同技术路径推动行业发展[4][54][55] 宇树科技 - 王兴兴创立宇树科技并担任CEO/CTO 主导研发Laikago、AlienGo、A1等多款四足机器人及Z1机械臂[8] - 公司拥有机器人相关专利100余项 获国家高新技术认证和国家级专精特新"小巨人"企业认定[8] - 2025年2月参与共建上海宝山上大通用智能机器人研究院 具备从0到100的研发与商业化落地能力[8] 星海图团队 - 赵行提出全球首个量产自动驾驶大模型DriveVLM-Dual 应用于理想汽车 其双系统方案成为Figure机器人Helix控制架构参考框架[12][13] - 许华哲系统性研究视觉深度强化学习与模仿学习 解决数据效率低和泛化能力弱问题 发表顶级期刊/会议论文60余篇[15] - 团队聚焦具身智能空间感知 通过自研三维建模与实时交互算法实现复杂场景精准定位[54] 银河通用 - 王鹤创立公司并开发VLA大模型 推动具身智能与大模型融合 积累亿级真实场景数据及百亿级合成仿真数据[18] - 首代产品Galbot为轮式双臂通用具身机器人 公司同时运营北大-银河通用具身智能联合实验室[17][18] 智元机器人 - 罗剑岚主导开发SERL/HIL系统 实现机器人真机强化学习任务成功率100% 仅需20分钟学会精密装配[23] - 联合斯坦福、谷歌等机构构建全球最大跨场景机器人开源数据集Open X-Embodiment 加速技术资源共享[23] 自变量机器人 - 王昊主导研发端到端具身大模型WALL-A 为2024年10月全球最大参数规模具身智能通用操作模型[27] - 开源具身智能大模型Wall-OSS并公开训练代码 支持开发者自有机器人微调应用[27] 逐际动力 - 张巍聚焦全尺寸通用人形机器人 首款四轮足商用机器人W1已上市 人形机器人将于2025年下半年公开销售[29][30] - 推动具身大模型技术研发及IDS生态平台建设 通过仿真数据和互联网视频数据降低数据成本[30] 星尘智能 - 来杰团队采用"绳驱"传动方案 第一代AI机器人Astribot S1实现AI智能与操作能力深度耦合[32] - 在具身智能数据获取上取得关键突破 致力于打造家用AI机器人[32] 云深处 - 朱秋国团队坚持全栈自研 从核心零部件到运动控制算法 拥有授权专利100多项[35] - 承担国家重点项目10余项 发表学术论文40余篇 参与研制"赤兔""绝影"等四足机器人[35] 千寻智能 - 韩峰涛主导研发国内首款高性能全身力控人形机器人Moz1 负载自重比达1:1[38] - 公司成立1年4个月累计融资超10亿元 通过大模型与机器人控制深度融合解决"大脑难造"痛点[38] Physical Intelligence - Sergey Levine团队开发代表VLA落地最高水平的模型 公司成立一个月获7000万美元融资[40] - 2024年11月完成4亿美元新一轮融资 投后估值约24亿美元 致力于创建通用机器人系统AI模型[40] Figure AI - Brett Adcock推出Figure 01和Figure 02人形机器人 后者部署至宝马斯帕坦堡工厂测试[44] - 2025年2月发布Helix模型 可同时操控两台机器人共脑合作 并实现自然人形行走[44] - 认为人形机器人是AGI终极形态 预计5年内创造价值数十亿美元产业[45] 学术研究机构 - 李飞飞发明ImageNet数据集 对深度学习和AI发展做出重要贡献 现任斯坦福大学HAI研究院联合主任[47][48] - Deepak Pathak开发"人工好奇心"技术 论文获超4000次引用 其团队构建可适应不同硬件的机器人基础模型Skild Brain[52]
蚂蚁集团大模型数据智能算法工程师招聘(可内推)
自动驾驶之心· 2025-09-16 07:33
文章核心观点 - 文章主要介绍蚂蚁集团大模型数据认知方向的职位招聘信息,详细阐述了该职位的职责范围、技术方向以及对候选人的要求 [1][2][3] - 同时文章推广“大模型之心Tech”知识星球,旨在打造一个万人规模的大模型技术交流社区,提供科研、应用、求职等综合性服务 [9][10][11] 职位职责与技术方向 - 负责设计和开发先进算法,解决大模型数据生产中的关键问题,直接影响蚂蚁大模型的训练效果和性能表现 [1] - 工作涉及数据知识体系生成,研究基于LLM的自动知识图谱生成技术,构建高效、可扩展的大模型数据知识体系 [1] - 涵盖语料自动分类,基于数据知识体系研究和开发语料分类算法,指导大模型数据的拓展方向 [1] - 包括权威评测集建设,研究业界现有评测集缺陷,构建标准化、多样化评测集以评估大模型性能 [1][5] - 涉及语料质量评估与合成,建立数据驱动体系,开发质量评估算法识别噪声数据,并研究数据驱动的语料合成技术以提升模型迭代效率 [1][5] - 包含智能标注链路研发,基于标注需求研发辅助打标算法,设计AI辅助的标注质量检验与提效算法链路 [1][5] - 要求技术创新与优化,持续跟踪学术界和工业界最新研究成果,探索前沿技术应用并提出创新解决方案 [1][5] 候选人要求与优先条件 - 职位要求计算机科学、人工智能、深度学习或相关领域的硕士及以上学历 [2][6] - 候选人需熟练掌握PyTorch、TensorFlow等深度学习框架,理解大模型训练数据需求并熟悉模型数据链路 [2][6] - 要求具备优秀的定义、分析、解决问题能力,自我驱动,并拥有较强的学习、创新应用和沟通协调能力 [2][6] - 优先考虑拥有大模型数据体系设计、语料分类、评测集建设、数据标注算法等相关项目实践经验的候选人 [3][6] - 优先考虑有大模型、智能体、强化学习、数据标注算法等相关技术领域工作经验的候选人 [4][6] - 优先考虑在计算机视觉、自然语言处理、人工智能相关领域顶级会议有论文发表,或在相关算法竞赛中获得top排名的候选人 [4][6] 知识星球社区服务 - 社区宗旨为打造一个万人聚集的国内外前沿大模型技术交流学习社区 [10] - 提供科研、应用、求职、问答、课程、行业动态六位一体的综合性服务 [10] - 社区聚焦于学术界和大模型应用第一线,涵盖RAG、Agent、大模型微调、部署等技术方向 [10][11][12] - 分享内容包含时效性三天内的最新前沿技术文章、顶会顶刊一手信息 [11] - 提供独家招聘信息,包括实习、校招、社招、转行、跳槽等一手内部资源 [11] - 社区嘉宾包括行业知名算法专家、学术界大佬、大模型行业高管及算法负责人、国内外高校教授 [11]
VLA空间理解的能力还远未被挖掘!OccVLA的新尝试(上海期智&清华&上交等)
自动驾驶之心· 2025-09-16 07:33
核心观点 - 多模态大语言模型在自动驾驶领域缺乏鲁棒的3D空间理解能力,主要受限于3D表示构建难度和细粒度空间细节丢失问题 [3][5] - OccVLA框架通过将3D占用率表示整合为预测输出和监督信号,使模型直接从2D视觉输入学习细粒度空间结构,无需额外计算开销 [3][9] - 该模型在nuScenes基准的轨迹规划任务中取得SOTA结果(平均L2距离0.28米),在3D视觉问答任务中准确率达59.5%,为自动驾驶提供可扩展的纯视觉解决方案 [3][38][42] 技术框架创新 - 采用隐式3D占用监督机制,将占用率令牌作为隐式推理过程,通过交叉注意力从VLM中间层接收视觉特征 [9][21] - 设计潜在空间占用率预测(下采样率r=16)解决原始占用网格内存占用高问题,使用VQ-VAE解码器还原高分辨率3D占用预测 [23] - 引入元动作预测机制(速度动作3类+方向动作6类),通过思维链监督实现自然语言推理与运动语义保留 [26][30] - 规划头采用轻量级MLP架构,输入元动作嵌入/速度/视觉token,输出未来3秒轨迹坐标(MSE损失监督) [29][33] 性能表现 - 运动规划任务平均L2距离0.28米,超越依赖激光雷达的OmniDrive(0.33米)和需要3D标注的EMMA(0.32米) [38] - 3D视觉问答任务整体准确率59.5%,超越7B参数的LLaVA(47.4%)和LiDAR-LLM(48.6%),接近8B参数OccLLaMA3.1(54.5%) [42] - 占用预测任务mIoU达10%,虽受限单帧输入但在关键元素(车道/车辆/行人)预测表现突出 [43] - 模型参数量仅3B,性能超越7B参数模型,显示更高计算效率 [38][42] 训练方法论 - 三阶段训练流程:自动驾驶场景预训练(使用OmniDrive数据)、占用率-语言联合训练(损失函数含λ因子平衡文本与占用任务)、规划头专项训练 [31][32][33] - 采用适配器微调Transformer块,保持原有VLM能力同时注入3D感知能力 [22][32] - 全自动数据构建流程生成元动作标签,20%数据经人工优化确保标注一致性 [27] 行业应用价值 - 突破2D感知与3D感知间差距,使纯视觉方案具备高精度3D理解能力(仅需相机输入) [4][10] - 支持占用率表示灵活解码,生成可解释且可定量评估的输出,增强自动驾驶系统透明度 [10][11] - 推理阶段可跳过占用预测,无额外计算开销,解决现有3D VLM因参数庞大导致的延迟问题 [3][48]
论文解读之港科PLUTO:首次超越Rule-Based的规划器!
自动驾驶之心· 2025-09-16 07:33
PLUTO模型技术架构 - 采用典型的两段式网络架构作为端到端自动驾驶的Planner模型 [1] - 不基于BEV特征图进行下游控制任务,而是直接对感知输出的结构化信息(如边界框、车道线等)进行编码 [1] - 将编码后的结构化信息作为序列标记输入到解码器中 [1] - 二段式端到端架构非常适合新人入门练手 [1] PLUTO模型训练机制 - 包含三个主要损失函数,主任务损失由回归损失和分类损失共同组成模仿学习损失 [7] - Agent轨迹预测损失有专门设计 [7] - 添加了多个辅助损失以帮助模型收敛 [9] 端到端自动驾驶技术发展趋势 - 端到端自动驾驶已发展出多个技术方向,需要掌握多模态大模型、BEV感知、强化学习、视觉Transformer、扩散模型等知识 [13] - 技术发展迅速,去年的技术方案已不适合当前环境 [13] - VLA(视觉语言动作)范式是当前端到端自动驾驶的皇冠,上限高但难度大,行业招聘需求旺盛 [29] - 基于扩散模型输出多模轨迹成为学术界和工业界追捧的热点,多家公司尝试落地 [26] 课程内容体系 - 第一章介绍端到端算法发展历史,涵盖从模块化方法到端到端的演变,分析一段式、二段式和VLA范式的优缺点 [20] - 第二章重点讲解端到端涉及的背景知识,包括大语言模型、扩散模型、强化学习、BEV感知等,这些是未来两年求职面试频率最高的技术关键词 [20][21][27] - 第三章聚焦二段式端到端,分析经典算法PLUTO、CVPR'25的CarPlanner和最新工作Plan-R1 [21] - 第四章涵盖一段式端到端与VLA,包括基于感知的方法(UniAD、VAD、PARA-Drive)、基于世界模型的方法(Drive-OccWorld、OccLLaMA)、基于扩散模型的方法(DiffusionDrive、Diffusion Planner、DiffE2E)和基于VLA的方法(ORION、OpenDriveVLA、ReCogDrive) [22][24][26][29] - 第五章设置RLHF微调大作业,提供预训练模块和强化学习模块的搭建实践 [31] 课程特色与目标 - 基于Just-in-Time Learning理念,通过通俗易懂的语言和案例帮助学员快速掌握核心技术栈 [15] - 帮助学员构建领域框架,梳理端到端自动驾驶研究发展脉络,形成自己的研究体系 [16] - 理论结合实践,配备实战环节完成从理论到实践的完整闭环 [17] - 学完课程能够达到1年左右端到端自动驾驶算法工程师水平,掌握端到端技术框架和关键技术 [36] - 可复现扩散模型、VLA等主流算法框架,将所学应用到实际项目中 [37]
关于大模型和自动驾驶的一切
自动驾驶之心· 2025-09-16 07:33
大模型技术社区定位 - 平台专注于大模型RAG、大模型AI Agent、多模态大模型(预训练、微调、强化学习)和大模型部署推理优化等技术方向 [1] - 社区致力于构建国内最大的大模型技术社区 持续为行业和个人输送人才及产业学术信息 [1] - 社区定位为培养未来领袖的地方 强调内容质量和人才培养 [2] 社区发展目标 - 快速搭建相关技术模块 吸引对大模型技术感兴趣的人群加入 [1] - 通过知识星球形式深化学习 提供进一步技术交流平台 [1] - 借助自动驾驶VLA等热点技术趋势推动大模型技术普及 [1]