Workflow
自动驾驶之心
icon
搜索文档
毕竟,没有数据闭环的端到端/VLA只是半成品
自动驾驶之心· 2025-09-19 19:24
自动驾驶之心对话星球嘉宾 某国际Tier1高级算法专家 ,一起探讨了下国内自动驾驶技术未来的发展趋势: 首先抛出我的观点,下一代自动驾驶技术的一定是围绕着更安全的驾驶,更好的乘坐体验,更全面的场景覆盖。 为了实现这一目标无论是主机厂还是供应商需要建立一个更加系统,更加健全的自动驾驶运营模式,软件算法和 数据运营会是其中两大核心能力(类似推荐算法是抖音的核心,但是其背后是其强大的数据运营能力)。 未来的自动驾驶公司可能更像"数据驱动的科技公司"。 类似抖音的推荐算法, 自动驾驶的竞争将从算法转向数据闭环的效率。 谁能更快收集、清洗、标注、训练、验 证,谁就占据优势。这需要强大的自动化工具链和AI驱动的数据流水线。那么我们不妨畅想这样一个架构, VLA/VLM作为最终影响终端用户应用体验的车端/车云端的应用,为了打造这样一个高体验感的产品, 围绕 VLA/VLM, 利用世界模型构建一个健壮高效低成本闭环仿真支持闭环验证,或者进一步利用强化学习对 VLM/VLA进行闭环训练,持续提高自动驾驶数据运营和应用迭代效率,会是接下来自动驾驶公司新一轮技术迭 代的关键。 具体而言,对于VLA,如果面向量产,VLA其实在一些复 ...
一个P7,从自驾到具身的转行建议......
自动驾驶之心· 2025-09-19 08:30
一个P7,从自驾到具身的转行思路...... 最近和一个P7的朋友聊天,去某大厂的具身实验室做负责人了。因为刚搭建,很多东西不是很成熟,和自 驾组建的时候非常像。缺数据、缺算力和设备。回顾自驾的种种,现在转具身之后,发现很多问题依然是 相似的,自驾优化的那套方法论甚至拿来就可以直接用,只是面向的对象和因素变了。他谈到了几个观点 蛮有意思,希望可以对大家有一定启发。 关于数据 没数据或数据少,第一时间和想到了real2sim2real方案或者sim2real方案。本体有,但数据少采集成本高, 能否使用自采集方式。让机器人自己采集数据并记录,通过算法来筛选和提出dirty数据。这一点和自驾的 数据闭环和自动标注比较相似。 关于算法 如果要商业化,最新的技术应该往后靠,等待技术的成熟。当前已经验证的技术应该被优先推上去,解决 部分问题,满足部分场景和功能的需求。就像VLA,用在智驾和机械臂上都还好,如果上人形,难度会非 常大。强化的方式,依然work,那么就应该使用这种方案。 如果算法和数据都更smooth,人形vla就是时候上了。 部署的一些思路 不用太担心部署问题,我们很擅长做轻量化和部署,算力索尔我觉得基本够 ...
上交严骏驰团队:近一年顶会顶刊硬核成果盘点
自动驾驶之心· 2025-09-19 07:33
以下文章来源于深蓝AI ,作者深蓝学院 深蓝AI . 专注于人工智能、机器人与自动驾驶的学习平台。 本文只做学术分享,如有侵权,联系删文 AI技术日新月异,但真正的"硬核突破"在哪里?是让机器人更灵巧地完成复杂任务,还是让AI在工业决策上超越人类专家?抑或是为看似"黑盒"的模型找到坚 实的理论根基? 这些令人兴奋的前沿挑战,正是 上海交通大学严骏驰教授团队 的主攻方向。作为IAPR/IET Fellow、国家优青,他带领的这支顶尖团队,近期在CVPR、 ICLR、NeurIPS等舞台上交出了一份惊艳的答卷,用一系列开创性工作回应了这些时代之问。 严骏驰教授,上海交通大学人工智能学院教授,IAPR/IET Fellow,CCF优博/杰出会员。科技部2030新一代人工智能重大项目负责人、国家自然科学基金委优青、交 叉学部重大研究计划重点项目负责人、教育部资源建设深度学习首席专家。发表CCF-A类第一/通讯作者论文过200篇(CVPR24最佳论文候选、AAAI21最具影响力 论文),引用超21000次。 作者 | 深蓝学院 来源 | 深蓝AI 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾 ...
纯视觉最新SOTA!AdaThinkDrive:更灵活的自动驾驶VLA思维链(清华&小米)
自动驾驶之心· 2025-09-19 07:33
自动驾驶VLA技术突破 - 提出AdaThinkDrive框架 通过双模式推理机制实现自适应思考 在简单场景采用快速回答模式 在复杂场景启用慢速思考模式[3][4][11] - 基于强化学习的自适应思考奖励策略 结合GRPO算法优化模型选择性应用CoT的行为 实现准确率与效率平衡[4][33][34] - 在Navsim基准测试中PDMS达到90.3 较最佳纯视觉基线模型提升1.7分 推理时间较"始终思考"基线减少14%[4][50][58] 技术实现细节 - 采用三阶段训练流程:大规模驾驶数据预训练获取世界知识与驾驶常识 双模式SFT数据集微调 强化学习优化自适应推理策略[17][24][31] - 输入包含前视图像、导航指令、自车状态及历史轨迹 支持思考与非思考两种推理模式联合分布输出[21][26][32] - 奖励设计包含PDMS奖励、格式奖励、端点奖励和自适应思考奖励四组件 加权整合优化策略模型[34][35][36][37][38] 性能验证结果 - 在Navsim数据集验证 较"永不思考"基线PDMS提升2.0分 较"始终思考"基线提升1.4分 在96%复杂场景启用CoT 84%简单场景采用直接预测[4][56][58] - 仅视觉输入性能与多模态方法GoalFlow相当 PDMS达90.3 Best-of-N规划策略下进一步提升至93.0创基准最高分[50][55] - 消融实验显示预训练阶段使PDMS提升1.3分 强化学习阶段进一步提升2.8分 自适应思考奖励是关键组件[63][64][65] 行业技术背景 - 自动驾驶系统向端到端架构演进 VLM模型通过大规模预训练提升场景理解能力 CoT技术增强可解释性与轨迹质量但存在简单场景过度推理问题[7][10][14] - 现有自适应CoT触发方法主要基于强化学习 分为简洁推理、动态早期终止和按需推理三类 需根据高速公路巡航或路口拥堵等不同场景复杂度调整[16][33] - InternVL3-8B作为基础模型 训练使用64块NVIDIA H20 GPU 三阶段学习率从1×10⁻⁵逐步降至2×10⁻⁶[48][52]
当前的自动驾驶VLA,还有很多模块需要优化...
自动驾驶之心· 2025-09-18 19:00
点击咨询匹配大牛导师 1. 传统模块化架构的时代: 早期的自动驾驶系统(L2-L4级)普遍采用模块化设计。每个模块(如 物体检测、轨迹预测、路径规划)被独立开发和优化。 优势: 逻辑清晰,各模块可独立调试和 验证,具有较好的可解释性。 瓶颈: 错误累积效应: 上游模块的微小误差会逐级传递并放大, 影响最终决策。 信息损失: 在模块间传递的结构化数据(如3D框、轨迹点)会损失原始传感器 信息中的丰富细节。 规则的局限性: 依赖大量人工设计的规则和参数,难以应对复杂、长尾的 交通场景(Corner Cases)。 2. 纯视觉端到端(模仿学习)的兴起: 以NVIDIA的DAVE-2、Wayve等为代表,研究者们尝试使用 深度神经网络,通过模仿学习(Imitation Learning)的方式,直接从人类驾驶员的驾驶视频和操 作数据中学习"像素到行为"的映射。 优势: 简化了系统架构,能从数据中自动学习复杂的驾驶 策略,无需繁琐的规则设计。 瓶颈: "黑箱"问题与可解释性差: 模型决策过程不透明,难以理 解其做出特定行为的原因,这对于安全至关重要的自动驾驶是致命缺陷。 因果混淆(Causal VLA绝对是今年自动驾 ...
千万美元奖金!2077AI启动Project EVA,邀全球超人挑战AI认知极限
自动驾驶之心· 2025-09-18 19:00
你的智慧,AI的终极试炼 我们正在寻找这样的"超人": -顶尖的AI研究者、算法工程师 -深耕于 哲学、语言学、逻辑学、艺术等领域的跨界专家 -任何对AI能力边界怀有深刻好奇心与洞察力的 探索者 1024万美元奖金池!2077AI开源基金会启动Project EVA,邀全球"超人"挑战AI认知极限 2077AI开源基金会发起的全球性AI评测挑战赛——"EVA计划:超人试炼" (Project EVA) 已正式 启动,并向全球开放预注册通道。该项目设立了高达1024万美元的总奖金池,旨在召集全球最顶 尖、最富创造力的头脑,共同探索当前大型语言模型(LLM)的真实能力边界。 从"基准测试"到"认知极限测试" 随着GPT-4o、Claude 3.5 Sonnet等模型的飞速发展,传统的 AI评测基准正逐渐失去挑战性。我们需要的不再是能被"刷题"解决的测试,而是一种全新的范 式,去探测这些"硅基心智"在复杂逻辑、深层因果、反事实思考和伦理困境等维度的真正极限。 Project EVA应运而生。它不是一场编程竞赛,而是一场智慧与创造力的试炼。我们寻找的不是问 题的"答案",而是那个能定义AI未来的"问题"本身。参赛者需 ...
科研论文这件事,总是开窍后已太晚......
自动驾驶之心· 2025-09-18 11:40
还在等导师"喂饭"?还在想"基础打好再发"?醒醒!科研开窍要趁早,拒信和延毕不会等你准备 好! 看到"延毕"两个字,是不是心里一紧?每年,都有不少才华横溢的硕士,明明能力不差,却卡在 了"论文"这道坎上。不是不努力,而是"开窍"太晚。 "开窍"晚的典型画像 "等导师安排"型: 总觉得导师没给明确方向/任务,自己就无从下手。被动等待,时间悄然流逝。 "追求完美"型: 总想"学完所有知识"、"打好完美基础"、"做出惊天成果"再开始写。结果?基础 永远学不完,实验永远不完美。 "畏难拖延"型: 一想到读文献、调模型、写论文、被拒稿就头大,下意识逃避,用课程、项目甚 至游戏来麻痹自己。 "低估周期"型: 天真地以为写论文、投稿、修改、接收是几个月就能搞定的事情。殊不知,从idea 到接收,动辄半年到一年甚至更久!审稿被拒?周期再加倍! 科研"开窍"的核心是什么? 核心就四个字: 尽早行动! 把"发论文"当成 贯穿硕士生涯 的核心目标,而非最后冲刺的任务。 算一笔"时间账": 研一暑假开始投入:你有近2年时间打磨1-2篇高质量论文(含投稿周期),游刃有余。 研二下才开始着急:留给你的有效时间可能不足1年,还要面临课程、 ...
中国大模型的技术一号位们
自动驾驶之心· 2025-09-18 11:40
中国AI大模型领域领导者战略布局与技术成果 DeepSeek(梁文锋) - 团队在3年核心技术积累后产品上线 20天内连续更新50多个版本 [5] - 产品上线20天内获得全球3000万日活用户成为现象级产品 [5] - 展现中国AI创业公司技术实力和市场爆发力 加剧全球AI大模型领域竞争 [5] 通义千问(林俊旸) - 团队以周级迭代速度推进优化 半年内完成30余次版本升级 [9] - 成功适配制造、金融、政务、医疗、教育等20多个重点行业场景 [9] - 累计服务超10万家企业客户 成为国内产业级AI大模型标杆产品 [9] - 打破大模型只聚焦C端体验认知局限 大幅降低中小企业引入AI技术门槛 [10] 字节Seed(吴永辉) - 团队以快速响应用户反馈为导向 短期内密集迭代数十个版本 [14] - 产品短时间内突破千万日活 成为用户高频依赖的智能助手 [14] - 广泛应用于办公文档处理、学习答疑、生活服务咨询、创意内容辅助等日常场景 [14] - 推动AI技术从专业领域走向大众日常 加速AI在普通生活场景中的普及 [14] 腾讯混元大模型(薄列峰) - 团队半年内完成8次重大版本更新 实现代码生成精度提升等能力突破 [17] - 服务超20万家企业客户 赋能百度搜索、小度智能设备、自动驾驶等核心业务 [17] - 推动大模型技术从技术探索迈向产业实用 加速传统行业智能化转型 [17] 日日新大模型(徐立) - 构建国内领先AI大装置SenseCore 为模型研发提供算力算法数据协同底座 [22] - 持续迭代多模态能力 技术测评多次刷新通用AI能力榜单 [22] - 服务超1000家大型企业客户 覆盖全球超40个国家和地区 [22] - 打破AI技术单点应用局限 推动AI向全链条渗透升级 [23] Minimax(闫俊杰) - 推出国内首个商用万亿参数MoE架构大模型abab 6.5 [26] - 服务数万家企业客户 覆盖金融、教育、医疗等多个行业 [27] - 积累千万级C端用户 形成企业服务加C端应用双驱动产品矩阵 [27] - 为行业提供高效低成本大模型产业化路径 加速AI普惠进程 [27] 月之暗面Kimi(杨植麟) - 产品凭借超长文本处理差异化优势 早期支持20万字上下文后续升级至百万字级 [32] - 攻克传统大模型处理长篇文档痛点 快速覆盖科研辅助、法律文书分析等专业场景 [32] - 上线不久收获千万级用户关注 成为聚焦专业场景价值的现象级产品 [32] - 带动行业从通用对话向专业领域落地聚焦 推动AI技术在专业场景实用化进程 [32] 文心一言(王海峰) - 打造中国首个自主研发开源开放的产业级深度学习平台百度飞桨 [35] - 全面负责百度人工智能技术研发和商业化落地 包括百度大脑、文心大模型等核心体系构建 [35] - 推动百度AI在搜索、云计算、自动驾驶、智能硬件等众多业务领域应用 [35] - 飞桨平台降低中国AI开发者门槛 文心大模型推动生成式AI在国内普及发展 [35] 行业整体影响 - 这些领导者推动AI技术从实验室突破走向产业规模化落地 [2][37] - 中国AI企业展现技术深度与场景落地能力 提升全球AI产业应用领域竞争力 [10][23] - 带动AI产业链上下游协同发展 为全球AI产业提供技术产业双向驱动的中国样本 [17][23]
苦战七年卷了三代!关于BEV的演进之路:哈工大&清华最新综述
自动驾驶之心· 2025-09-18 07:33
BEV感知技术演进 - BEV感知已成为自动驾驶领域的基础范式,提供统一的空间表征,支持鲁棒的多传感器融合和多智能体协作[2] - 随着自动驾驶车辆从受控环境向现实世界部署过渡,复杂场景(如遮挡、恶劣天气和动态交通)中的安全性和可靠性仍是关键挑战[2] - 本文首次从安全关键视角对BEV感知进行全面综述,系统分析当前主流框架及实现策略,并将其划分为三个渐进阶段:单模态车载感知、多模态车载感知和多智能体协作感知[2] BEV感知的本质(What) - BEV感知是一种高效的空间表征范式,能够将来自多种传感器模态(如相机、激光雷达、毫米波雷达)的异构数据投影到统一的BEV坐标系中[6] - 通过这种投影,系统可构建周围环境的一致性结构化空间语义地图,消除传感器特有的视角差异[6] - 自上而下的视角能够帮助系统准确感知和理解物体间的空间关系,大幅降低多视角与多模态数据融合的复杂度[6] BEV感知的重要性(Why) - 凭借统一且可解释的空间表征,BEV感知成为自动驾驶中多模态融合与多智能体协作感知的理想基础[8] - 统一坐标系不仅简化了车载与路侧传感器的融合过程,还能支持多车辆与基础设施间的高效信息共享,突破单车辆感知的局限性[8] - BEV表征具备结构化、一致性的语义信息,能够为路径规划、车辆控制等下游任务提供支持,成为复杂协作驾驶场景中"感知-决策"环节的关键桥梁[8] BEV感知的实现方式(How) - 安全导向的BEV感知(SafeBEV)演进划分为三个主要阶段:SafeBEV 1.0(单模态车载感知)、SafeBEV 2.0(多模态车载感知)和SafeBEV 3.0(多智能体协作感知)[12] - 各阶段的特征与技术进展在后续章节详细阐述,包括单模态感知的局限性、多模态融合策略以及多智能体协作的优势[12] SafeBEV 1.0:单模态车载感知 - 该阶段采用单一传感器(如相机或LiDAR)实现基于BEV的场景理解,具有系统复杂度低、计算成本低的优势[13][20] - 基于相机的方法依赖单应性变换或数据驱动的BEV建模,分为稀疏范式与密集范式两类[13] - 基于激光雷达的方法通过点云体素化、稀疏卷积或PointNet等技术提取BEV特征,在空间分辨率与计算效率间取得平衡[13] - 但在恶劣条件下鲁棒性有限:相机方法对光照变化、遮挡和深度估计误差敏感,激光雷达方法面临点云稀疏性和天气导致的性能衰减问题[20][41] SafeBEV 2.0:多模态车载感知 - 该阶段通过集成相机、LiDAR、雷达等异构传感器提升BEV感知性能,突破单模态系统的局限性,增强遮挡与恶劣天气下的鲁棒性[14][42] - 融合策略分为五类:相机-雷达融合、相机-LiDAR融合、雷达-LiDAR融合、相机-LiDAR-雷达三模态融合及时间融合[14][42] - 根据融合阶段的不同,每类策略又可进一步分为单阶段融合(SSF)和多阶段融合(MSF)[42] - 这些策略共同增强了现实自动驾驶场景中BEV感知的安全性、适应性与可靠性[14] SafeBEV 3.0:多智能体协作感知 - 随着车联网(V2X)技术的发展,自动驾驶车辆可通过车-车、车-基础设施间的信息交互与联合推理,突破单智能体感知的局限性[15][72] - 通过在统一BEV空间中聚合多源传感器数据,协作感知能够实现全局环境建模,为动态交通中的安全导航提供关键支持[15][72] - V2VNet、DiscoNet、CoBEVT等代表性框架通过特征压缩、带宽高效协议及分布式推理技术,在降低通信成本的同时实现实时、可扩展的协作[15] - 多智能体观测的时空融合技术能够增强全局态势感知,提升对遮挡或远距离目标的感知能力[15] BEV感知数据集 - 高质量数据集是感知算法研发与评估的核心基础,设计完善的数据集对于提升BEV感知的鲁棒性与安全性至关重要[98] - 车载BEV数据集分为单模态与多模态两类,单模态数据集支持专项研究,多模态数据集支持传感器融合策略的研发[99][102] - 多智能体协作感知数据集在传感器多样性、协作能力及复杂交通场景表征方面取得显著进展,为基于BEV的协作感知研究提供了关键基础[104][105] - 路侧感知数据集利用固定路侧单元实现高精度、广范围的环境感知,具有稳定、抗遮挡的视角及广阔的时空覆盖范围[107] 挑战与未来方向 - BEV感知在开放世界场景下面临关键安全挑战,包括开放集识别、大规模未标注数据、传感器性能退化及智能体间通信延迟[2][16] - 未来研究方向包括与端到端自动驾驶系统的融合、具身智能及大型语言模型的应用[2][16] - 多模态融合仍面临标定与同步、环境干扰、实时性约束和视野局限等挑战[66][70] - 多智能体协作感知需解决通信可靠性、时空对齐及系统可扩展性三大关键挑战[97]
小鹏&理想全力攻坚的VLA路线,到底都有哪些研究方向?
自动驾驶之心· 2025-09-18 07:33
VLA绝对是今年自动驾驶学术界和工业界的主流关键词。 去年的端到端+VLM,标志着智能驾驶从规则驱动向数据驱动的根本转变。在实际中使用我们发现,端到端虽然提供了一个打通上下游视角的能力,但面对复杂的困难场 景仍然受限。如果在自动驾驶公司工作过,就知道量产模型的迭代仍然被限制在无限corner case的循环中。 VLA本质上也可以算作是一种端到端,不过更加直白和干净,很多方法也取消了传统端到端的复杂的3D感知任务。借鉴VLM更强大的通用泛化能力,除了任务更简洁, VLA更重要的还是提供了一种解决corner case的可能性。 而随着学术界和工业界的目光投向端到端这个技术领域,我们发现了很多问题。自动驾驶VLA的技术栈仍然没有收敛!一系列算法如雨后春笋般冒出: 技术栈多?入门困难? 前一段时间我们推出了《端到端与VLA自动驾驶小班课》,这门课侧重在端到端自动驾驶的技术栈梳理,同学们的反馈很好。 所以很多同学联系自动驾驶之心想学习更多 关于VLA的前沿知识! 因此我们联合国内外的教研团队共同打造了《自动驾驶VLA实战教程》,针对自动驾驶VLA的技术栈进行了全面的梳理。 学习自动驾驶VLA,是一个一站式强化多领域 ...