自动驾驶之心

搜索文档
技术圈热议的π0/π0.5/A0,终于说清楚是什么了!功能/场景/方法论全解析~
自动驾驶之心· 2025-06-22 09:35
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨具身智能之心 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 最近很多同学询问π0、π0.5、A0都是啥?用在什么地方?能实现哪些功能?方法论有啥不同?前面 刚开始听到这些,也一头雾水,今天为大家梳理下。 π₀模型结构 原文:π0: A Vision-Language-Action Flow Model for General Robot Control π₀的核心架构基于 预训练视觉语言模型(VLM) 和 Flow Matching 技术,具体包含以下关键组件: VLM backbone 动作专家(Action Expert) 跨具身训练(Cross-Embodiment Training) 整合 7 种机器人、68 项任务、超 10,000 小时数据(含开源 OXE 数据集),通过权重调整处理不 同机器人的动作空间差异(如零填充低维动作向量)。 训练流程 基于 PaliGemma V ...
理想最新DriveAction:探索VLA模型中类人驾驶决策的基准~
自动驾驶之心· 2025-06-21 21:15
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 今天自动驾驶之心为大家分享理想汽车最新的工作—DriveAction! 探索VLA模型 中类人驾驶决策的基准。 如果您有相关工作需要分享,请在文末联系我们! >>点击进入→ 自动驾驶之心 『多模态大模型』技术交流群 论文作者 | Yuhan Hao等 编辑 | 自动驾驶之心 研究背景与问题提出 在自动驾驶技术不断发展的进程中,Vision-Language-Action(VLA)模型凭借其强大的多模态处理能力, 为自动驾驶系统的发展带来了新的机遇。然而,现有的基准数据集在场景多样性、动作级标注的可靠性以 及与人类偏好一致的评估协议等方面存在明显不足,这严重制约了VLA模型的进一步发展和实际应用。 具体来看,现有基准数据集主要存在以下问题: DriveAction基准的核心创新 为解决上述问题,本文提出了DriveAction基准,这是首个专为VLA模型设计的动作驱动基准,具有以下三 大核心创新: 场景多样性不足 :大多数基准数据集基于开源数据构建,来源单一,难以覆盖现实驾驶中的各种复杂 场景,如道路合并与出口 ...
MinMax-M1:超越DeepSeek,支持百万级token上下文
自动驾驶之心· 2025-06-21 21:15
以下文章来源于AIGC面面观 ,作者欠阿贝尔两块钱 AIGC面面观 . 整理LLM、AIGC的入门笔记 | 论文学习笔记 | 一线大厂面经 | 探索AIGC落地 作者 | 欠阿贝尔两块钱 来源 | AIGC面面观 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >>点击进入→ 自动驾驶之心 『大模型』技术交流群 主要贡献 1. 高效混合架构设计 :结合MoE架构与Lightning Attention)的模型MiniMax-M1, 支持百万级上下文窗 口(1M tokens) ,生成长度达80K tokens时FLOPs仅为传统注意力模型的25%。 2. 超越DAPO的算法CISPO :通过 剪裁重要性采样权重 提升RL效率,相比DAPO实现2倍加速,避免了 传统方法(如PPO/GRPO)对低概率token有更好的采样效果。 3. 可扩展上下文 :支持从40K到80K Token生成长度的扩展。 本文只做学术分享,如有侵权,联系删文 1.混合注意力架构 Lighting Attention : 采用I/O感知的线性注意力计算,通过分块计算和内存优化 ,将长 ...
量产项目卡在了场景泛化,急需千万级自动标注?
自动驾驶之心· 2025-06-21 21:15
而自从端到端和大语言LLM横空出世以来,大规模无监督的预训练 + 高质量数据集做具体任务的微调, 可能也会成为量产感知算法下一阶段需要发力的方向。同时数 据的联合标注也是当下各家训练模型的实际刚需,以往分开标注的范式不再适合智能驾驶的算法发展需求。今天自动驾驶之心就和大家一起分享下4D数据的标注流 程: 最复杂的当属动态障碍物的自动标注,涉及四个大的模块: 而为了尽可能的提升3D检测的性能,业内使用最多的还是点云3D目标检测或者LV融合的方法: 得到离线单帧的3D检测结果后,需要利用跟踪把多帧结果串联起来,但当下跟踪也面临诸多的实际问题: 离线3D目标检测; 离线跟踪; 后处理优化; 传感器遮挡优化; 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 千万级4D标注方案应该怎么做? 智能驾驶算法的开发已经到了深水区,各家都投入了大量的精力去做量产落地。其中一块最关键的就是如何高效的完成4D数据标注。无论是3D动态目标、OCC还是静 态标注。 相比于车端的感知算法,自动标注系统更像是一个不同模块组成的系统, 充分利用离线的算力和时序信息,才能得到更好的感知结果 ...
商汤绝影世界模型负责人离职。。。
自动驾驶之心· 2025-06-21 21:15
以下文章来源于红色星际 ,作者红色星际科技 红色星际 . 让更多人,更深入地了解自动驾驶行业! 来源 | 红色星际 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >>点击进入→ 自动驾驶之心 『行业第一线』技术交流群 本文只做学术分享,如有侵权,联系删文 据悉,商汤绝影的世界模型研发负责人离职。据了解其负责商汤绝影云端技术体系建设,也是绝影的生成式智驾 方案R-UniAD的研发负责人。 传闻该负责人离职之后有可能去创业。 25年对于商汤绝影来说仍旧会是充满挑战的一年。 在中阶上,商汤绝影在广汽传祺上量产交付了基于J6M的中阶方案。不过,今年中阶市场将迎来升级迭代,也就 是基于J6M做出来城区NOA,从目前的高速NOA升级为全域NOA,这是今年中阶市场最大的变化。 所以,商汤绝影今年在一段式端到端上的量产交付做得怎么样就尤为关键。能做成标杆项目,就有机会在高阶站 稳脚跟。 这对商汤绝影来说是抢滩登陆作战,而且高阶做得怎么样,也关乎商汤绝影的融资。 自 动 驾驶之心 一些头部公司基于高阶方案的蒸馏剪裁推出了轻量版的城区NOA,下放到100 TOPS算力左右的 ...
自动驾驶基础模型全面盘点(LLM/VLM/MLLM/扩散模型/世界模型)
自动驾驶之心· 2025-06-21 19:18
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 摘要 对于自动驾驶车辆而言,在复杂环境中安全导航依赖于应对广泛且多样化的罕见驾驶场景的能力。基于仿 真和场景的测试已成为自动驾驶系统开发与验证的关键方法。传统场景生成依赖基于规则的系统、知识驱 动模型和数据驱动的合成方法,但这些方法往往生成的场景多样性有限,且难以生成真实的高风险安全关 键场景。随着基础模型(Foundation Models)的出现——一种预训练的通用人工智能模型——开发者能够 处理异构输入(例如自然语言、传感器数据、高清地图和控制指令),从而实现对复杂驾驶场景的合成与 解析。本文围绕基础模型在自动驾驶场景生成与分析中的应用(截至2025年5月)开展综述研究。本综述提 出了一个统一分类体系,涵盖大语言模型(LLMs)、视觉-语言模型(VLMs)、多模态大型语言模型 (MLLMs)、扩散模型(DMs)和世界模型(WMs)在自动驾驶场景生成与分析中的应用。此外,我们回 顾了相关方法论、开源数据集、仿真平台和基准测试挑战,并探讨了针对场景生成与分析的专用评估指 标。最后,本文总结了当前面临的开放性 ...
多样化大规模数据集!SceneSplat++:首个基于3DGS的综合基准~
自动驾驶之心· 2025-06-20 22:06
以下文章来源于3D视觉之心 ,作者3D视觉之心 3D视觉之心 . 3D视觉与SLAM、点云相关内容分享 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 评估协议的关键局限性 三维计算机视觉领域高度关注于捕捉场景的几何和视觉外观,以及理解其内容。近年来,三维高斯溅射(3D Gaussian Splatting, 3DGS)因其独特的能力——能够以一种紧凑的形式联合编码场景的几何、外观和理解属性 (该形式可以有效地从二维带位姿的图像中优化得到)——已成为最理想的三维表示方法。此外,视觉-语言推 理代表了三维场景理解最具前景的方向,因为它将场景的视觉和几何属性与我们用来定义、描述和推理概念的语 言连接起来。因此,本文专注于利用 3DGS 进行视觉-语言场景理解。 语言高斯溅射(Language Gaussian Splatting, LGS)最相关的方法可分为三类。前两类方法首先使用视觉-语言基 础模型(例如 CLIP)从所有训练图像中提取二维特征。第一类随后执行基于梯度的单场景优化,将特征向量分 配给每个三维高斯基元(primitive),并优化它们,使其渲染 ...
为什么定义2000 TOPS + VLA + VLM为L3 级算力?
自动驾驶之心· 2025-06-20 22:06
专注于汽车及相关的电子技术研究与讨论 作者 | Xingwei 来源 | 辣笔小星 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >>点击进入→ 自动驾驶之心 『大模型』技术交流群 本文只做学术分享,如有侵权,联系删文 以下文章来源于辣笔小星 ,作者Xingwei 辣笔小星 . 小鹏在10亿(1B)、30亿、70亿直至720亿(72B)参数的VLA视觉-语言-行动模型上都验证了这一效应证明 了"参数规模越大模型能力越强"在自动驾驶场景中同样成立。确立了通过"海量高质量数据+大模型驱动"实现自 动驾驶能力的跃升路径。论文中VLM视觉-语言模型专注于"看懂和理解"而VLA视觉-语言-行动模型在VLM基础 上增加了"决策和行动"能力是从理解到执行的进化升级。也是小鹏基于论文提出2000TOPS+VLA+VLM定义L3级 自动驾驶算力新标准的底层逻辑,以及小鹏G7部署30B参数本地运行VLA模型的原因。 2000TOPS算力标准的技术逻辑 自动驾驶系统的算力需求呈现明显的分级特征。小鹏论文中从L2到L3级别的跨越不仅是功能上的提升更是算力 需求的指数级增长。自动 ...
打造万人的自动驾驶黄埔军校,一个死磕技术的地方~
自动驾驶之心· 2025-06-20 22:06
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 这几天刚和团队小伙伴沟通完后期工作建设,探讨究竟要做一个什么样的自动驾驶社区?其中一个答案比 较符合我们的思路,那就是一个能够凝聚行业人群、遇到问题能够快速响应、影响到整个行业的地方。 2025年我们应该瞄准哪些技术领域? 从24年下半年开始,自驾一个非常明显的信号是技术迭代的周期越来越短。2025年智驾的技术基调基本确 定,大模型赋能下的端到端2.0 — VLA。这里面涵盖的技术栈非常前沿:视觉大语言模型VLM基座、基于 扩散模型的端到端轨迹联合预测、端到端闭环仿真的3DGS和生成技术、世界模型解锁自动驾驶未来演进。 我们目标是未来3年内打造一个万人聚集的智能驾驶&具身智能社区,这里也非常欢迎优秀的同学加入我们 (目前已经有华为天才少年、自驾领域研究前沿的多为大佬加入)。我们和多家业内公司搭建了学术 + 产 品+ 招聘完整的桥梁和链路,同时内部在教研板块也基本形成了闭环(课程 + 硬件+问答)。社区里面既能 看到最新的行业技术动态、技术分享,也有非常多的技术讨论、入门问答,以及必不可少的行业动态及求 职分享 ...
[大模型实践] 卡比人贵时代的深度学习经验
自动驾驶之心· 2025-06-20 22:06
以下文章来源于刘聪NLP ,作者黄哲威 hzwer 刘聪NLP . NLP刘聪,如货币般流通!这里的刘聪,不会rapper,只发paper!长期关注AIGC前沿内容!还写过两 本书:ChatGPT原理与实战、大型语言模型实战指南!欢迎来讨论AI! 作者 | hzwer 黄哲威 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/22287171257 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >>点击进入→ 自动驾驶之心 『大模型』技术交流群 本文只做学术分享,如有侵权,联系删文 评测的重要性 论文说自己的方法性能好,一般就是定量部分,要突出关键指标的提升;定性部分,着重强调新的现象和观察 太长不看版:大模型实验的一些新方法论: 选准关键指标 ,指导迭代方向。 识别真瓶颈 ,避免低效实验,验证强假设。 平衡大小实验 ,大实验找问题,小实验筛想法。 强化团队协作 ,整合资源,找比较优势。 (总结好像很套话,但真的努力写干货了,欢迎评论交流启发补充 "不要被表象所迷惑,要洞察事物的本质。" —— 亚里士多德 几年 ...