自动驾驶之心
搜索文档
理想ICCV'25分享了世界模型:从数据闭环到训练闭环
自动驾驶之心· 2025-11-07 08:05
公司智能驾驶技术发展路线 - 公司智能驾驶发展经历了从规则时代的轻图和无图方案 到基于人工智能的端到端+视觉语言模型快慢双系统和视觉语言自动驾驶方案 导航模块在四个方案中均为重点 [6] - 公司端到端量产版本的MPI已达到220+ 相比2024年7月底的版本提升了约19倍 [13] 数据闭环流程与规模 - 完整的数据闭环流程包括:影子模式验证、数据触发回传至云端、数据挖掘、有效样本自动标注、生成训练集训练模型、模型下发验证性能 [9] - 数据回传过程可在一分钟内完成 [10] - 公司已积累15亿公里的驾驶数据 通过200多个触发器生产时长15至45秒的片段数据 [11] 自动驾驶下半场:从数据闭环到训练闭环 - 行业观点认为自动驾驶进入下半场 核心玩法从数据闭环转向训练闭环 [18][21] - L4级训练循环的核心技术栈为视觉语言自动驾驶+强化学习+世界模型 轨迹由视觉语言自动驾驶的扩散模型和基于世界模型的强化学习共同优化 强化学习包括RLHF、RLVR和RLAIF [23] - 训练闭环关键技术栈包括区域级别仿真、合成数据和强化学习 [24] 训练闭环关键技术细节 - 仿真依赖场景重建技术 包括视觉/激光雷达重建、区域重建、多趟重建、场景编辑和风格迁移 [26] - 合成数据依赖多模态生成技术 包括视频/点云生成和神经渲染 [26] - 强化学习依赖智能体、3D资产以及评测与奖励模型 [26] - 可交互的智能体是训练闭环的关键挑战 [40] - 系统能力是世界模型增强引擎的关键 包括仿真环境、3D资产构建多样化场景、交互式行为建模、奖励模型反馈泛化能力及GPU工程加速推理 [41] 公司在重建与生成领域的进展 - 公司在重建领域已有两篇顶会论文成果 [28] - 公司技术方案从重建发展到生成 其中Feedforward 3DGS方案无需点云初始化 可直接由视觉输入得到结果 [29] - 公司在联合重建与生成领域有一篇顶会论文 [32] - 公司在生成领域有三篇顶会论文成果 [34] - 生成技术的应用包括场景编辑、场景迁移和场景生成 [36]
特斯拉的场景重建值得国内重视,前馈GS才是未来方向......
自动驾驶之心· 2025-11-07 08:05
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 这几天柱哥又仔细看了看特斯拉ICCV的分享, 愈发觉得特斯拉的世界模型有真东西~ 可以肯定,特斯拉是基于FeedForward GS实现的闭环仿真或者说世界模型,下图是特斯拉的算法结构图。输入包含:视觉视频、导航地图、车辆运动学、音频, 输出有全景分割(25年还能看到全景分割真难得)、3D OCC、 3D Gaussian 、语言等其他,这些内容共同Reasoning出Action。 由于使用了FeedForward GS,可以直接从视觉输入建模出3D场景,因此优化的时间也从传统GS的30分钟减少到220ms,也不再依赖点云初始化。下图直观对比了 传统GS和特斯拉生成式GS的差距:在新视角下左侧图像的动态目标非常模糊且伪影很严重,特斯拉的重建出车辆(中间)的车身结构和伪影有很大优化,地面和 两辆白色车辆均有明显的提升,强的可怕! 既然特斯拉已经指明了道路,国内各家新势力相信已经重视起来,相关岗位的需求也会多起来! 该部分视频如下,目前就柱哥了解到的情况,国内还没有哪一家能做到和特斯拉媲美的效果... 3DGS ...
需要撕衣验证?全网都吵疯了!小鹏的人形机器人,是不是真人
自动驾驶之心· 2025-11-07 08:05
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨机器之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 物理 AI,已经能让人产生错觉了? 这是机器人还是真人? 从昨天到今天,全球大半个互联网都在讨论小鹏的人形机器人 IRON。 大家的「福尔摩斯」本能瞬间觉醒。 小红书网友热议,发布会上步态演示的机器人,其实是真人 + 皮套。 不过,面对铺天盖地的讨论,小鹏似乎一点也不慌。在一个网友评论:「100% 真人在里面」的下面, 何小鹏回应道:「感谢认可。」 11 月 6 日,小鹏汽车在广州新总部举行 AI Day 2025,正式宣布 —— 这不再只是造车公司,而是一 家 AI 公司。 基于自研的 Xpeng VLA 2.0 大模型,小鹏衍生出一整套 AI 定义的应用,最新一代人形机器人 IRON 一出场,旋即引发大量讨论。 小鹏在机器人领域已深耕 7 年。从最早的四足形态一路进化,如今终于来到完全类人的阶段。 IRON 拥有全新的「类人骨骼结构」、仿生肌肉系 ...
阿里新研究:统一了VLA和世界模型
自动驾驶之心· 2025-11-06 16:43
WorldVLA模型框架概述 - 提出WorldVLA统一框架,融合视觉语言动作模型与世界模型,旨在让AI理解世界 [1] - 该框架由阿里巴巴达摩院、湖畔实验室和浙江大学共同提出 [1] - 实验结果表明,WorldVLA表现显著优于独立的动作模型与世界模型,体现二者相互增强效应 [2] 技术架构与实现细节 - 基于Chameleon模型初始化,使用三套独立分词器对图像、文本和动作进行编码 [8] - 图像分词器采用VQ-GAN模型,压缩比为16,码本大小为8192 [8] - 对于256×256图像生成256个token,对于512×512图像生成1024个token [8] - 动作分词器将连续机器人动作每个维度离散化为256个区间,动作由7个token表示 [8] - 提出针对动作生成的替代注意力掩码,使自回归框架能并行生成多个动作 [11][12] 模型性能评估 - 在无预训练情况下,WorldVLA(256×256)平均成功率为79.1%,优于OpenVLA的76.5% [19][21] - WorldVLA(512×512)平均成功率提升至81.8%,显示模型性能与图像分辨率呈正相关 [21][22][23] - 引入世界模型后,动作模型平均成功率从62.8%提升至78.1% [25][26] - 在视频生成质量上,WorldVLA在50帧序列的FVD指标为674.1,优于纯世界模型的718.6 [32] 技术优势与应用前景 - 世界模型通过预测未来图像学习环境物理规律,提升动作生成准确性 [5][25] - 动作模型基于图像观测生成后续动作,反向促进世界模型视觉生成能力 [5][17] - 框架结合VLA抽象思考与世界模型物理感知,被视为通往具身智能的路径 [36][37]
智驾将往何处去?第一次自动驾驶圆桌纪实
自动驾驶之心· 2025-11-06 08:04
作者 | 刘斯坦 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1961979708389438749 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 和 具身智能之心 做了好几期圆桌了, 听众越来越多,影响越来越大。节前同一个机构的分号 自动驾驶之心 找我说搞一搞智驾的圆桌,我才反应过来这才是我的老本 行啊,当下就答应了。 这一次圆桌请到了博世中央研究院自动驾驶行车的负责人 孙昊博士 ,BV百度风投 副总裁柯迪 ,长安汽车泊车负责人 许凌云博士 和加州伯克利人工智能实验室博后 研究员 郑文钊博士 。博世的孙昊博士入行智驾领域十年,如今致力于面向量产的研究,DiffVLA,Impromptu VLA和IRL-VLA连续sota;柯迪总投出了很多智驾和具 身的明星公司,对行业有深刻理解;许凌云博士曾在多家主机厂担任技术高管,对量产和高阶算法的产品化落地极有心得;而郑文钊博士是OCC感知和表征学习领域 的顶流,代表了全世界最 ...
小鹏刚刚发布了VLA 2.0,但去掉了语言转译......
自动驾驶之心· 2025-11-06 08:04
小鹏VLA技术进展 - 小鹏发布VLA 2.0,采用两套方案并行研发:传统V→L→A路径和新型V/L→A路径,后者与特斯拉ICCV分享的技术思路类似,语言输入与视觉输入并行而非作为中间件[2][3][6] - V/L→A方案去除了语言转译环节,但仍以视觉为核心,是世界首个量产物理世界大模型,最高有效算力达2250 TOPS[6] - 技术框架参考开源算法如ORION,可同步输出感知结果、自车轨迹及思维链,世界模型参与未来场景预测[5] - 公司计划入局Robotaxi领域,配置四颗图灵AI芯片,算力提升至3000 TOPS[8] 自动驾驶技术趋势与行业动态 - 行业正加速解析特斯拉公开的新技术信息,VLA与V/LA被视为L3技术突破的关键路径,世界模型与VLA的路线竞争尚未定论[10] - 业内技术思路趋同,重点在于工程优化效果,例如ORION框架通过潜在标记与世界仿真器交互实现强化学习[5] 自动驾驶社区资源与生态 - 自动驾驶之心知识星球社区规模超4000人,覆盖近40项技术方向,包括VLA、BEV感知、世界模型等,目标两年内扩至近万人[14][20][31] - 社区整合超60个数据集、40个开源项目及仿真平台,提供技术路线图、求职内推与行业大佬直播,如小米汽车云端大模型算法工程师岗位内推[17][23][26][31] - 学习资源涵盖全栈课程、7大福利视频教程及超100场专业直播,内容涉及端到端自动驾驶、3DGS闭环仿真等热门领域[23][31][95][98]
寻找散落在世界各地的自动驾驶热爱者(产品/4D标注/世界模型等)
自动驾驶之心· 2025-11-06 08:04
虽然从上半年开始,我们一直在筹办相关事宜。但众人拾柴火焰高,我们需要更多优秀的伙伴加入我们。 现面向全球的自动驾驶领域从业者发出邀请函,自动驾驶之心期望能够和您在技术服务、培训、课程开发与科 研辅导等多个领域展开合作。 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 最近收到越来越多业内小伙伴和公司的诉求,希望自动驾驶之心能够在企业培训和求职辅导等方向上赋能。 企业培训的需求是多样的,从技术进展的梳理、到发布会方案的解读,以及行业发展的总结。 寻求辅导的同学往往受困于简历不够亮眼,急需一些项目补充和经验传授。 我们将提供高额的酬金与丰富的行业资源。 主要方向 岗位说明 主要面向自动驾驶培训合作(B端主要面向企业和高校、研究院所培训,C端面向较多学生、求职类人群)、 课程开发和原创文章创作。 联系我们 感兴趣的可以添加微信wenyirumo做进一步咨询。 包括但不限于:自动驾驶产品经理、4D标注/数据闭环、世界模型、VLA、自动驾驶大模型、强化学习、端到 端等多个方向。 ...
Kimi Linear一作张宇:关于模型训练的一些感想
自动驾驶之心· 2025-11-06 08:04
模型架构创新 - 模型采用混合专家架构 将MoE稀疏度从8提升至32 显著增强模型容量[4] - 核心设计原则为线性注意力 具体实现为KDA方法 在GDN基础上融入GLA的细粒度门控[4] - 采用混合模型方案 KDA与MLA的层混合比例为3:1 该比例经消融实验证实为效率与性能最优解[5] - 循环公式中关键部分为Decay机制 通过数学表达式实现状态更新[4] 性能表现 - 在5.7T训练token和3B激活参数条件下 模型效果实现巨大提升 多项基准测试呈现显著优势[7] - 解码方面因KDA的KV缓存占用小 批量大小补偿后加速比达到6倍[8] - 在数学/代码类基准测试上受参数规模限制 但模型个性表现突出 具有小K2模型特质[8] - 实际使用体验与榜单成绩达成平衡 避免为追求分数牺牲用户体验[13] 训练过程 - 模型规模达48B MoE 训练量5.7T 采用分阶段扩展策略 从1B参数开始逐步验证性能[10][11] - 训练过程中发现关键参数需保持fp32精度 中途切换精度可能影响训练效果[12] - 后训练方案经过数十种数据配方尝试 最终形成成熟方案[13] - 采用严格的内科监控机制 任何明显性能差异都会触发回退至上一阶段[11] 技术路线定位 - 本次技术报告定位为技术验证 主要战场放在1T公平比较实验 为下一代K3模型铺垫[14] - 线性注意力技术路线逐渐收敛至Delta变体 同时稀疏注意力路线如NSA也受到关注[18] - 模型开源旨在推动混合模型实际落地 为行业提供新的技术启发[19] - 当前时间窗口适合线性注意力发展 因智能体应用需要32k+长上下文支持[17]
AI Day直播 | “像素级完美”深度感知,NeurIPS高分论文解密
自动驾驶之心· 2025-11-05 08:04
点击按钮预约直播 深度估计是机器人感知、三维重建、AR/VR 等应用的核心。然而,现有的深度估计方法普遍存在边缘飞点(Flying Pixels)问题,而这会导致机器人执行决策时候,引发错误动作;三维重建时导致物体轮廓鬼影重重等。现有方法经历边 缘飞点主要因为以下原因: 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>直播和内容获取转到 → 自动驾驶之心知识星球 本文提出 Pixel-Perfect Depth (PPD),一种 直接在像素空间进行扩散生成的单目深度估计模型 ,从根源上避免了因 VAE 压缩导致的伪影问题。然而,高分辨率像素空间的扩散建模极具挑战:模型需兼顾 全局语义的一致性 与 局部细节的精确 性 ,否则极易出现结构失真或深度跳变。为此,本文设计了语义引导的扩散 Transformer(SP-DiT),在扩散过程中引入 来自视觉基础模型的高层语义特征作为提示,有效增强了模型对全局结构的把握与细节恢复能力。同时,本文提出一种 判别式模型 (如 Depth Anything v2, Depth Pro )由于回归损失的平滑倾向,容易在深度 ...
理想智驾逆袭往事:端到端的百日冲刺
自动驾驶之心· 2025-11-05 08:04
以下文章来源于雷峰网 ,作者王瑞昊 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 "如果不往端到端转,你们就别干了。" 雷峰网 . 洞见智能未来,共与产业变迁 作者 | 王瑞昊 来源 | 雷峰网 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 在2024年3月的春季战略会上,李想当着公司自动驾驶团队的面,毫不客气地扔下这一句话 。 他对当时智驾的表现极度不满,直言理想智驾已经到了必须"破 釜沉舟"的关口。 四个月后的2024年7月5日,理想汽车正式发布"端到端+VLM"系统。这不仅是一套技术的亮相,更是理想智驾发展道路上的分水岭。 在此之前,理想的智驾研发像是一场持久的追赶战,短短四年间先后迭代了五套技术方案,从有图到轻图,再到无图,每一步都在追赶却始终达不到行业头 部。 直到第六套方案"端到端+VLM"登场,才让理想终于从长期的追随中,第一次体会到真正的领先。 一位深度参与该项目的内部员工告诉雷峰网,轻图与无图方案只是让理想得以坐上自动驾驶的牌桌,而端到端方案,则让理想在这张牌桌上打出了自己的胜 局。 2024 ...