自动驾驶之心
搜索文档
SimpleVLA-RL:突破 VLA 模型训练瓶颈,RL实现端到端在线训练
自动驾驶之心· 2025-09-15 11:56
文章核心观点 - 提出名为SimpleVLA-RL的新型强化学习框架,旨在解决当前视觉-语言-动作模型训练中的数据稀缺和泛化能力弱两大核心瓶颈 [3][4] - 该框架通过结果奖励和探索增强策略,显著提升了VLA模型在多种基准测试中的性能,并实现了高效仿真到现实的迁移 [6][7][8] - 研究发现RL训练能诱导模型产生超越人类演示数据的新行为策略,即“Pushcut”现象,为机器人自主学习开辟了新方向 [9][25] 研究背景与核心问题 - 当前VLA模型主流训练范式“预训练+监督微调”存在数据稀缺和泛化能力弱两大问题,严重制约模型扩展性 [3] - SFT依赖成本高昂且规模受限的人类操作轨迹数据,并在面对未见过任务或环境时性能大幅下降 [3][4] - 大语言模型领域的进展表明,RL可显著提升推理能力,但将其应用于VLA面临手工设计奖励函数和环境交互成本高的挑战 [4] 主要贡献 - 构建了专为VLA设计的高效RL框架,支持交互式轨迹采样和多环境并行渲染,实现规模化训练 [7] - 在LIBERO、RoboTwin等多个基准测试中刷新SOTA性能,例如LIBERO平均成功率从91.0%提升至99.1% [7][14] - 在数据极度稀缺条件下表现优异,仅用单条演示数据即可将LIBERO平均成功率从48.9%提升至96.9% [7][19] - 仅使用仿真数据训练,便将真实世界机械臂任务的平均成功率从17.5%提升至38.5% [7][24] - 发现了由RL诱导产生的“Pushcut”新现象,即模型自主探索出如“推”等超越人类演示的新策略 [7][9] 核心方案:框架设计 - 采用动作token化策略,使VLA模型输出动作token概率分布,以兼容PPO类RL算法并生成多样化轨迹 [10] - 设计二元结果奖励机制,任务成功则整个轨迹奖励为1,失败为0,奖励均匀分配至每个动作token [11] - 通过动态采样、调整GRPO裁剪范围和提高采样温度三项修改,增强模型的探索效率 [11][15] - 采用修改后的GRPO目标函数,移除KL散度正则项,降低计算复杂度并鼓励新行为探索 [11][15] 实验验证:性能与优势 - 在LIBERO基准测试中,将OpenVLA-OFT模型平均成功率从91.0%提升至99.1%,长时序任务提升12.0个百分点 [14] - 在RoboTwin1.0基准测试中,平均成功率从39.8%提升至70.4%,其中“Blocks Stack”任务提升33.1个百分点 [16] - 在更具挑战性的RoboTwin2.0基准测试中,平均成功率从38.3%提升至68.8%,超越其他SOTA模型 [17][18] 数据效率与泛化能力 - 在“单轨迹SFT”极端数据稀缺场景下,RL训练将LIBERO平均成功率从48.9%大幅提升至96.9%,接近“全轨迹SFT+RL”效果 [19][20] - 在未见任务泛化测试中,RL方法避免了SFT的“灾难性遗忘”问题,所有未见任务成功率均获提升,最高提升36.5个百分点 [21][26] 关键发现与分析 - “Pushcut”现象表明,基于结果奖励的RL允许模型探索所有能完成任务的路径,而非局限于人类演示的单一方式 [25][29] - RL的有效性依赖于初始模型的基础能力,存在一个性能阈值,初始成功率较高时RL提升更为显著 [30][31] - 该研究与现有工作的主要差异在于其专注于机器人交互场景,采用简单规则化的结果奖励,更易于扩展 [31][32]
过来人经验!研一进组后一定要着手准备小论文!
自动驾驶之心· 2025-09-15 07:33
公司核心服务 - 提供个性化论文指导服务 涵盖从选题、调研、idea验证、代码、实验、润色、投稿直至中稿的全流程一站式科研服务 [14] - 拥有超过300名专职于自动驾驶 具身智能 机器人方向的导师团队 导师来自全球QS排名前100的高校并发表过多篇顶会或子刊论文 [6] - 近3年辅导学员超过400名 中稿率高达96% [6] 服务流程与周期 - 标准论文产出周期为12周 第1周确定研究方向 第2-3周完成文献综述 第4-6周进行实验与数据收集 第7-8周完成初稿 第9-10周修改润色 第11-12周选刊投稿 [5] - 提供精准导师匹配系统 根据学员研究方向、目标期刊和基础水平从300多名导师中筛选3-5位最契合人选 [17] - 辅导周期根据案例显示为2至4个月不等 例如有学员在2个月内完成SCI 2区论文 另有学员在4个月内完成顶会CVPR论文 [7] 目标客户与学员成果 - 目标客户包括在读计算机专业硕博生 有科研需求以提升职称或学术成就的人士 人工智能领域从业者以及计划考研申博留学的学生 [13] - 学员案例显示 一位研二学员在一年内发表3篇SCI论文 并成功申请博士和获得国家奖学金 [3] - 服务覆盖三维重建 relighting NVS SLAM 点云处理 VLA 机器人导航 计算机视觉等多个技术方向 [11] 附加价值与支持 - 优秀学员可获得清北 MIT等名校推荐信 或获推荐至实验室实习 表现突出者可直接内推至阿里达摩院 华为诺亚方舟等企业研发岗位 [18] - 提供全程班主任督学服务 跟进学习进度 并承诺导师匹配不满意可免费更换或退款 [16][18] - 服务包括导师实时互动 录播无限次回看 免费课后答疑以及24小时无时差上课支持 [14]
自动驾驶世界模型技术交流群成立了
自动驾驶之心· 2025-09-15 07:33
行业社群建设 - 自动驾驶行业成立世界模型技术交流群以促进技术交流 [1] - 社群专注于世界模型相关技术内容的讨论 [1]
具身大脑风云榜!盘一盘国内外具身大脑的灵魂人物们...
自动驾驶之心· 2025-09-15 07:33
文章核心观点 - 具身智能已成为全球焦点 国内外公司正积极开发机器人"大脑"系统 包括具身大模型和多模态感知决策系统 [2][3] 国内公司技术布局 - 自变量机器人聚焦通用具身大模型研发 以真实世界数据构建具备精细操作能力的通用机器人 [4] - 星海图成立于2023年 坚持端到端的具身通用大模型路线 成立不到两年完成8轮融资 [5] - 星海图推出WALL-A模型 为全球最大参数规模的具身智能通用操作大模型 能整合视觉 语言与运动控制信号 [5] - 星海图开源具身智能基础模型Wall-OSS 具备强大泛化性和推理能力 [5] - 优必选为全球人形机器人商业化领导者 拥有全栈自研能力包括运动控制和AI-Embodied系统 [6][9] - 优必选Thinker大模型在三大国际权威基准测试中斩获四项全球第一 显著提升机器人感知与规划能力 [9] - 智元机器人聚焦AI与机器人深度融合 推出启元大模型Genie Operator-1 任务成功率较市面模型提升32% [7][9] - 智元机器人建立"具身智脑"分层系统 包括云端超脑 大脑 小脑和脑干 形成完整控制体系 [9] - 银河通用构建三大技术壁垒 自主研发全球首个"通用具身大模型" 采用大脑+小脑协同框架 [8][9] - 银河通用推出GraspVLA模型 全球首个端到端具身抓取基础大模型 仅通过合成数据达到预训练能力 [9][13] - 千寻智能Spirit V1 VLA模型攻克柔性物体长程操作难题 实现自然语言指令驱动的复杂任务 [10][13] - 星动纪元研发端到端原生机器人大模型ERA-42 支持机器人完成超过100种动态任务 [11][13] - 逐际动力聚焦具身智能机器人研发 构建具身Agent开发工具链 推动多领域应用 [12][13] - 穹彻智能聚焦以力为中心的具身智能大模型 其Noematrix Brain 2.0新增实体概念学习能力 [14][16] - 智源研究院推出RoboBrain 2.0 以70亿和320亿参数实现感知 推理与规划能力统一 [15][16] 国外公司技术进展 - Figure AI致力于开发具备AI能力的人形机器人 解决劳动力短缺等问题 [17] - Figure AI推出Helix模型 采用独特双系统AI架构模仿人类直觉和思考的认知模式 [17] - Physical Intelligence专注于为机器添加高级智能 发布机器人基础模型π0和π0.5 [18][21] - 谷歌DeepMind推出Gemini Robotics模型 可直接控制机器人执行复杂任务 [19][21] - 谷歌DeepMind开发Gemini Robotics-ER 增强机器人对空间和物理世界的理解能力 [21] - 英伟达Eureka系统基于GPT-4打造 支持机器人实现30余种复杂动作 [20][25] - 英伟达GR00T N1开源模型采用双系统架构 实现接近人类的运动控制能力 [25] - Skild AI研发通用机器人操作系统Skild Brain 通过摄像头图像直接控制机器人动作 [22][25] - Covariant构建RFM-1模型 为世界上首个基于真实任务数据训练的80亿参数机器人大模型 [23][25] 知名研究团队成果 - Meta和CMU联合打造RoboAgent 采用多任务动作分块Transformer架构 [24][25] - 斯坦福李飞飞团队开发VoxPoser 利用VLM和LLM常识知识实现零样本机器人操纵 [24][25]
端到端再进化!用扩散模型和MoE打造会思考的自动驾驶Policy(同济大学)
自动驾驶之心· 2025-09-15 07:33
自动驾驶技术范式演进 - 端到端技术直接映射传感器输入到驾驶操作,跳过人为感知标注和层级信息损失,但现有方法面临多模态分布处理不足、生成平均化动作导致不安全行为的问题[2] - 强化学习方法能在不确定性下优化策略,但对数据需求极高、训练不稳定且难以扩展到高安全性真实道路场景[2] - 大模型如视觉-语言模型和视觉-语言-动作模型在场景理解和泛化能力表现不错,但实际连续控制中受推理速度慢、动作不连贯和安全性保障难度大的限制[2] 扩散模型在自动驾驶中的应用 - 扩散策略将动作生成视为逐步去噪过程,能更好表达多种驾驶选择并保持轨迹时序一致性和训练稳定性[3] - 扩散模型通过直接建模输出动作空间,为生成平滑可靠驾驶轨迹提供更强大灵活的思路,适合解决驾驶决策多样性和长期稳定性问题[3] - 在机器人控制领域,扩散策略已证明比传统模仿学习和强化学习方法更鲁棒稳定,将轨迹生成问题转变为生成式建模问题[12] 专家混合技术集成 - 专家混合技术通过按需激活少量专家,使模型在保持计算效率同时具备更强扩展性和模块化能力[3] - 在自动驾驶中,MoE被尝试用于多任务策略和模块化预测,但多数设计面向具体任务,限制专家复用性和灵活组合能力[3] - 将MoE融入扩散策略可构建抽象驾驶知识模块,实现真正面向端到端自动驾驶的知识驱动策略框架[15] 知识驱动扩散策略框架 - KDP框架结合扩散模型和MoE优点:扩散模型保证生成轨迹多样性和稳定性,MoE将专家组织成结构化知识单元如纵向控制、交互处理和横向规划[4] - 框架注重知识灵活复用和组合而非任务中心设计,实验证明在多样性、稳定性和泛化性上具有优势[4][6] - 采用端到端思路直接将驾驶环境观测生成控制动作,输入包括自车状态、LiDAR点云和高层导航指令,提供完整环境理解[18] 模型架构与性能 - 模型规模研究表明参数量与驾驶性能正相关:Giant模型1.559亿参数推理延迟81.61毫秒,成功率最高但仍满足实时要求[44][46][48] - 在匝道场景成功率100%零碰撞,交叉口场景成功率94%,环岛场景成功率90%,全面优于PPO-Lag、RPID和IBC基线模型[51][57] - 消融实验显示去除MoE路由器导致成功率下降约6%,移除知识正则化使80%计算集中在两个专家,减少扩散步数从100步到20步使成功率下降3%[54][55][56] 专家激活模式分析 - 时间维度激活呈现稀疏阶段性特点,激活峰值与驾驶任务关键阶段吻合:匝道场景中Expert 3负责纵向控制,交叉口场景Expert 1和5负责交互决策[62] - 场景层级专精与复用显示非均匀但非排他分布:Expert 3专精匝道、Expert 5专精交叉口、Expert 6和8专精环岛,Expert 1和4在多场景复用[64] - 稀疏专家路由机制具备较强环境适应性和知识组合能力,在未调优情况下能在多种复杂路况中平稳运行[70] 典型案例表现 - 匝道合流场景在卡车加塞前成功预判并平稳减速保持安全间距,展现稳定纵向控制能力[69] - 无保护左转场景在交叉口平稳减速等待安全间隙后完成左转,轨迹平滑自然[69] - 直行交互场景面对多车高速抢行动态调整策略确保安全通行[69] - 环岛三出口场景精准控制横向位置和角度,在高复杂度环岛中选择正确出口[69]
招聘几位大佬,打算共创平台(世界模型/模型部署)
自动驾驶之心· 2025-09-14 11:44
业务拓展计划 - 公司计划在国内外招募10名业务合伙人[2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发及硬件研发[2] 技术研究方向 - 重点关注大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶技术[3] - 涉及具身交互、联合预测、SLAM及3D目标检测领域[3] - 布局世界模型、闭环仿真3DGS、大模型部署与量化感知推理等前沿方向[3] 人才招募标准 - 要求应聘者来自QS200以内高校且具有硕士及以上学历[4] - 优先考虑拥有顶会论文发表记录的候选人[4] 合伙人待遇 - 提供自动驾驶行业资源共享包括求职、读博及出国留学推荐[5] - 设置丰厚的现金激励机制[5] - 开放创业项目合作与推荐机会[5]
Diffusion Model扩散模型一文尽览!
自动驾驶之心· 2025-09-14 00:04
扩散模型数学原理 朗之万采样与扩散模型基础 - 扩散模型本质是通过神经网络学习解常微分方程/随机微分方程的过程,核心是从随机噪声逐步生成目标数据分布[3] - 图像生成任务可视为从高维概率分布采样,朗之万采样通过分数函数(概率密度梯度)将随机噪声推向高概率区域[11] - 噪声项在朗之万采样中必不可少:无噪声会导致收敛到局部极大值(模式搜索),有噪声才能确保采样多样性并探索多模态分布[11][14][26] - 网络负责生成宏观结构和方向,噪声提供高频细节和纹理,两者结合产生真实感图像[11][26] 分数匹配与训练目标 - 通过高斯核密度估计(KDE)将离散分布连续化,获得可求梯度的分数函数:∇ₓlog pσ(x) = (μ_w(x) - x)/σ² [41][46][53] - 训练目标分为分数匹配和噪声预测两种等价形式:分数匹配直接预测梯度,噪声预测则估计添加的噪声,关系为 sθ(x_t, t) ≈ -(1/σ_t) · εθ(x_t, t) [64][65][66] - 方差爆炸(VE)和方差保持(VP)是两种主流噪声调度策略:VE让方差随时间递增最终变为高斯噪声,VP保持总方差不变[69][70] Flow Matching 框架 - Flow Matching 直接学习速度场而非分数函数,通过构造确定性流将先验分布传输到数据分布[144][145] - MeanFlow 学习平均速度场而非瞬时速度场,可实现一步生成(1-NFE),推理公式为 z₀ = z₁ - uθ(z₁, 0, 1) [105][107][111] - Rectified Flow 通过重流(reflow)技术拉直轨迹,使ODE可用单步欧拉求解,提升推理效率[94][97][98] - 与扩散模型对比:Flow Matching 不依赖高斯先验和边界分数,支持任意可采样分布[144][145] 分类器自由引导(CFG) - CFG 通过线性组合有条件和无条件预测增强控制效果:ū_t(x|y) = (1-w)u_t(x|∅) + wu_t(x|y),其中 w > 1 为引导尺度[179][183][184] - 训练时以概率 η 替换条件 y 为空集 ∅,统一学习有条件和无条件速度场[184][189] - 推导基于贝叶斯规则:∇log p(x|y) = ∇log p(x) + ∇log p(y|x),引导项放大分类器梯度[177][181][193] 概率流ODE统一框架 - 概率流ODE构建确定性生成路径:dX_t = [f(X_t,t) - ½g(t)²∇log p_t(X_t)] dt,其分布演化与SDE一致[148][158][164] - 分数匹配(SDE/ODE)和Flow Matching属同一家族,前者学分数再转速度,后者直接学速度场[148][151] - 扩散模型依赖高斯先验的原因:线性高斯SDE有闭式解,梯度易计算,且边界分数已知(∇log p₀(x) = -x)[133][134][143] 技术实现与优化 - 实现涉及雅可比向量积(JVP)计算,框架如Jax和Torch提供原生支持[115][122] - 损失函数设计避免EMA和stop_gradient,理论保证收敛性且训练稳定[120][121][125] - 采样效率通过平均速度场和直线轨迹优化,减少推理步数[98][105][111] 注:本文仅涉及扩散模型数学原理及算法框架,未包含风险提示、免责声明、评级规则等无关内容[3]
超高性价比3D扫描仪!点云/视觉全场景重建,高精厘米级重建
自动驾驶之心· 2025-09-14 00:04
产品核心定位与价值主张 - 产品定位为面向工业场景和教研场景的超高性价比手持三维激光扫描仪,旨在降低开发门槛,助力开发者快速掌握研发能力 [1] - 核心价值在于以多模态传感器融合算法实现厘米级精度的三维场景实时重构,提供高效实用的三维解决方案 [1] - 主打业内最优惠价格,基础版本首发价为19800元起,强调高度集成多传感器带来的高性价比 [5][9][57] 核心技术参数与性能 - 扫描性能达到每秒20万点云成图,测量距离为70米,支持水平360°全域覆盖,可处理20万平方米以上的大场景 [1][22][29][30] - 系统相对精度优于3厘米,绝对精度优于5厘米,采用微秒级同步技术实现多传感器数据融合 [22][34][35] - 设备集成高精度IMU(最高800Hz)、RTK(型号T-RTK UM982 Mobile)、激光雷达(型号Livox Mid-360)及深度相机(型号Intel D435i)等多种传感器 [13][23][34] 硬件配置与设计 - 采用轻量化设计,尺寸为14.2cm * 9.5cm * 45cm,重量为1.3kg(不含电池)至1.9kg(含电池),外壳为航空铝材质 [12][22] - 内置Intel N5095计算单元(4核2.0GHz,睿频2.9GHz),配备16GB内存和256GB存储(可拓展TF卡),运行Ubuntu 20.04系统并支持ROS [1][3][22] - 配备5.5英寸触控屏(分辨率1280x720)、高带宽网口、双USB 3.0接口及Micro SD卡槽,支持WIFI/蓝牙连接,提供灵活扩展空间 [1][12][16][23] 软件功能与数据处理 - 支持三维点云地图动态构建、色彩融合及实时预览,导出数据格式包括pcd、las、plv等多种通用格式 [22][27][42] - 提供快速建图、彩色点云建图、3D高斯数据采集(选配)等功能,支持离线与在线渲染模式 [6][7][43][50] - 软件操作设计为低门槛,一键启动即可执行扫描作业,扫描结果导出即用,无需复杂部署和繁琐处理 [1][5][42] 应用场景与兼容性 - 可广泛应用于大型园区、市政道路、隧道、森林、矿场等复杂室内外场景,精准完成三维场景地图构建 [38][39][46][49] - 支持跨平台集成,适配无人机、无人车、机械狗及人形机器人等多种负载平台,实现无人化作业 [1][44] - 在地理信息数据采集、城市规划、文物保护、工程施工等领域提供精准基础信息 [52][54] 产品版本与定价策略 - 提供四种版本:基础版(19800元)、深度相机版(23800元)、3DGS在线版(39800元,云服务续费5000元/月)、3DGS离线版(67800元) [57][58] - 各版本配套组件包括主机、软件、RTK配件、电池及相应采集模块,高端版本额外提供专业工程师培训支持服务 [58] - 购买后提供为期1年的售后服务,3DGS在线版赠送两个月云服务,离线版需客户自备高性能服务器或由公司另行提供 [58][60]
某新势力智驾组织架构即将迎来重大调整...
自动驾驶之心· 2025-09-14 00:04
公司组织架构调整 - 智驾组织架构将迎来重大调整 新部门正在敲定人员[2] - 多位元老级部门负责人相继离职 包括选择科研院校 筹备具身方向创业 继续在业内拼搏的核心人物[2] - 组织架构由原先四个二级部门划分为十个二级部门 结构更扁平 提供更多晋升机会[2] 技术路线分歧 - 业内对下一代量产方案技术路线出现明显分歧 VLA和世界行为模型(WA)两个流派争论激烈[2] - 公司声称中国真正做出VLA的只有自家企业 质疑其他公司仅做出"变形VLA"或"嫁接VLA"[2] - 世界行为模型(World-Action)被视为实现自动驾驶的终极方案 认为VLA路径取巧但非最终解决方案[4] 行业地位与影响 - 公司智驾方案去年取得巨大成功 跃升为业界标杆 多家企业跟随其方案[2] - 内部核心人物身价暴涨 遭遇其他公司高价挖角[2] - 组织架构调整旨在应对VLA量产优化 新车销量提升和外部环境变化等挑战[4] 人员变动与晋升 - 高管职位空缺成为竞争焦点 有限职位无法满足下属晋升需求[2] - 架构调整后形成更扁平化组织 为更多人员提供上升机会[2]
不管VLA还是WM世界模型,都需要世界引擎
自动驾驶之心· 2025-09-14 00:04
端到端自动驾驶定义 - 学习单一模型直接将原始传感器输入映射到驾驶场景并输出控制指令 取代传统模块化管道 [3] - 训练流程包括监督学习 模仿学习或强化学习 通过大量标注数据或奖励设计实现 [3] - 涵盖当前VLA和世界模型等技术方向 属于自动驾驶算法最广概念 [6] 技术发展路线 - 从20多年前黑白图像输入起步 经历条件模仿学习 泛化 可解释性网络等阶段 [8] - 当前处于1.5代端到端自动驾驶阶段 基于基础模型解决长尾问题 [10] - 分化出两大分支:世界模型分支(扩散管道/视频生成模型)和VLA分支(大型语言模型应用) [11] 世界模型分支技术 - 包含Drive Dreamer Cosmos Predict One和导航世界模型等具体应用 [11] - Gaia 2作为视频生成模型 利用多视图图像预测不同类型视频 提升驾驶安全性与自动化 [11] - 通过多模态动作预测实现真实感和多样性生成 [11] VLA分支技术 - Java LM采用"草图维基"方式增强驾驶场景理解 [11] - Lingo Tool和Job VRM利用基础模型提升准确性 但存在延迟较高问题 [11] - 通过大小模型协同工作预测多数情况 优化系统性能 [11] 部署挑战与数据需求 - 需要处理大量生产问题和工程工作 进入第二代发展阶段 [14] - 特斯拉FSD追踪器显示MPI指标年度增长 数据量增加使模型持续优化 [18] - 剩余20%长尾问题需海量数据 危险案例收集成本昂贵且可能危及生命 [18] 世界引擎解决方案 - 通过极端情况生成和安全关键场景构建 大幅降低数据收集成本 [21] - 包含数据引擎和算法引擎 生成大量训练场景并改进端到端算法 [24] - 通过环境交互与行为建模 实现从失败中学习并优化规划器 [21] 技术路径对比 - 世界模型概念覆盖范围更广但实施存在不确定性 [25] - VLA被视为更切合实际的技术路径 世界模型为终极目标 [25] - 需警惕概念包装与实际技术内容不符的情况 [25]