Workflow
ORION
icon
搜索文档
清华教研团队!两个月从零搭建一套自己的自动驾驶VLA模型
自动驾驶之心· 2025-09-28 15:21
端到端之后,学术界和工业界聚焦的方向是什么?无疑是VLA。VLA提供了类人思考的能力,把车辆决策的过程通过思维链的形式展现出来,从而提供 更可靠更安全的自动驾驶能力。 自动驾驶VLA目前可以分为模块化VLA、一体化VLA和推理增强VLA三个子领域。 自动驾驶VLA涉及的核心内容包括视觉感知、大语言模型、Action建模、大模型部署、数据集制作等等。最前沿的算法包括CoT、MoE、RAG、强化学 习。通过学习VLA,可以让自己对自动驾驶的感知系统有更深刻的认知。 为此我们联合 清华大学的教研团队 开展了这门《自动驾驶VLA与大模型实战课程》!课程包含自动驾驶VLA三个子领域前沿算法的细致讲解,并会配 备两个实战及一个课程大作业深入理解自动驾驶VLA。 扫码报名!抢占早鸟名额 讲师介绍 咖喱,清华大学硕士生 :在ICCV/IROS/EMNLP/Nature Communications发表论文若干篇。目前从事多模态感知、自动驾驶VLA、大模型Agent等前沿算 法的预研,并已主持和完成多项自动驾驶感知和大模型框架工具,拥有丰富的自动驾驶、大模型研发和实战经验。 从技术的成熟度及就业的需求来看,自动驾驶VLA是各家 ...
论文解读之港科PLUTO:首次超越Rule-Based的规划器!
自动驾驶之心· 2025-09-16 07:33
在端到端自动驾驶领域,这篇文章是一个典型的"两段式网络架构"中的Planner模型,而且它不是基于BEV feature map进行下游控制任务的,而是直接对于感知输出 的结构化的信息(bbox,lanes等等)进行编码,并作为sequence token输入到decoder中,今天就为大家分享一下。二段式端到端非常适合新人练手: 为了帮助大家理解,网络架构图上我们做了详细的模块注释: 我们先整体上看一下PLUTO有哪些关键点: PLUTO主要有三个损失,主任务的损失包含回归损失和分类损失,共同组成模仿学习的损失。而Agent轨迹预测的损失如下图所示: 同时,PLUTO也添加了几个辅助的损失帮助模型收敛: 1)直击痛点,快速入门 本课程基于Just-in-Time Learning理念,通过通俗易懂的语言和案例,帮助学员短时间内掌握核心技术栈。理解关键概念后,拓展特定领域知识将变得更加轻松。 2)构建领域框架,提升研究能力 本文均出自平台最新推出的 『端到端与VLA自动驾驶小班课』 ,我们联合国内TOP主机厂算法专家共同打造! 技术专家带你深入端到端与VLA算法原理与技术开 发,目前已经正式开课! 技术栈多? ...
闭环端到端暴涨20%!华科&小米打造开源框架ORION
自动驾驶之心· 2025-08-31 00:03
核心观点 - 端到端自动驾驶框架ORION通过视觉语言指令指导轨迹生成 解决了现有方法在语义推理空间与数值轨迹动作空间之间的鸿沟问题 在闭环评测中表现卓越 [3][5][16] 技术架构 - 引入QT-Former模块聚合长期历史上下文信息 减少计算开销并增强对静态交通元素和动态物体运动状态的捕捉能力 [3][20] - 利用视觉语言大模型(VLM)进行驾驶场景多维度分析 包括场景描述 关键物体行为分析和动作推理 并生成规划token指导轨迹预测 [3][21] - 通过生成模型(VAE或扩散模型)将VLM推理空间与轨迹动作空间对齐 实现视觉问答和规划任务的端到端统一优化 [3][22] 性能表现 - 在Bench2Drive闭环测试中驾驶得分达77.74分 成功率54.62% 较之前SOTA方法提升14.28分和19.61个百分点 [5][24] - 在多能力评估中超车场景成功率71.11% 紧急刹车78.33% 交通标志识别69.15% 平均能力值54.72%领先其他方法16.12个百分点 [26][27] - 效率指标151.48 舒适度17.38 平均L2误差0.68 在开环指标中保持竞争力 [25] 创新贡献 - 首次实现VLM与生成模型结合 弥补语义推理与数值动作空间差距 [16] - 支持多种生成模型兼容 展现框架灵活性和可扩展性 [16] - 提供端到端联合优化方案 突破传统方法在因果推理和时序建模方面的限制 [3][30] 应用案例 - 成功识别自行车骑行者并执行向左变道避撞操作 [7] - 准确识别停车标志并完成停车-等待-重启通过十字路口系列动作 [9] - 对右前方车辆先减速后变道的分层决策演示 [14]
THEON announces new strategic US and European investments and partnerships to build global leadership in Digital and Augmented Reality defense optronics domain under the THEON NEXT initiative
GlobeNewswire News Room· 2025-08-12 07:12
文章核心观点 - THEON国际公司宣布启动THEON NEXT计划 通过四项战略投资与合作建立下一代士兵系统开发平台 重点布局数字和增强现实解决方案领域 强化公司在单兵光电系统的全球领导地位 [1][2][3] 战略投资与合作协议 - 向Kopin公司投资1500万美元 包括700万美元可转换贷款(转换股价区间3-4.5美元)和800万美元资本注入获得其苏格兰子公司49%股权 共同成立欧洲合资企业负责AR系统和微LED显示器的非美地区生产分销 [3] - 与eMagin签订可续签的两年最低供应协议 该公司为军用航空、夜视和AR/VR应用提供高分辨率OLED微显示器 是公司A.R.M.E.D产品线主要显示器供应商 [7] - 与ALEREON达成战略合作 集成其超宽带无线通信技术至A.R.M.E.D产品线 在希腊生产并作为其在欧洲和中东地区主要合作伙伴推广该技术 [8] - 向芬兰Varjo公司投资500万欧元可转换贷款 另享有同等条件追加500万欧元投资期权 共同开发军用级VR/MR训练模拟技术 [9] 技术发展重点 - 增强与虚拟现实软件作为下一代士兵系统基础 实现沉浸式态势感知和实时数字叠加 [5] - 微显示器技术聚焦欧美微LED技术开发 用于视觉增强系统 [5] - 近距无线连接技术实现装备无缝集成与实时数据传输 [5] 运营布局 - THEON美国子公司将工业及产品开发业务转移至Kopin弗吉尼亚州雷斯顿工厂 该基地将成为公司AR及数字光电产品美国制造中心 [4] - 未来五年在美国投入800万美元支持与Kopin的合作运营 [4] - 合作网络覆盖美国、英国、芬兰、希腊 并计划扩展至德国和比利时欧盟热成像/数字中心 [10] 财务影响 - 当前投资总额2500万欧元 预计2-5年内通过产品功能增强、价格定位优化及合作企业增长快速收回投资 [10] - 可转换贷款机制允许将开发资金转换为股权 可能对未来财务业绩产生积极影响 [10] 行业合作意义 - 合作体现欧美防务技术跨大西洋合作趋势 通过整合Kopin微显示器、eMagin OLED、ALEREON无线通信及Varjo VR/MR技术 构建互联AR士兵系统技术框架 [2][8][9][11] - 合作伙伴确认技术协同效应:Kopin强调微显示器与光电系统整合、eMagin注重图像质量提升、ALEREON认可国际业务网络、Varjo看重国防领域经验 [11]
自动驾驶端到端VLA落地,算法如何设计?
自动驾驶之心· 2025-06-22 22:09
自动驾驶VLA模型研究进展 - 端到端自动驾驶已成为主流范式 视觉-语言-动作(VLA)方法伴随具身智能兴起 相关论文横扫前沿领域 [2] - 主机厂如理想 文远知行 小米 小鹏等都在大力尝试VLA技术量产落地 [2] - 学术界和工业界涌现AutoVLA ReCogDrive等优秀工作 关注自适应推理 强化微调等方向 [3][7][9] 关键技术突破 - AutoVLA统一推理和动作生成 采用双重思维模式(快速/慢速思维)和GRPO强化微调方法 [3][4] - ReCogDrive采用三阶段训练框架 集成VLM与扩散规划器 PDMS达89.6创SOTA [7][9] - DriveMoE引入混合专家架构 包含场景专用视觉MoE和技能专用动作MoE 处理罕见驾驶行为 [19][21][22] - OpenDriveVLA通过分层视觉语言对齐和代理-环境-自我交互过程 实现轨迹规划SOTA [28][30][32] 数据集与基准 - Impromptu VLA数据集含8万+视频片段 覆盖4类非结构化场景 显著提升模型性能 [14][18] - DriveAction基准含16185个QA对 直接关联驾驶操作 支持全面评估VLA模型 [23][24] - 行业亟需更多高质量VLA基准 当前工作多基于nuScenes Bench2Drive等有限数据 [47] 行业应用趋势 - VLA模型输出形式向多模轨迹生成发展 文本输出逐渐被替代 [47] - 大规模自动驾驶预训练模型仍欠缺 多数工作依赖Qwen等开源模型 [47] - 时序处理能力待加强 需适配车端实时性要求 [47] - 小米 博世 清华等机构积极布局VLA研发 形成产学研协同 [7][14][19][28] 性能对比 - AutoVLA在nuPlan等基准上PDMS达92.12 碰撞率低于1% [5] - ReCogDrive在NAVSIM基准PDMS达89.6 超越前SOTA 5.6分 [9][10] - DriveMoE在Bench2Drive紧急刹车等场景能力提升显著 均值达47.91% [22] - OpenDriveVLA-7B在nuScenes开环规划L2误差仅0.66m 优于GPT-3.5等基线 [31]