VLA
搜索文档
开放几个自动驾驶技术交流群(世界模型/端到端/VLA)
自动驾驶之心· 2025-10-14 07:33
技术交流社群 - 自动驾驶行业成立了专注于前沿技术方向的技术交流群 [1] - 技术交流群覆盖世界模型、端到端、VLA等当前行业重点研究方向 [1]
工业界大佬带队!三个月搞定端到端自动驾驶
自动驾驶之心· 2025-10-13 07:33
端到端自动驾驶行业趋势 - 2023年是端到端量产的元年,2025年将是端到端量产的大年,目前头部新势力和主机厂均已实现端到端量产 [1] - 工业界存在一段式和两段式两种主要范式,一段式代表为UniAD,直接从传感器输入建模自车轨迹输出,二段式则基于感知结果进一步输出自车和他车轨迹 [1] - 自2024年以来,一段式端到端发展迅速,衍生出基于感知、世界模型、扩散模型和VLA等多种一段式方法 [3] 主流企业技术布局 - 主流自动驾驶企业,包括智驾方案供应商和车企,均在发力端到端自动驾驶的自研量产 [3] - 端到端与VLA技术栈涉及BEV感知、视觉语言模型、扩散模型、强化学习等核心内容,是学术界和工业界最前沿的技术方向 [5] 端到端技术核心内容 - 二段式端到端领域涌现出经典算法PLUTO、CVPR'25的CarPlanner以及最新工作Plan-R1等优秀成果 [10] - 一段式端到端子领域包括基于感知的UniAD、基于世界模型的Drive-OccWorld与OccLLaMA、基于扩散模型的DiffusionDrive与DiffE2E,以及基于VLA的ORION与OpenDriveVLA [12][14] - 基于VLA的端到端方法被视为目前端到端自动驾驶的皇冠,上限高且业内招聘需求旺盛,是业界预研的新一代量产方案 [14] 关键技术发展动态 - 扩散模型思想自2024年下半年被引入多模轨迹预测,相比单模轨迹能更好适应自动驾驶不确定环境,并可与其他方法结合实现VLA [14] - 世界模型应用广泛,不仅可用于场景生成、端到端,还可用于闭环仿真,是近两年非常热的技术方向 [14] - VLA技术融合了VLM、BEV、扩散模型、强化学习等多种技术,是端到端发展的前沿 [14]
学术界和工业界都在如何研究端到端与VLA?三个月搞定端到端自动驾驶!
自动驾驶之心· 2025-10-09 12:00
自动驾驶端到端算法技术趋势 - 端到端算法是当前自动驾驶量产的核心算法 技术栈丰富 主要分为一段式和两段式两大范式 [1] - 一段式范式以UniAD为代表 直接从传感器输入建模自车轨迹输出 两段式则基于感知结果进一步输出自车和他车轨迹 [1] - 一段式端到端算法衍生出多个子领域 包括基于感知 基于扩散模型 基于世界模型以及基于VLA的算法 其中基于VLA的算法相关论文正爆发式发表 工业界也在争先量产 [1] 前沿技术栈构成 - 核心算法涉及BEV感知 视觉语言模型 扩散模型 强化学习 世界模型等多项前沿技术 [3] - 通过学习端到端与VLA自动驾驶 可以掌握学术界和工业界最前沿的技术方向 [3] 自动驾驶VLA与大模型实战课程 - 课程聚焦VLA领域 内容涵盖从VLM作为自动驾驶解释器开始 到模块化VLA 一体化VLA 以及当前主流的推理增强VLA [3] - 课程配套理论基础梳理 包括Vision/Language/Acition三大模块 强化学习 扩散模型等基础 [3] - 课程设有专门的大作业章节 指导学员从零搭建自己的VLA模型及数据集 [3] 课程师资团队 - 师资团队包括来自清华大学等高校的硕士生和博士生 在ICCV IROS EMNLP等国际顶级会议发表多篇论文 [7][9] - 团队成员研究方向涵盖多模态感知 自动驾驶VLA 大模型Agent等前沿领域 拥有丰富的研发和实战经验 [7][9] - 部分成员长期维护GitHub开源项目 总Star数已超过2k 具备扎实的研发能力 [7] 端到端与VLA自动驾驶课程 - 该课程由工业界专家带队 聚焦端到端自动驾驶宏观领域 梳理一段式/两段式方向的重点算法和理论基础 [10] - 课程详细讲解BEV感知 大语言模型 扩散模型和强化学习 并设计两大实战项目 基于扩散模型的Diffusino Planner和基于VLA的ORION算法 [10] - 课程讲师为国内TOP主机厂算法专家 拥有端到端 大模型 世界模型等前沿算法的预研和量产经验 并主持完成多项算法的产品量产交付 [10] 目标学员要求 - 学员需自备GPU 推荐算力在4090及以上 [13] - 要求学员具备一定的自动驾驶领域基础 熟悉基本模块 并了解transformer大模型 强化学习 BEV感知等技术的基本概念 [13] - 学员需具备一定的概率论和线性代数基础 熟悉常用数学运算 并具备一定的python和pytorch语言基础 [13]
从机械臂到人形,跨构型VLA如何破局?
具身智能之心· 2025-10-09 08:04
VLA-Adapter技术突破 - 机械臂视觉语言到动作范式的深刻反思,直击VLA伪规模化问题,核心目标是直接从视觉语言模型特征映射到动作空间,减少对机器人预训练数据的依赖[3] - 研究发现参数增加和机器人数据引入并未提升模型性能,关键在于忽略了视觉语言如何迁移到动作的机制探究[3] - 提出全新映射方案,在0.5B参数级别下性能超越经过大量数据预训练的更大量级骨干模型,显著降低训练成本和入门门槛[3] TrajBooster技术创新 - 首个全身人形操作VLA方案,解决双足人形全身操作任务训练数据稀缺难题,跨本体构型高效利用数据[7] - 以轨迹为中心实现跨本体数据高效利用,仅需10分钟真机遥操数据微调即可实现VLA在双足人形机器人上的全身操作[7] - 是目前业内唯一全开源的涵盖人形数据采集、跨本体数据增强、VLA模型训练及硬件部署全流程的工作[13] 研究团队与项目影响力 - 研究团队OpenHelix Team累计Github star近2k,VLA-Adapter项目两周收获700+star,HuggingFace Trend唯一在榜机器人工作[13] - 团队长期致力于推动具身智能和VLA模型前沿研究,特别是在VLA基座构建,使其更好与物理世界交互[13] - TrajBooster项目基于原OpenWBC项目,是业内唯一全开源的全流程人形机器人VLA解决方案[13]
自动驾驶Ask Me Anything问答整理!VLA和WA的路线之争?
自动驾驶之心· 2025-10-09 07:33
自动驾驶技术发展现状与路径 - 特斯拉在自动驾驶体验和效果上被多位专家认为是行业领先者 [9][14] - L4级别自动驾驶已由Waymo和萝卜快跑实现,但L5级别可能还需至少5年时间 [4] - 端到端模型已能解决约90%的驾驶问题,特斯拉将其做到极致,安全性基本得到保证 [5] 技术路线与核心模型 - 视觉语言动作模型被认为是自动驾驶的终局方案,因其能利用语言模态进行推理,处理需要认知推理的长尾问题 [5][6] - 世界模型是对物理空间和运行规律的更本质建模,但技术难度更大 [9] - 端到端模型存在多种架构:一段式端到端、一段式模块端到端以及OneModel端到端 [11][12] 关键技术与传感器 - 4D毫米波雷达被视为纯视觉系统的良好冗余,当系统复杂度达到几千几万MPI时冗余的重要性凸显 [5] - 激光雷达在成本下降后与纯视觉方案相比无明显劣势,提供精确距离感知冗余的融合方案可能是终极方向 [17] - 语言模态对于自动驾驶至关重要,缺乏语言推理能力将导致车辆无法理解世界而出错 [5] 人才与专业发展 - 人工智能是未来研究自动驾驶的首选专业方向,因自动驾驶问题可能在4年内基本解决,但AI方向长期正确 [4] - 对于职业发展,建议先进入大型智驾公司培养体系化工程思维,机器人领域在产品化和工程成熟度上仍处于探索阶段 [16] 市场与区域对比 - 中国智能驾驶发展态势远优于国外市场,目前除特斯拉外,没有国外智驾方案能在中国市场发布 [10] - 国内公司与特斯拉的差距主要体现在算法和软件工程的流程规范上,但从用户体验角度看差距不大 [14][15] 机器人及具身智能 - 在机器人领域,实用功能的发展速度和商业价值远高于身体协调性和美感 [7] - 大模型背景的研究人员转向具身智能领域相对容易,真正的竞争力在于模型规模、创新和真机跨本体泛化能力 [5]
我们正在找具身领域的合伙人......
具身智能之心· 2025-10-08 10:49
文章核心观点 - 公司面向全球具身智能领域从业者发出合作邀请,旨在通过多方协作推动行业进步 [1] - 合作旨在响应市场对公司在方案、数据采集、技术升级及企业培训等方面赋能的诉求 [1] 合作方向 - 技术方向涵盖VLA、VLN、Diffusion Policy、强化学习、VLA+RL、遥操作、动捕、sim2real、多模态大模型、仿真、运动控制、端到端、3D感知等前沿领域 [3] - 合作岗位涉及具身课程开发、方案研发、硬件研发以及面向B端(企业、高校、研究院所)和C端(学生、求职人群)的培训合作 [4] 合作模式与资源 - 公司将提供高额酬金与丰富的行业资源作为合作回报 [2] - 具体合作领域包括技术服务、培训、课程开发与科研辅导等 [1]
自动驾驶之心招募合伙人啦!4D标注/世界模型/模型部署等方向
自动驾驶之心· 2025-10-04 12:04
业务拓展计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发以及硬件研发 [2] 重点技术方向 - 招募方向聚焦于大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶 [3] - 其他关键技术领域包括具身交互、联合预测、SLAM、3D目标检测 [3] - 世界模型、闭环仿真3DGS、大模型部署与量化感知推理也是重点方向 [3] 合伙人资质要求 - 候选人需毕业于QS200以内高校并拥有硕士及以上学历 [4] - 拥有顶级学术会议成果的候选人将获得优先考虑 [4] 合伙人待遇与资源 - 提供自动驾驶领域的资源共享,包括求职、读博、出国留学推荐等 [5] - 合伙人将获得丰厚的现金激励 [5] - 提供创业项目合作与推荐机会 [5]
最后1个名额,即将开课!VLA方向1v6论文辅导来啦~
具身智能之心· 2025-09-30 09:46
最近有同学后台留言,刚开学导师跨行做具身,让自己先去摸索下,最好能产出论文和项目。没有基础最快能 多久出论文? 针对跨行或者新入门的同学,我们一直建议先把基础打好。然后找一些研究价值比较大的领域突破。特别是有 一定的工作基础、数据基础的领域,如果完全不成熟,没有人同行后期科研的难度很大。 从今年各个机器人与AI顶会来看,VLA及其相关衍生方向,占据了近一半的具身产出。特别是长程操作、泛 化、少样本、VLA+RL、人形相关。如果有同学不知道怎么选择方向,可以多关注这个领域!具身智能之心最 近也出品了一套1v6的科研辅导论文课程,也欢迎关注报名。 那么VLA是什么? 想象一下,如果能通过语言下达指令,并且丝滑执行任何你想要的动作,是一件多么幸福的事情!如果能长时 间连续动作完成,将会非常方便。下面给大家介绍下VLA到底是啥? VLA打破了传统方法的单任务局限,使得机器人能够在多样化的场景中自主决策,灵活应对未见过的环境, 广泛应用于制造业、物流和家庭服务等领域。此外,VLA模型已成为研究热点,推动了多个前沿项目的发 展,如pi0、RT-2、OpenVLA、QUAR-VLA和HumanVLA,这些研究促进了学术界与 ...
地瓜精酿馆开张大吉:碰杯VLA观点,互诉机器人信仰|地瓜机器人x锦秋基金
锦秋集· 2025-09-29 21:14
9月24日晚,地瓜机器人与锦秋基金联手邀请来30 余位 「机器人头号玩家」 ,在杭州举办了一场机器人精酿Party。 来自 地瓜机器人 生态负责人胡春旭、云平台负责人秦玉森、算法负责人隋伟、锦秋基金合伙人臧天宇、锦秋基金投资副总裁Cindy、阿里云生态负责人 陈博 、 X-Man科沃斯蒲公英加速器总经理赵文景 空降现场,一起和科技大厂产品达人、技术专家、创业先锋们微醺开聊 "机器人的新一代故事" 。 现场机器人玩家们硬核开麦, 开发者们灵感捧杯 到我的客 杯精酿互诉机器 会 门对小对物 # # 地瓜机器人 醫 锦秋基金 ir ans and 12 12 statis 杯精酿互诉机器人信 杯里有精酿,哪里有 H El B 精蛋TE 地瓜机器人 鲨 锦桃基金 杯精酿互诉机器人信仰 I 力校准液制作中 # # 地瓜机器人 器 锦秋基金 同时,锦秋基金就现场大家对 VLA 不同观点的讨论,做了以下记录 挑战派 两条腿走路:上层大模型负责理解/任务分解,底层RL/规控负责约束满足与实时稳定;协同进化。 自主数据生成与仿真增强:用RL+物理仿真(动力学/碰撞/库伦摩擦)造数据、学策略,提高泛化;像"孩子学走路"靠自我试错 ...
工业界大佬带队!三个月搞定端到端自动驾驶
自动驾驶之心· 2025-09-29 16:45
端到端自动驾驶行业趋势 - 2023年是端到端量产的元年,2024年将是端到端量产的大年,目前头部新势力和主机厂均已实现端到端量产 [1] - 工业界存在两种主要范式:一段式(如UniAD)直接从传感器输入建模自车轨迹输出,二段式则基于感知结果进一步输出自车和他车轨迹 [1] - 自2023年以来,一段式端到端发展迅速,衍生出基于感知、世界模型、扩散模型和VLA等多种方法,主流自动驾驶企业和车企均在发力自研量产 [3] 端到端与VLA技术核心 - 端到端与VLA涉及的核心技术栈包括BEV感知、视觉语言模型、扩散模型和强化学习等,代表了学术界和工业界最前沿的技术 [5] - 基于扩散模型输出多模轨迹是当前学术界和工业界追捧的热点,多家公司正在尝试落地 [11] - 视觉大语言模型相关的强化学习技术是重点,包括RLHF和GRPO等 [11] 课程内容与结构 - 课程涵盖二段式端到端与一段式端到端前沿算法的细致讲解,内容均为工业界和学术界的Baseline [5] - 第一章介绍端到端自动驾驶发展历史、概念起源及从模块化到端到端的演变,分析一段式、二段式及VLA范式的优缺点 [9] - 第二章重点讲解端到端涉及的背景知识,包括大语言模型、扩散模型、强化学习及BEV感知,为后续章节奠定基础 [9] - 第三章聚焦二段式端到端,解析经典算法PLUTO、CVPR'25的CarPlanner及最新工作Plan-R1,并对比其与一段式端到端的优缺点 [10] - 第四章为课程精华,深入讲解基于感知、世界模型、扩散模型及VLA的一段式端到端子领域 [12] - 第五章大作业为RLHF微调实战,涵盖预训练模块和强化学习模块的搭建与实验,该技术可迁移至VLA相关算法 [13] 技术细分领域进展 - 基于世界模型的方法应用广泛,可用于场景生成、端到端及闭环仿真,是近两年热门技术方向 [14] - 基于扩散模型的方法自2023年下半年兴起,通过输出多模轨迹更好地适应自动驾驶不确定环境,代表性工作包括DiffusionDrive、Diffusion Planner和吉大的DiffE2E [14] - 基于VLA的方法是端到端自动驾驶的皇冠,上限高且难度大,业内招聘需求旺盛,代表性工作包括小米的ORION、慕尼黑工大的OpenDriveVLA及最新的ReCogDrive [14] 行业影响与人才需求 - 学习端到端与VLA自动驾驶可掌握最前沿技术栈,第二章内容是未来两年求职面试频率最高的技术关键词 [10] - 完成课程期望能达到1年左右端到端自动驾驶算法工程师水平,掌握技术框架并对BEV感知、多模态大模型等关键技术有更深刻了解 [19] - 课程面向具备自动驾驶基础、熟悉Transformer大模型、强化学习、BEV感知等基本概念,并有一定数学和编程基础的学员 [18]