Workflow
VLA
icon
搜索文档
别造轮子了!原力灵机开源Dexbotic:迈向具身智能的一站式VLA工具箱
具身智能之心· 2025-10-22 14:02
文章核心观点 - Dexmal原力灵机推出了Dexbotic开源工具箱,旨在解决具身智能领域VLA模型开发中存在的框架碎片化、复现困难、资源门槛高等问题,通过提供统一的数据格式、模块化模型架构和高效的实验层设计,推动行业从“碎片化探索”进入“协同创新”新阶段 [1][4][7][29] Dexbotic框架概述 - Dexbotic是一个集成了主流VLA模型的通用易扩展开源工具箱,涵盖操作策略和导航策略,支持云端与本地一体化训练及全链路机器人训练部署 [1][2] - 该框架以“统一VLA架构”为核心,构建了从数据处理到模型开发再到实验落地的全链路解决方案,被类比为具身智能领域的“mmdet时刻” [7] 行业痛点与解决方案 - 当前VLA研究落地受限于碎片化问题,不同团队采用各异框架导致模型对比和复现效率低下,且多数模型无法充分利用最新LLM的强大表征能力 [1][4] - Dexbotic通过统一的模块化VLA框架解决了上述痛点,其设计贴合开发者视角,大幅降低操作门槛 [7][24] 数据层:Dexdata格式 - Dexbotic设计了Dexdata格式来实现多源数据的高效统一,该格式由“视频目录+jsonl目录”组成,大幅节省了模型训练的存储成本 [9][10] - 相较于其他框架的数据格式,Dexdata为多机器人的训练与部署提供了统一数据基础,对个人开发者非常友好 [10] 模型层:DexboticVLM - 模型层以DexboticVLM为核心基础模型,采用“视觉编码器+投影器+LLM”的经典结构,训练流程参考LLaVA [11] - 框架提供两类预训练模型:面向通用VLA策略的离散预训练模型和面向特定策略的连续预训练模型,以满足不同机器人场景需求 [11] 实验层:高效开发支持 - 实验层采用“基础脚本+参数继承”的设计思路,让算法对比、模型迭代效率提升50%以上,完全贴合开发者的实际操作习惯 [11] - 该层支持云端与本地消费级GPU的训练与推理,兼顾高校、企业等不同用户的算力需求 [11][25] 性能表现与基准测试 - 在SimplerEnv benchmark中,DB-CogACT较官方CogACT平均成功率提升18.2%,DB-OFT较官方OpenVLA-OFT提升46.2% [21][22] - 在长任务场景CALVIN benchmark中,DB-CogACT的平均任务完成长度达4.06,较官方版本提升0.81 [21][22] - 即使是已达SOTA的MemoryVLA,在Dexbotic预训练模型加持下也实现了性能提升 [21] 部署与应用支持 - Dexbotic提供全链路机器人训练与部署支持,针对UR5、Franka、ALOHA等主流机器人,已实现多项日常任务的高成功率 [27][29] - 框架采用模块化设计,将所有VLA策略统一拆分为“VLM+动作头”两部分,为算法开发人员自定义策略提供了灵活扩展空间 [15] 开源计划与社区建设 - Dexbotic已开源部分预训练模型和策略,并公布了详细的开源计划表,未来将持续扩展支持的机器人平台 [15][18][27] - 公司同时开源了硬件产品DOS-W1,采用完全开源的硬件设计和快拆结构,以软硬协同方式推进具身领域发展 [30][32]
自驾行业完整的基建,更值得毕业的同学做探索!
自动驾驶之心· 2025-10-17 08:03
自动驾驶行业现状与前景 - 自动驾驶行业技术形态开始收敛,但产品形态尚未收敛,仍有许多值得打磨之处 [1] - 行业对计算资源的投入巨大,达到万卡级别,在基建、数据闭环及云端工具链成熟度方面具有优势 [1] - 业内主流在打磨L2功能,L3法规在路上,L4还有更多悬而未决的问题 [1] - 世界模型和VLA(Vision-Language-Action)等技术路线理论部分趋于完善,但落地和用户体验提升仍有长路要走 [1] - 行业更适合硕士和博士将学术探索直接落地,因其拥有完整的基建 [1] - 真正留在行业内的主力是技术栈丰富的综合型人才,洗牌是早晚的事情 [2] 自动驾驶之心知识星球社区 - 社区是一个集视频、图文、学习路线、问答、求职交流为一体的综合类自动驾驶社区 [4] - 社区目前已有超过4000名成员,期望未来2年内做到近万人规模 [4][5] - 社区汇总了40多个技术方向的学习路线,并邀请了数十位活跃在一线的产业界和学术界大佬作为嘉宾 [7][10] - 社区提供岗位内推机制,与多家自动驾驶公司建立了合作 [11] - 社区成员来自上海交大、北京大学、CMU、清华大学等国内外知名高校,以及蔚小理、地平线、华为等头部公司 [16] - 社区内部梳理了近40个开源项目、近60个数据集及行业主流仿真平台 [17] 社区技术资源覆盖范围 - 技术方向覆盖感知、规划控制、仿真、端到端自动驾驶、VLA、世界模型、多传感器融合、BEV感知、3D目标检测等40多个领域 [10][17][27] - 提供包括“自动驾驶100问系列”在内的实战问答,涵盖TensorRT模型部署、毫米波雷达融合、车道线检测等主题 [10] - 社区内部有原创直播课程,涵盖感知融合、多传感器标定、SLAM与高精地图、决策规划等多个系列视频教程 [11] - 汇总了国内外自动驾驶与机器人高校实验室、自动驾驶公司、开源项目及开源数据集 [28][30][34][36] 行业热点与技术趋势 - 端到端自动驾驶是学术界和工业界的研究热点,社区详细梳理了一段式、二段式、量产方案及VLA相关算法 [38] - 3DGS与NeRF、自动驾驶世界模型、视觉语言模型(VLM)、自动驾驶VLA是当前前沿领域 [40][42][44][46] - BEV感知是当下量产的基石,扩散模型是与世界模型、大模型结合的研究热点 [50][52] - 社区内部有超过一百场专业技术直播,分享内容涵盖VLA、V2X、3D检测、大模型等最新工作 [90]
工业界和学术界都在怎么搞端到端和VLA?
自动驾驶之心· 2025-10-17 08:03
端到端自动驾驶技术趋势 - 端到端算法是当前自动驾驶量产的核心算法,技术栈丰富,业内主要存在一段式和两段式两大类范式 [1] - 一段式范式以UniAD为代表,直接从传感器输入建模自车轨迹输出,而二段式则基于感知结果进一步输出自车和他车轨迹 [1] - 一段式端到端算法可进一步延伸出基于感知、扩散模型、世界模型以及视觉语言模型(VLA)等多种子领域,尤其是基于VLA的算法相关论文正爆发式发表,工业界也在争先量产 [1] 自动驾驶VLA与大模型技术 - 核心算法涉及BEV感知、视觉语言模型(VLM)、扩散模型、强化学习、世界模型等,代表了学术界和工业界最前沿的技术方向 [3] - 自动驾驶VLA与大模型实战课程聚焦VLA领域,内容涵盖从VLM作为自动驾驶解释器,到模块化VLA、一体化VLA,以及当前主流的推理增强VLA [3] - 课程配套理论基础梳理,包括Vision/Language/Action三大模块、强化学习、扩散模型等,并设有大作业章节指导从零搭建VLA模型及数据集 [3] 课程师资与团队 - 课程教师团队包括来自清华大学等顶尖院校的研究人员,在ICCV、IROS、EMNLP等国际顶级会议发表多篇论文,研究方向涵盖多模态感知、自动驾驶VLA、大模型Agent等前沿领域 [8][11] - 教师团队具备丰富的自动驾驶、大模型研发和实战经验,例如有教师主持完成多项自动驾驶感知和大模型框架工具,其维护的开源项目总Star数超过2k [8] - 工业界教师团队包括来自国内顶级主机厂的算法专家,拥有CCF-A/B论文发表记录,并主持完成多项自动驾驶感知和端到端算法的产品量产交付,具备丰富的端到端算法研发经验 [12][14] 端到端自动驾驶课程内容 - 端到端与VLA自动驾驶课程由工业界专家带队,聚焦端到端自动驾驶宏观领域,梳理一段式/两段式方向的重点算法和理论基础 [12] - 课程详细讲解BEV感知、大语言模型、扩散模型和强化学习等关键技术 [12] - 课程设计两大实战项目:基于扩散模型的Diffusion Planner和基于VLA的ORION算法 [12] 课程参与要求 - 参与者需要自备GPU,推荐算力在RTX 4090及以上 [15] - 参与者需具备一定的自动驾驶领域基础,熟悉自动驾驶基本模块,并了解transformer大模型、强化学习、BEV感知等技术的基本概念 [17] - 参与者需具备一定的概率论和线性代数基础,熟悉常用数学运算,并具备一定的Python和PyTorch语言基础 [17]
学术和量产的分歧,技术路线的持续较量!从技术掌舵人的角度一览智驾的十年路....
自动驾驶之心· 2025-10-15 07:33
自动驾驶技术十年发展回顾 - 自动驾驶行业自2015年蓬勃发展至今已走过十年历程 [3] - 十年间涌现出视觉Transformer、BEV感知、多传感器融合、端到端自动驾驶、大模型、VLA、世界模型等众多闪耀技术 [3] - 自动驾驶的量产方案在技术发展过程中互相碰撞和融合 [3] 圆桌对话核心议题 - 回顾过去10年自动驾驶技术迭代的几个里程碑事件 [13] - 复盘过去两年自动驾驶领域的发展 [13] - 探讨世界模型和VLA的技术路线之争 [4][13] - 分析端到端是否已成为智驾技术栈的基石 [13] - 探讨学术界和工业界对L3自动驾驶的思考 [4][13] - 分析学界研究方向在收敛而工程端在拼落地的现状 [13] - 为新入行的自动驾驶人提供职业发展建议 [4][13] 主讲嘉宾背景 - 崔轲迪担任百度BV风投副总裁 [5] - 孙昊现任博世中央研究院自动驾驶负责人,研究方向为自动驾驶感知和端到端智能系统,拥有新加坡国立大学博士和麻省理工新加坡研究中心博士后经历 [5] - 许凌云现任长安科技泊车业务负责人,拥有中国科学院博士和卡内基梅隆机器人研究所博士后经历,曾获DARPA SUBT无人车挑战赛2019年世界冠军 [5] - 郑文钊为加州大学伯克利分校人工智能实验室博士后研究员,在TPAMI、CVPR等顶级期刊会议发表论文50余篇,谷歌学术引用2700余次 [6] 活动信息 - 圆桌对话定于10月15日晚举行 [9] - 活动由自动驾驶之心运营负责人Gloria和知乎大V刘斯坦共同主持 [7][8] - 完整版深度内容已独家上线知识星球「自动驾驶之心」,涵盖所有技术细节、QA及未公开内容 [17]
开放几个自动驾驶技术交流群(世界模型/端到端/VLA)
自动驾驶之心· 2025-10-14 07:33
技术交流社群 - 自动驾驶行业成立了专注于前沿技术方向的技术交流群 [1] - 技术交流群覆盖世界模型、端到端、VLA等当前行业重点研究方向 [1]
工业界大佬带队!三个月搞定端到端自动驾驶
自动驾驶之心· 2025-10-13 07:33
端到端自动驾驶行业趋势 - 2023年是端到端量产的元年,2025年将是端到端量产的大年,目前头部新势力和主机厂均已实现端到端量产 [1] - 工业界存在一段式和两段式两种主要范式,一段式代表为UniAD,直接从传感器输入建模自车轨迹输出,二段式则基于感知结果进一步输出自车和他车轨迹 [1] - 自2024年以来,一段式端到端发展迅速,衍生出基于感知、世界模型、扩散模型和VLA等多种一段式方法 [3] 主流企业技术布局 - 主流自动驾驶企业,包括智驾方案供应商和车企,均在发力端到端自动驾驶的自研量产 [3] - 端到端与VLA技术栈涉及BEV感知、视觉语言模型、扩散模型、强化学习等核心内容,是学术界和工业界最前沿的技术方向 [5] 端到端技术核心内容 - 二段式端到端领域涌现出经典算法PLUTO、CVPR'25的CarPlanner以及最新工作Plan-R1等优秀成果 [10] - 一段式端到端子领域包括基于感知的UniAD、基于世界模型的Drive-OccWorld与OccLLaMA、基于扩散模型的DiffusionDrive与DiffE2E,以及基于VLA的ORION与OpenDriveVLA [12][14] - 基于VLA的端到端方法被视为目前端到端自动驾驶的皇冠,上限高且业内招聘需求旺盛,是业界预研的新一代量产方案 [14] 关键技术发展动态 - 扩散模型思想自2024年下半年被引入多模轨迹预测,相比单模轨迹能更好适应自动驾驶不确定环境,并可与其他方法结合实现VLA [14] - 世界模型应用广泛,不仅可用于场景生成、端到端,还可用于闭环仿真,是近两年非常热的技术方向 [14] - VLA技术融合了VLM、BEV、扩散模型、强化学习等多种技术,是端到端发展的前沿 [14]
学术界和工业界都在如何研究端到端与VLA?三个月搞定端到端自动驾驶!
自动驾驶之心· 2025-10-09 12:00
自动驾驶端到端算法技术趋势 - 端到端算法是当前自动驾驶量产的核心算法 技术栈丰富 主要分为一段式和两段式两大范式 [1] - 一段式范式以UniAD为代表 直接从传感器输入建模自车轨迹输出 两段式则基于感知结果进一步输出自车和他车轨迹 [1] - 一段式端到端算法衍生出多个子领域 包括基于感知 基于扩散模型 基于世界模型以及基于VLA的算法 其中基于VLA的算法相关论文正爆发式发表 工业界也在争先量产 [1] 前沿技术栈构成 - 核心算法涉及BEV感知 视觉语言模型 扩散模型 强化学习 世界模型等多项前沿技术 [3] - 通过学习端到端与VLA自动驾驶 可以掌握学术界和工业界最前沿的技术方向 [3] 自动驾驶VLA与大模型实战课程 - 课程聚焦VLA领域 内容涵盖从VLM作为自动驾驶解释器开始 到模块化VLA 一体化VLA 以及当前主流的推理增强VLA [3] - 课程配套理论基础梳理 包括Vision/Language/Acition三大模块 强化学习 扩散模型等基础 [3] - 课程设有专门的大作业章节 指导学员从零搭建自己的VLA模型及数据集 [3] 课程师资团队 - 师资团队包括来自清华大学等高校的硕士生和博士生 在ICCV IROS EMNLP等国际顶级会议发表多篇论文 [7][9] - 团队成员研究方向涵盖多模态感知 自动驾驶VLA 大模型Agent等前沿领域 拥有丰富的研发和实战经验 [7][9] - 部分成员长期维护GitHub开源项目 总Star数已超过2k 具备扎实的研发能力 [7] 端到端与VLA自动驾驶课程 - 该课程由工业界专家带队 聚焦端到端自动驾驶宏观领域 梳理一段式/两段式方向的重点算法和理论基础 [10] - 课程详细讲解BEV感知 大语言模型 扩散模型和强化学习 并设计两大实战项目 基于扩散模型的Diffusino Planner和基于VLA的ORION算法 [10] - 课程讲师为国内TOP主机厂算法专家 拥有端到端 大模型 世界模型等前沿算法的预研和量产经验 并主持完成多项算法的产品量产交付 [10] 目标学员要求 - 学员需自备GPU 推荐算力在4090及以上 [13] - 要求学员具备一定的自动驾驶领域基础 熟悉基本模块 并了解transformer大模型 强化学习 BEV感知等技术的基本概念 [13] - 学员需具备一定的概率论和线性代数基础 熟悉常用数学运算 并具备一定的python和pytorch语言基础 [13]
从机械臂到人形,跨构型VLA如何破局?
具身智能之心· 2025-10-09 08:04
VLA-Adapter技术突破 - 机械臂视觉语言到动作范式的深刻反思,直击VLA伪规模化问题,核心目标是直接从视觉语言模型特征映射到动作空间,减少对机器人预训练数据的依赖[3] - 研究发现参数增加和机器人数据引入并未提升模型性能,关键在于忽略了视觉语言如何迁移到动作的机制探究[3] - 提出全新映射方案,在0.5B参数级别下性能超越经过大量数据预训练的更大量级骨干模型,显著降低训练成本和入门门槛[3] TrajBooster技术创新 - 首个全身人形操作VLA方案,解决双足人形全身操作任务训练数据稀缺难题,跨本体构型高效利用数据[7] - 以轨迹为中心实现跨本体数据高效利用,仅需10分钟真机遥操数据微调即可实现VLA在双足人形机器人上的全身操作[7] - 是目前业内唯一全开源的涵盖人形数据采集、跨本体数据增强、VLA模型训练及硬件部署全流程的工作[13] 研究团队与项目影响力 - 研究团队OpenHelix Team累计Github star近2k,VLA-Adapter项目两周收获700+star,HuggingFace Trend唯一在榜机器人工作[13] - 团队长期致力于推动具身智能和VLA模型前沿研究,特别是在VLA基座构建,使其更好与物理世界交互[13] - TrajBooster项目基于原OpenWBC项目,是业内唯一全开源的全流程人形机器人VLA解决方案[13]
自动驾驶Ask Me Anything问答整理!VLA和WA的路线之争?
自动驾驶之心· 2025-10-09 07:33
自动驾驶技术发展现状与路径 - 特斯拉在自动驾驶体验和效果上被多位专家认为是行业领先者 [9][14] - L4级别自动驾驶已由Waymo和萝卜快跑实现,但L5级别可能还需至少5年时间 [4] - 端到端模型已能解决约90%的驾驶问题,特斯拉将其做到极致,安全性基本得到保证 [5] 技术路线与核心模型 - 视觉语言动作模型被认为是自动驾驶的终局方案,因其能利用语言模态进行推理,处理需要认知推理的长尾问题 [5][6] - 世界模型是对物理空间和运行规律的更本质建模,但技术难度更大 [9] - 端到端模型存在多种架构:一段式端到端、一段式模块端到端以及OneModel端到端 [11][12] 关键技术与传感器 - 4D毫米波雷达被视为纯视觉系统的良好冗余,当系统复杂度达到几千几万MPI时冗余的重要性凸显 [5] - 激光雷达在成本下降后与纯视觉方案相比无明显劣势,提供精确距离感知冗余的融合方案可能是终极方向 [17] - 语言模态对于自动驾驶至关重要,缺乏语言推理能力将导致车辆无法理解世界而出错 [5] 人才与专业发展 - 人工智能是未来研究自动驾驶的首选专业方向,因自动驾驶问题可能在4年内基本解决,但AI方向长期正确 [4] - 对于职业发展,建议先进入大型智驾公司培养体系化工程思维,机器人领域在产品化和工程成熟度上仍处于探索阶段 [16] 市场与区域对比 - 中国智能驾驶发展态势远优于国外市场,目前除特斯拉外,没有国外智驾方案能在中国市场发布 [10] - 国内公司与特斯拉的差距主要体现在算法和软件工程的流程规范上,但从用户体验角度看差距不大 [14][15] 机器人及具身智能 - 在机器人领域,实用功能的发展速度和商业价值远高于身体协调性和美感 [7] - 大模型背景的研究人员转向具身智能领域相对容易,真正的竞争力在于模型规模、创新和真机跨本体泛化能力 [5]
我们正在找具身领域的合伙人......
具身智能之心· 2025-10-08 10:49
文章核心观点 - 公司面向全球具身智能领域从业者发出合作邀请,旨在通过多方协作推动行业进步 [1] - 合作旨在响应市场对公司在方案、数据采集、技术升级及企业培训等方面赋能的诉求 [1] 合作方向 - 技术方向涵盖VLA、VLN、Diffusion Policy、强化学习、VLA+RL、遥操作、动捕、sim2real、多模态大模型、仿真、运动控制、端到端、3D感知等前沿领域 [3] - 合作岗位涉及具身课程开发、方案研发、硬件研发以及面向B端(企业、高校、研究院所)和C端(学生、求职人群)的培训合作 [4] 合作模式与资源 - 公司将提供高额酬金与丰富的行业资源作为合作回报 [2] - 具体合作领域包括技术服务、培训、课程开发与科研辅导等 [1]