Workflow
通用具身智能
icon
搜索文档
宇树科技IPO加速度
21世纪经济报道· 2025-11-18 12:28
IPO进程与市场地位 - 公司于11月15日进入“辅导验收”状态,已完成递交IPO招股书前的准备工作,计划在10月到12月正式递交招股书 [1] - 公司从7月7日到11月10日仅用132天完成IPO辅导,远快于平均6~12个月的辅导时长,辅导速度创下A股新纪录 [2][7] - 公司满足A股上市门槛,创始人于今年6月透露公司年营收已超10亿元 [7][8] - 公司董事会于10月23日完成变更,新任董事李宗彦、倪晨凯、宋华盛均为高校教授且有上市公司独董经历,被视为完善公司治理结构的关键步骤 [6] 行业资本化动态 - 人形机器人头部企业资本化诉求强烈,除公司外,乐聚机器人已递交境外上市申请,智元机器人亦有赴港IPO计划流传近半年 [2] - 公司得以直接上市且无其他“第一股”竞争对手,主要因其更满足A股上市门槛 [7] 上市后面临的挑战 - 人形机器人企业上市后面临两难选择:追求盈利以提振报表数据,或追求通用具身智能而持续投入算力资源,后者可能导致报表“难看”影响市场信心 [10] - 行业面临具体挑战:教育类、展览类人形机器人销售在2025年热潮后可能陷入瓶颈;工业场景人形机器人可能面临良率不足、交付不及预期、产能无法释放等问题 [10] - 技术路径存在争议:“端到端”高算力人形机器人面临节拍不足、幻觉较多问题,且客户需承担持续算力成本;“遥操”固定算法机器人虽稳定性好,但难以体现通用性优势 [10][11] - 当前通用人形机器人本体销量不足,公司过往销售主力为四足机器人,优必选等同行则以消费级家用机器人作为营收主力 [12]
宇树科技IPO加速度
21世纪经济报道· 2025-11-18 12:08
IPO进程 - 宇树科技IPO进入加速阶段,已完成辅导验收,即将递交招股书[1] - 公司计划在10月到12月正式递交IPO招股书,推进节奏非常顺利[1] - 从7月7日到11月10日,仅用132天完成IPO辅导,远快于平均6~12个月的辅导时长[6] - 辅导券商中信证券出动24位辅导人员帮助公司快速完成辅导工作[6] 公司治理与资质 - 公司完成股份制改造、募投计划方向、公司治理、激励和财务架构等辅导内容[5] - 10月23日完成董事变更,新董事李宗彦、倪晨凯、宋华盛均有上市公司独立董事经历[6] - 公司年营收已超10亿元,满足科创板上市基本条件[7] 行业资本动态 - 人形机器人头部企业资本化诉求强烈,乐聚机器人已递交境外上市申请,智元机器人有赴港IPO计划[2] - 宇树科技是资本市场"顶流",原始股LP份额曾被一级市场流转和疯抢,转让与居间价格高企[1][2] 行业挑战与前景 - 人形机器人企业营收和利润水平普遍处于初创阶段,上市后面临追求盈利还是加大资本开支的两难[9] - 工业场景人形机器人可能面临良率不足、交付不及预期、产能无法释放等问题[9] - "端到端"高算力人形机器人面临节拍不足、幻觉较多问题,且客户需承担持续算力成本[10] - "遥操"固定算法机器人虽稳定性更优,但程序化工序让通用性优势无法体现[10] - 宇树科技过往销售主力为四足机器人,优必选以消费级家用机器人作为营收主力[10]
宇树科技IPO“加速度”
21世纪经济报道· 2025-11-18 07:07
IPO进程与公司状态 - 宇树科技IPO辅导状态已变更为“辅导验收”,标志着公司已完成递交招股书前的准备工作 [1] - 公司从7月7日到11月10日仅用132天完成IPO辅导,远快于A股平均6至12个月的辅导时长,创下近乎新纪录的辅导速度 [1][6] - 公司计划在10月到12月正式递交IPO招股书,项目推进节奏非常顺利,预计在递交注册申请后长则数月、短则数周即可获受理 [1] 董事会架构与上市条件 - 10月23日公司完成董事变更,新任命的三位董事李宗彦、倪晨凯、宋华盛均为高校教授并拥有上市公司独董经历,此举被视为完善新董事会架构的关键步骤 [5][6] - 宇树科技创始人王兴兴透露公司年营收已超10亿元,满足科创板对未盈利企业最低营收2亿元以上的上市门槛 [7] - 与筹备港股上市或买壳的同行不同,公司因更满足A股上市门槛而得以直接上市,且无其他“第一股”竞争对手 [6] 行业资本化动态 - 除宇树科技外,人形机器人头部企业对资本化诉求强烈,乐聚机器人已递交境外上市申请,智元机器人赴港IPO计划流传近半年 [2] - 公司原始股LP份额在一级市场被流转和疯抢,转让与居间价格高企,反映出市场对公司的高度关注 [1] 上市后面临的挑战 - 人形机器人企业上市后陷入两难:需在提振报表数据维持市场信心与持续投入算力资源追求通用具身智能之间权衡 [8] - 行业面临具体挑战:教育类、展览类机器人销售在2025年热潮后可能陷入瓶颈;工业场景机器人可能面临良率不足、交付不及预期、产能无法释放等问题 [8] - 技术路径存在争议:“端到端”高算力机器人面临节拍不足、幻觉较多问题,且客户需承担持续算力成本;“遥操”固定算法机器人虽稳定但通用优势无法体现 [8][9] - 各公司营收结构差异:宇树科技过往销售主力为四足机器人,优必选则以消费级家用机器人如扫地机器人为营收主力 [9]
宇树科技IPO辅导火速通关 冲刺A股“人形机器人第一股”
21世纪经济报道· 2025-11-17 21:24
宇树科技IPO进展 - 宇树科技IPO辅导状态更新为“辅导验收”,已完成递交招股书前的准备工作,计划在10月到12月正式递交IPO招股书 [1] - 公司从7月7日开启IPO辅导到11月10日完成验收,仅用132天,远快于平均6-12个月的辅导时长,辅导速度创下A股新纪录 [1][4] - 辅导券商中信证券出动了合计24位辅导人员的团队,帮助公司快速完成股份制改造、募投计划、公司治理等辅导工作 [2] 公司治理与资质 - 宇树科技在10月23日完成董事变更,新任董事李宗彦、倪晨凯、宋华盛三人均为高校教授且有上市公司独立董事经历,此举是完善新董事会架构的关键步骤 [2][3] - 公司年营收已超10亿元,满足科创板上市规则中未盈利企业最低营收2亿元以上的要求 [5] 人形机器人行业资本化动态 - 除宇树科技外,人形机器人头部企业资本化诉求强烈,乐聚机器人已递交境外上市申请,智元机器人有赴港IPO计划或通过买壳方式上市 [2] - 行业普遍面临上市后两难选择:需提振报表数据维持资本市场信心,又需持续投入算力资源追求通用具身智能,这可能导致报表数据不佳 [7] 行业技术与市场挑战 - 工业场景人形机器人面临两大技术路径争议:“端到端”高算力方案存在节拍不足、幻觉较多问题,且客户需承担持续工作的算力成本;“遥操”固定算法方案虽稳定性好,但难以体现通用机器人的优势 [7][8] - 市场开拓存在风险,教育类、展览类人形机器人销售在2025年后可能遇瓶颈,工业场景则可能面临良率不足、交付不及预期、产能无法释放等问题 [7] - 当前各公司营收主力并非双足人形机器人,宇树科技过往销售主力为四足机器人,优必选则以消费级家用机器人如扫地机器人为营收主力 [8]
从300多篇工作来看, VLA是否为通向通用具身智能的必经之路?
具身智能之心· 2025-10-18 00:02
文章核心观点 - 视觉语言动作模型代表了从传统控制向通用机器人技术的范式转变,将视觉语言模型重塑为能在复杂动态环境中决策的主动智能体 [2] - 文章旨在通过综述形式对VLA研究领域提供清晰的分类法和全面回顾,探讨其作为通用具身智能发展路径的价值 [2][5] - 基于对三百多项近期研究的综合,文章描绘了该快速演进领域的轮廓,并指出塑造可扩展通用VLA方法发展的机遇与挑战 [2] VLA模型研究方法论 - VLA方法被划分为几种主要范式:基于自回归的、基于扩散的、基于强化的、混合方法以及专门化方法 [2] - 研究详细审视了各种范式的动机、核心策略与实现 [2] - 研究介绍了基础性的数据集、基准测试以及仿真平台 [2] 直播内容重点 - 直播将探讨VLA的起源和研究细分,分析热点方向和未来发展趋势 [5] - 直播精彩看点包括VLA研究领域分类、VLA和强化学习结合、Sim2Real等关键技术话题 [6] - 直播时间为10月18日19:30-20:30,由兰州大学和新加坡国立大学的嘉宾分享 [5][6] 深度内容扩展 - 知识星球提供完整版深度内容,涵盖所有技术细节、QA及未公开彩蛋 [8] - 扩展内容涉及灵巧手设计与难题、Agent概念探讨、Spec-VLA推理加速框架、跨实体世界模型等前沿话题 [8] - 深度解析保持精度提升速度的Spec-VLA框架,这是首个专为VLA推理加速设计的推测解码框架 [8]
魔法原子CEO吴长征:蓄力1000个人形机器人落地应用场景
搜狐财经· 2025-10-16 15:05
公司战略与定位 - 公司战略选择以落地推动不同机器人走进千行百业,路径上着眼于规模化落地,让机器人“有用、好用、有人用” [2] - 公司致力于通过通用人形机器人释放其在千行百业的潜力,避免因场景割裂导致的应用天花板 [5] - 公司发起“千景共创计划”,预计拓展1000个合作伙伴,打造1000个落地应用场景,目前已吸引50余家头部企业参与 [5] 技术研发与能力 - 公司具备通用人形机器人全栈自研能力,硬件自研率达90%,覆盖关节模组、灵巧手等核心零部件 [2][6] - 在硬件层面自研灵巧手,在软件层面打造通用具身智能大模型,赋予机器人跨场景任务规划与自主作业能力 [4] - 公司通用具身智能大模型融合视觉、语音、触觉等多模态感知,形成端到端的智能决策体系 [8] - 公司采用真机数据与仿真数据结合的策略(比例约8:2)以提升模型在动态场景下的泛化能力 [12] 产品进展与展示 - 公司新款双足人形机器人Z1在2025WAIC大会上展示了连续“倒地起身”“下腰”等高爆发动作,并能与观众互动 [2] - 公司人形机器人MagicBot曾进行为期半年多的工厂测试,学习取放零件、质量检测、搬运物料等工作,最多可扛动40公斤 [8] - 机器人具备基于6D视觉伺服和全身模仿学习的浮动基座操作算法系统,满足产线不确定环境下的精细操作要求 [8] 商业化与场景落地 - 公司已具备为流水线作业、工业搬运等场景提供完整机器人解决方案的能力 [2] - 工业场景是公司看重和落地最早的场景之一,预计今年内将在智能工厂、商业导览等多场景实现产品交付与商业闭环 [5][7] - 在商业场景已部署机器人进行迎宾、导购等服务训练;在家庭场景通过四足机器人MagicDog提供陪伴功能 [9] - 公司判断人形机器人从B端跨越到C端至少还需要5年,关键在于技术突破、成本下降及B端经验积累 [11] 公司发展历程与融资 - 公司成立于2024年1月,到今年5月,半年内连续完成两轮超亿元级融资 [3] - 研发团队于2020年8月开始四足机器人研发,2022年底入局人形机器人,2023年初发布第一代产品,至今已数次迭代 [3] 团队与组织 - 公司团队约300人,其中80%以上为研发人员,硕士以上学历超过50% [13] - 研发核心成员多毕业于国内外知名高校,在机器人、人工智能算法领域有多年研发经验 [13] - 公司内部设立季度创新激励机制,注重人才价值匹配,并引入外部专家以填补战略空白和注入多元视角 [14]
纯血VLA综述来啦!从VLM到扩散,再到强化学习方案
自动驾驶之心· 2025-10-01 00:04
文章核心观点 - 视觉-语言-动作模型代表了机器人学和具身智能领域的重要演进方向,旨在通过统一框架整合感知、语言理解和动作生成,以克服传统机器人系统在动态和非结构化环境中泛化能力不足的局限性 [1][10] - 该综述系统性地总结了纯VLA方法的研究现状,提出了基于动作生成策略的清晰分类体系,包括自回归、扩散、强化学习以及混合与特定领域方法四大范式,并梳理了相关的数据集、仿真平台和硬件资源 [7][9] - VLA模型的发展高度依赖高质量、大规模的多模态数据集和逼真的仿真器,资源如Open X-Embodiment整合了来自21个机构的22个机器人数据集,涵盖超过160,000个任务,显著加速了该领域的研究进程 [15] - 尽管VLA模型展现出通向通用具身智能的巨大潜力,但在可扩展性、泛化性、推理速度、安全性以及现实部署方面仍面临一系列关键挑战,未来的研究方向需要聚焦于数据局限性、效率优化和鲁棒性提升 [16][31][46] 背景介绍 - 传统机器人系统依赖于预编程指令、人工设计的控制策略或任务特定的强化学习方法,在受限环境中表现良好,但难以适应动态和非结构化环境 [10] - 从单模态建模到多模态整合是技术发展的自然轨迹,视觉Transformer和大语言模型等基础模型的突破为VLA模型的出现奠定了方法学和工程基础 [11][12] - VLA模型通过提供一个统一框架,将语言与感知相结合并直接映射为可执行的动作序列,从而闭合感知-语言-动作的循环,是迈向通用具身智能的重要一步 [10][13] - 通用具身智能的实现不仅依赖于认知处理,还需要物理身体、环境感知与反馈机制的协同,VLA模型正朝着这一愿景演进,并展现出在多样化机器人平台上执行广泛任务的潜力 [16] VLA方法分类:自回归范式 - 自回归范式是VLA研究中经典而有效的序列生成方法,通过将动作序列视为时间相关过程,在给定上下文条件下逐步生成动作token,其代表性模型包括Gato、RT-1/RT-2和PaLM-E等 [18][21] - 该类方法的关键创新方向包括通用型智能体构建、与大语言模型结合的语义规划与推理能力增强、轨迹生成与视觉对齐建模,以及旨在提升实时控制效率的结构优化与高效推理机制 [21][23][26][29] - 自回归模型通过在可扩展的Transformer架构中统一多模态感知、语言推理与序列化动作生成,推动了通用智能体的发展,但其局限性在于误差累积、推理时延以及对大规模计算和数据资源的高需求 [31] VLA方法分类:扩散范式 - 扩散模型将机器人控制重新表述为概率生成问题,通过条件去噪过程生成多样化的合理动作轨迹,在几何一致性、多任务泛化和自然语言接口方面展现出优势 [32][36] - 该范式的核心维度包括基础的动作生成建模、与Transformer结合的多模态架构融合,以及面向实际应用场景的优化与部署策略,代表性工作有Diffusion Policy、Dita和TinyVLA等 [34][37][39] - 扩散式VLA的研究正从实验室原型向真实世界部署过渡,趋势是结合轻量化设计、认知启发式架构和运行时鲁棒性机制,以平衡性能、效率与安全性,但其在动态环境中保持时间一致性方面仍较脆弱 [39][43][46] VLA方法分类:强化学习范式 - 基于强化学习的VLA方法通过引入视觉与语言信号来生成可迁移的奖励代理,并结合离线与在线学习策略以稳定策略优化,提升了在交互式动态环境中的决策能力 [48][51] - 该类方法已成功应用于机械臂操作、四足机器人导航、人形机器人全身控制以及自动驾驶等多个领域,例如SafeVLA引入了安全约束机制,NaVILA和LeVERB则针对特定机器人形态进行了适配 [49][50][52] - 强化学习微调策略增强了VLA模型的泛化能力和安全性,但其挑战在于奖励工程可能依赖噪声信号、训练稳定性问题以及在高维真实环境中部署时的高计算开销 [53] VLA方法分类:混合与特定领域方法 - 混合架构通过策略性地结合自回归、扩散和强化学习等多种范式,以发挥各自在连续动作生成、离散推理和环境适应性方面的互补优势,例如HybridVLA统一了扩散轨迹生成和自回归推理 [56][57] - 高级多模态融合研究从简单的特征拼接转向显式建模几何约束、空间关系和物体可供性,例如CLIPort和3D-VLA等工作显著提升了VLA模型在复杂3D场景中的空间落地性和动作生成可靠性 [58][59] - VLA框架展现出强大的领域适配性,已被扩展至自动驾驶、人形机器人控制、图形用户界面交互乃至安全关键系统等特定场景,这验证了其核心原则的普适性,但也带来了过拟合和领域特定挑战 [60][61][67] 数据集与基准测试 - VLA模型的发展极度依赖于高质量、大规模的多模态数据集,这些资源可分为真实世界采集和仿真环境生成两大类,例如Open X-Embodiment数据集整合了超过100万条轨迹,覆盖160,266项技能 [70][71] - 真实世界数据集如BridgeData、RT-1和RH20T等,提供了多模态观测与语言指令对齐的交互数据,但由于采集成本高昂,其规模性和任务多样性仍面临限制 [72][74] - 仿真平台如MuJoCo、Isaac Gym和CARLA等,提供了可扩展的虚拟环境,能够生成包含动作轨迹、物体状态和自然语言指令的多模态标注数据,有效缓解了真实机器人数据稀缺性问题,加速了模型训练与评估 [15][71]
基于313篇VLA论文的综述与1661字压缩版
理想TOP2· 2025-09-25 21:33
VLA模型综述核心观点 - VLA模型的出现标志着机器人技术从传统基于策略的控制向通用机器人技术的范式转变,将视觉语言模型从被动的序列生成器重构为能够在复杂动态环境中进行主动操作和决策的智能体[1][12] - 该综述对VLA方法进行清晰的分类和系统性的回顾,基于300多项最新研究,将VLA方法主要分为四类:基于自回归、基于扩散、基于强化学习以及混合与专用方法[1][2][12] - VLA模型通过整合视觉编码器的表征能力、大语言模型的推理能力、强化学习与控制框架的决策能力,有望弥合"感知-理解-动作"的鸿沟,成为实现通用具身智能的核心路径[38][39] VLA方法分类与特点 基于自回归的模型 - 核心思想是将动作序列视为时间依赖过程,逐步生成动作,通过统一的多模态Transformer实现跨任务的泛化[4][46] - 创新点包括结合大语言模型进行链式思考和分层规划处理长时程和复杂任务,直接将语言指令映射为运动轨迹并通过视频预训练增强时间建模能力[4][47][48] - 采用层级规划、动态推理、量化和并行解码等技术减少计算冗余和延迟,典型模型包括Gato、RT-1/RT-2、PaLM-E等[4][48] 基于扩散的模型 - 核心思想是将动作生成视为一个条件去噪过程,能够对多模态的动作分布进行建模,将策略学习重新解释为视频生成[5][59] - 利用几何感知方法确保动作的物理一致性,利用Transformer统一处理视觉、语言和动作等异构模态实现灵活的目标条件化[5][63] - 出现轻量化设计以降低训练成本,发展出双系统/三系统等认知启发式架构提升任务性能和可解释性,典型模型包括SE(3)-DiffusionFields、Dita等[5][63][67] 基于强化学习的模型 - 核心思想是整合视觉语言模型与强化学习,利用视觉和语言输入在交互式环境中生成上下文感知的动作[6][72] - 利用视觉语言模型从人类演示中学习奖励代理简化奖励工程,提出约束学习对齐机制防止高风险行为同时不牺牲任务性能[6][73] - 结合离线学习和在线学习实现安全高效的训练,采用量化、剪枝和知识蒸馏等方法压缩模型提高推理速度并减少内存占用[6][73] 混合与专用方法 - 混合架构结合不同范式,利用扩散生成平滑的轨迹同时保留自回归模型的推理能力,典型代表如HybridVLA[7][80] - 从早期的特征拼接发展到显式建模几何、功能可见性和空间约束的3D感知架构,如CLIPort、3D-VLA等[7][80][82] - 将VLA框架扩展到自动驾驶、人形机器人控制和图形用户界面交互等特定领域,通过大规模多模态数据集和可扩展架构构建通用机器人智能体[7][80][83] 数据集与仿真平台 - VLA模型的发展严重依赖高质量数据集,真实世界数据集如Open X-Embodiment整合了来自21个机构的22个机器人数据集,包含527项技能和160,266个任务[8][35][99] - 模拟数据集如ALFRED、RLBench和CARLA为大规模、可控和安全的模型训练与评估提供了环境,模拟器如THOR、Habitat、MuJoCo和Isaac Gym为开发和评估智能机器人在多样化交互环境中的能力提供了平台[8][35][41] - 自动驾驶领域的数据集提供包含相机图像、激光雷达点云、雷达信号和高清地图在内的多模态传感器数据,但大多数公开数据集是在开环场景下采集的,主要反映正常驾驶行为[101][102] 核心挑战与未来机遇 - 核心挑战包括数据稀缺性、架构异构性、实时性约束和评估局限性,真实世界机器人交互数据的规模和多样性仍然不足,大规模Transformer架构的推理速度严重限制了其在需要毫秒级响应的真实机器人上的应用[9][43] - 未来机遇包括实现语言、视觉和行动的深度耦合使VLA演变为能够联合建模环境、推理和交互的"世界模型",发展能够基于因果定律进行探索和验证的模型[10][39] - 结合高保真模拟和合成数据生成构建超大规模轨迹数据集,建立风险评估、可解释性和问责制的标准化框架,将VLA从实验室工具转变为社会中值得信赖的合作伙伴[10][39]
从300多篇工作中,看VLA在不同场景下的应用和实现......
具身智能之心· 2025-09-25 12:00
文章核心观点 - 视觉-语言-动作模型是机器人技术从传统控制向通用机器人技术范式转变的关键标志,将视觉-语言模型从被动序列生成器重新定位为在复杂动态环境中执行操作的主动智能体[2] - 该综述基于300多项最新研究,首次对纯VLA方法进行系统全面总结,提出清晰分类体系并分析五类范式的设计动机、核心策略与实现方式[2][3][7] - VLA模型通过整合视觉编码器表征能力、大语言模型推理能力和强化学习决策能力,有望弥合"感知-理解-动作"鸿沟,成为实现通用具身智能的核心路径[15][20][21] VLA模型技术背景与发展历程 - 单模态建模突破为多模态融合奠定基础:计算机视觉领域从CNN到ViT的演进,自然语言处理领域Transformer架构催生大语言模型,强化学习领域从DQN到决策Transformer形成序列决策新视角[13] - 视觉-语言模型作为关键桥梁经历从模态对齐到复杂跨模态理解发展:早期对齐模型如ViLBERT、对比学习模型如CLIP、指令微调模型如BLIP-2和LLaVA[16] - VLA模型核心设计思路包括模态token化和自回归动作生成,实现端到端跨模态对齐并继承VLMs语义泛化能力[15][17] VLA模型主要方法范式 自回归模型 - 通用VLA方法发展经历三个阶段:早期统一token化如Gato、大规模真实数据训练如RT-1和RT-2、跨平台泛化与效率优化如Octo和NORA[26][27] - 基于大语言模型的推理与语义规划使VLA从"被动输入解析器"转变为"语义中介",支持长任务和组合任务的推理驱动控制[29][33] - 结构优化与高效推理机制包括分层模块化优化、动态自适应推理、轻量化压缩与并行化,如MoLe-VLA降低40%计算成本[35][36] 扩散模型 - 通用方法实现从确定性动作到概率性多轨迹生成转变:几何感知生成如SE(3)-DiffusionFields、视频驱动生成如UPDP、时间一致性优化如TUDP[37][40][44] - 多模态架构融合趋势明显:大规模扩散Transformer如Dita、多模态token对齐如M-DiT、推理与扩散结合如Diffusion-VLA[41][45] - 应用优化部署呈现三大趋势:效率优化如TinyVLA仅需5%可训练参数、任务适应性如DexVLG支持零样本灵巧抓取、认知启发架构如TriVLA实现36Hz交互频率[42][46] 强化学习微调模型 - 聚焦奖励设计、策略优化和跨任务迁移:自监督奖励与表征学习如VIP生成密集奖励函数、跨模态奖励代理与人类反馈如SafeVLA引入安全约束机制[48][49] - 实现跨机器人形态适配:四足机器人如NaVILA、人形机器人如LeVERB、自动驾驶如AutoVLA通过链推理微调生成离散可行动作[49][50] - 融合离线与在线强化学习:ConRFT结合离线行为克隆与在线一致性目标,平衡样本效率与策略安全性[49] 数据集与仿真平台支撑 - 真实世界数据集规模显著扩大:Open X-Embodiment整合21个机构22个机器人数据集,包含527项技能和160266个任务,通过标准化格式促进研究可复现性[18][64] - 仿真平台解决数据稀缺和实机测试风险:多样化环境与物理真实性支持,如MuJoCo/Isaac Gym适用于动力学仿真,CARLA面向自动驾驶场景[18][19] - 基准测试评估指标以成功率为主,自动驾驶领域增加L2距离和完成率等专用指标,仿真领域开发交互式导航评分等新指标[65][67][70] 技术挑战与未来方向 - 面临可扩展性、泛化性、安全性三大核心挑战:现有模型难以适应大规模真实场景,在未知场景中准确性下降,实机部署存在安全隐患[21][25] - 数据局限性突出:标注成本高,长尾场景覆盖不足,真实世界数据采集受硬件设备和精准操控限制[18][62][73] - 未来需突破仿真到现实差距,解决多模态对齐稳定性问题,开发更丰富评估协议匹配真实世界自主系统需求[21][73]
深度综述 | 300+论文带你看懂:纯视觉如何将VLA推向自动驾驶和具身智能巅峰!
自动驾驶之心· 2025-09-25 07:33
文章核心观点 - 视觉-语言-动作模型代表了机器人技术从传统控制向通用机器人技术的范式转变,将视觉-语言模型从被动生成器转变为能在复杂环境中决策的主动智能体 [1] - 该综述综合了300多项最新研究,对VLA方法进行了系统分类,并探讨了其应用、关键挑战及未来发展方向 [1] - VLA模型通过整合视觉编码器、大型语言模型和强化学习的优势,旨在弥合“感知-理解-动作”的鸿沟,成为实现通用具身智能的核心路径 [16][23] VLA模型的核心范式与分类 - VLA方法被划分为五大范式:自回归模型、扩散模型、强化学习模型、混合方法及专用方法 [1][24] - 自回归模型通过Transformer架构统一多模态感知和序列动作生成,支持跨任务泛化,但存在误差累积和延迟问题 [26][39] - 扩散模型将机器人控制从确定性回归转变为概率性生成,支持从同一观测生成多种有效轨迹,但在动态环境中的轨迹稳定性仍需改进 [41][43] - 强化学习微调模型通过融合视觉-语言基础模型与RL算法,增强VLA的感知和决策能力,擅长结合人类反馈和适应新任务 [48][51] VLA模型的技术演进与关键创新 - VLA模型的发展经历了从单模态基础模型到多模态融合,再到“多模态+可执行控制”的演进路径 [16] - 关键技术创新包括模态token化、自回归动作生成、以及将视觉、语言、状态和动作统一在单一序列建模框架中 [20][30] - 代表性模型如Gato实现了异质模态的统一token化,RT-1基于13万条真实世界数据训练,RT-2融入了网络级VLM知识 [30] - 扩散模型领域的创新包括SE(3)-DiffusionFields将扩散扩展到SE(3)位姿空间,以及Dita构建的可扩展扩散Transformer [42][45] VLA模型的应用场景与机器人形态 - VLA模型已应用于多种机器人形态,包括机械臂、四足机器人、人形机器人和轮式机器人 [7] - 在自动驾驶领域,VLA模型用于轨迹生成和危险规避,CoVLA构建了包含5万条语言指令-轨迹对的大规模数据集 [55] - 专用领域适配包括GUI交互、人形全身控制以及特殊任务如魔方还原,展现了VLA的通用性 [55][57] - 人形机器人控制通过分层VLA框架实现,如LeVERB将视觉-语言处理与动力学级动作处理耦合,支持150+任务的仿真到现实迁移 [55] 数据集与仿真平台的支撑作用 - VLA模型的发展高度依赖高质量数据集和仿真平台,以解决数据稀缺和实机测试风险高的问题 [17] - 真实世界数据集如BridgeData涵盖10个环境中的71项任务,Open X-Embodiment整合了22个机器人数据集,包含160266个任务 [21][65] - 仿真平台如MuJoCo/Isaac Gym提供精确的物理仿真,CARLA面向自动驾驶提供真实城市交通场景,支持安全高效的大规模训练 [21] - 评估指标通常采用成功率、语言遵循率、L2距离和完成率等,以衡量模型的性能、鲁棒性和泛化能力 [66][68][74] VLA模型面临的挑战与未来方向 - 关键挑战包括可扩展性不足、在未知场景中的泛化性下降、实机部署的安全性风险以及仿真到现实的差距 [23][29] - 未来研究方向需解决数据局限性、推理速度、安全性以及长尾场景覆盖不足等问题,以加速通用机器人技术的发展 [7][23] - 效率优化和轻量化设计成为趋势,如MoLe-VLA通过混合专家路由降低40%计算成本,BitVLA采用1位量化将内存占用降至30% [36][55] - 安全机制和可解释性研究受到重视,SafeVLA引入安全评论网络和约束策略优化框架,以降低开放环境中的风险事件 [51][57]