VLA模型Psi R1

搜索文档
北大-灵初重磅发布具身VLA全面综述!一文看清VLA技术路线与未来趋势
机器之心· 2025-07-25 10:03
核心观点 - 视觉-语言-动作模型(VLA)是将基础模型的智能从数字世界延伸至物理空间的关键技术路径,通过处理视觉与语言输入并生成实时动作,赋能机器人系统[1][9] - 北京大学-灵初智能联合实验室首次提出从动作词元化(action tokenization)视角统一理解VLA模型的新框架,系统分析八种主流action token及其发展趋势[2][8] - VLA模型的快速发展受基础模型与数据资源双重驱动,呈现U形演进结构[15] VLA统一框架与Action Token分类 - VLA模型通用框架:视觉与语言输入经VLA modules逐级处理,生成逐渐具体的action token并转化为动作输出[10][11] - VLA module定义为支持端到端梯度传播的最大可微子网络或不可微功能模块,承担场景感知、动作规划等特定能力[12] - Action token是VLA modules间传递的动作表示,可理解为"动作语言",当前主要分为八类[13][16]: - Language Description(语言描述):分为子任务级language plan和原子动作级language motion[16] - Code(代码):含逻辑控制和机器人API调用的程序代码[22] - Affordance(可操作性):基于空间的交互表示如关键点、边界框等[25][26] - Trajectory(轨迹):时空连续状态序列[29][30] - Goal State(目标状态):任务预期结果的视觉呈现[34] - Latent Representation(隐式表示):预训练得到的动作相关隐向量序列[36] - Raw Action(原始动作):关节角度等底层控制指令[38] - Reasoning(推理):解释动作原因的自然语言思考过程[42] Action Token发展趋势 - 未来VLA模型将采用多种token协同架构:language plan用于高层任务分解,affordance+trajectory+goal state实现精细控制[10][21] - Code需构建更完善机器人API库并引入形式化验证机制以释放潜力[24] - Affordance将向三维表达、时序建模和鲁棒性增强方向发展[33] - Trajectory需突破三维空间表征、轻量化生成和语义融合等挑战[32] - Latent representation需解决粒度、语义覆盖和任务对齐问题[37] - Raw action面临数据规模不足和跨本体泛化等瓶颈[41] - Reasoning需平衡实时性与推理深度[46] 产业化进展 - 灵初智能自研VLA模型Psi R1已在麻将机器人场景验证,将在2025世界人工智能大会展示30分钟连续博弈能力[2][51] - 公司计划在WAIC 2025集中展示外卖机器人、超市打包机器人等应用案例[3] - 技术路线从理论突破走向实际应用,标志具身智能向认知决策和长程操作的关键跃迁[51] 数据支撑体系 - VLA数据金字塔分为三层: - 底层:网络数据与人类视频,建立通用视觉语言理解能力[47] - 中层:合成与仿真数据,提供高性价比动作标签数据[48] - 顶层:真实机器人数据,包含物理世界动态约束[49] - 当前最大规模机器人数据集仅百万级,远低于LLM所需的十亿级语料[41]