交错图文指令

搜索文档
Interleave-VLA:首个支持交错图文指令的VLA框架,跨域泛化提升2-3倍
具身智能之心· 2025-08-05 08:03
核心观点 - Interleave-VLA是首个能理解交错图文指令并生成连续动作序列的框架,显著提升机器人操作的灵活性和泛化能力 [2][3] - 通过自动化流程创建了首个大规模真实世界交错具身数据集,包含21万条交互数据和1300万帧图像 [2] - 在仿真和真实机器人实验中,Interleave-VLA的跨域泛化能力比基线模型提升2-3倍,并支持零样本处理手绘草图等图像指令 [3][7] 技术架构与数据集 - 采用模型无关的范式,仅需对现有VLA模型进行最小修改即可实现 [2] - 基于Open X-Embodiment数据集转换纯文本指令为交错图文指令,解决数据缺失问题 [2][7] - 异构数据集和多样化指令图像(包括互联网图像)是其零样本性能的关键 [3] 性能优势 - 支持灵活任务接口,如直接处理用户提供的非结构化图像输入 [3] - 在未知场景或复杂描述任务中表现优于传统纯文本指令模型 [7] - 真机实验中成功验证了域外任务性能提升,具体案例包括手绘草图理解 [3][7] 应用场景 - 适用于需要多模态交互的机器人操作场景,如工业装配或家庭服务 [7] - 可扩展至互联网图像等开放域指令,具备商业化潜力 [3] - 相关技术(如BridgeVLA)已在CVPR竞赛中实现32%的真机性能提升 [10]