交错图文指令 - 财报，业绩电话会，研报，新闻 - Reportify

交错图文指令

搜索文档

Interleave-VLA：首个支持交错图文指令的VLA框架，跨域泛化提升2-3倍

具身智能之心· 2025-08-05 08:03

核心观点 - Interleave-VLA是首个能理解交错图文指令并生成连续动作序列的框架，显著提升机器人操作的灵活性和泛化能力 [2][3] - 通过自动化流程创建了首个大规模真实世界交错具身数据集，包含21万条交互数据和1300万帧图像 [2] - 在仿真和真实机器人实验中，Interleave-VLA的跨域泛化能力比基线模型提升2-3倍，并支持零样本处理手绘草图等图像指令 [3][7] 技术架构与数据集 - 采用模型无关的范式，仅需对现有VLA模型进行最小修改即可实现 [2] - 基于Open X-Embodiment数据集转换纯文本指令为交错图文指令，解决数据缺失问题 [2][7] - 异构数据集和多样化指令图像（包括互联网图像）是其零样本性能的关键 [3] 性能优势 - 支持灵活任务接口，如直接处理用户提供的非结构化图像输入 [3] - 在未知场景或复杂描述任务中表现优于传统纯文本指令模型 [7] - 真机实验中成功验证了域外任务性能提升，具体案例包括手绘草图理解 [3][7] 应用场景 - 适用于需要多模态交互的机器人操作场景，如工业装配或家庭服务 [7] - 可扩展至互联网图像等开放域指令，具备商业化潜力 [3] - 相关技术（如BridgeVLA）已在CVPR竞赛中实现32%的真机性能提升 [10]

视觉-语言-动作（VLA）模型

交错图文指令

视觉-语言-动作（VLA）模型

交错图文指令