Workflow
英伟达最新 | 0成本搭建你的SOTA模型!轻量化VLA时代来啦~

点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Ankit Goyal等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 在机器人操控领域,视觉-语言-动作模型(VLAs)一直被视为实现通用化操作的关键技术。当前主流方案要么给基础视觉-语言模型(VLM)添加特殊动作 token,要么额外设计动作生成头,甚至修改模型架构 ——这些复杂操作不仅增加研发成本,还可能破坏 VLM 原本的语言理解能力。 而 NVIDIA 团队提出的 VLA-0 ,用一种看似 "反常识" 的简单思路打破了僵局:不修改 VLM 的任何结构,直接让它以文本形式预测动作。实验证明,这种 "零改动" 设计不仅有效,还能在模拟和真实场景中超越众多复杂架构的 VLAs,为机器人操控模型的轻量化研发提供了全新方向。 论文标题 :VLA-0: Building State-of-the-Art VLAs with Zero Modification 文章链接 :https:// ...