DeepThinkVLA
搜索文档
华科&清华最新DeepThinkVLA:如何让模型 “会思考、能落地”?
具身智能之心· 2025-11-24 18:02
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Cheng Yin等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 在机器人操作领域,"思考先于行动"(Think Before Acting)是突破端到端政策数据饥饿性的关键方向,但现有视觉 - 语言 - 动作(VLA)模型始终面临核心矛盾: 单一自回归解码器既要处理序列化推理,又要生成高维并行动作,导致运动控制精度下降、推理与动作缺乏强因果关联。 华中科技大学、清华大学等团队联合提出的 DeepThinkVLA ,通过 "混合注意力解码器 + 两阶段训练 pipeline" 的创新设计,完美化解这一冲突——既让模型具备连 贯推理能力,又保障动作生成的高效与精准,最终在 LIBERO 基准测试中实现 97.0% 的任务成功率,树立了 VLA 模型的性能新标杆。 DeepThinkVLA 的核心设计可概括为 " 以混合架构解决模态冲突,以两阶段训练强化因果关联,串联'基础推理学习 - ...