文章核心观点 - Physical Intelligence公司通过其创新的“RL token”方法,使机器人能够仅利用十几分钟到几小时的真实世界经验,快速掌握插网线、拧微型螺丝等对精度和灵巧度要求极高的复杂操作,这标志着机器人学习速度和精细操作能力的重大突破,加速了机器人在工业场景中的应用进程 [1][7][27] 技术背景与行业痛点 - 过去一年,机器人已能完成叠衣服、端盘子等粗略工作,但在需要高精度的任务上表现不佳,例如将螺丝刀精准对准微小螺丝,而这正是真实工厂环境中最关键且难以妥协的部分 [3] - 传统方法若要训练机器人掌握精细操作,需要耗费巨大计算量并重新训练整个庞大的“主脑”模型,过程缓慢且效率低下 [5] RLT技术原理与创新 - 公司提出了一种“偷懒”的解决方案:不重新训练整个主模型,而是为其增加一个专门负责精细动作的“外挂”——RL token [6] - 核心灵感是让视觉语言动作模型配合一个极其小巧、可实时更新的模型进行强化学习微调,VLA模型输出一个代表内部复杂思考过程“极简摘要”的RL token,作为小型Actor和Critic网络的输入 [10] - RLT技术首先改造VLA,通过一个Transformer结构压缩出RL token,该token浓缩了当前观察画面中强化学习所需的所有关键信息,使得极小的Actor和Critic网络也能基于大模型的丰富理解来改进动作 [12] - 获得RL token后,仅需利用机器人积攒的几小时甚至几分钟真实数据,即可在线训练小型Actor和Critic网络,这些网络设计轻量,每秒可更新数百次,实现即时行为调整 [10][14] 技术实现细节 - 预测“动作块”:强化学习策略预测一连串的“动作块”,与VLA的动作结构保持一致,便于直接调整任务中具有时间跨度的重要连贯动作 [15] - 学会“修改”而非“推翻”:Actor网络接收VLA预测的动作作为输入,学习如何“编辑修改”而非全盘替换,策略更新被限制在参考动作附近,确保探索的稳定性 [15] - 防止“抄作业”:引入“参考动作 dropout”机制,防止小模型在训练初期仅模仿VLA的动作,迫使其保持独立生成动作的能力 [15] - 融入人类干预:可选择性地让人类在机器人卡壳或犯错时直接介入,纠正动作会被折叠并反馈到训练过程中 [16] - 这些设计使在线强化学习成为一个可复用的“通用配方”,无需针对具体任务进行专门工程设计,即可挂载到预训练的VLA模型上应对各种任务 [16] 实验验证与性能表现 - 研究者在四项高精度挑战性任务上测试RLT:用电动螺丝刀拧入M3微型螺丝、系紧扎带、插入网线及插入电源线 [17] - 在这些任务中,通用基础模型能完成大部分“粗略”动作,但任务成败与速度取决于需要大量物理接触、对位置和角度精度要求极高的关键阶段 [17][20] - 实际测试表明,机器人仅利用15分钟的真实世界数据,就能优化每个动作里最难的部分 [22] - 在所有四项任务中,与基础模型相比,RLT在速度和成功率上均有显著提升,以“吞吐量”衡量,RLT使每项任务中最精细步骤的速度提高到原来的3倍 [7][22] - 在“插网线”任务中,整个训练耗时2小时,但包含机器人动作的数据仅15分钟,RLT的执行速度甚至超越了人类远程操作的速度,最终策略有一半的测试速度比任何一次人类示范操作都要快 [24][25]
手残党跪了,Pi 0.6机器人15分钟学会拧螺丝,能进厂边干边学了
机器之心·2026-03-20 16:39