手残党跪了，Pi 0.6机器人15分钟学会拧螺丝，能进厂边干边学了

文章核心观点 - Physical Intelligence公司通过其创新的“RL token”方法，使机器人能够仅利用十几分钟到几小时的真实世界经验，快速掌握插网线、拧微型螺丝等对精度和灵巧度要求极高的复杂操作，这标志着机器人学习速度和精细操作能力的重大突破，加速了机器人在工业场景中的应用进程 [1][7][27] 技术背景与行业痛点 - 过去一年，机器人已能完成叠衣服、端盘子等粗略工作，但在需要高精度的任务上表现不佳，例如将螺丝刀精准对准微小螺丝，而这正是真实工厂环境中最关键且难以妥协的部分 [3] - 传统方法若要训练机器人掌握精细操作，需要耗费巨大计算量并重新训练整个庞大的“主脑”模型，过程缓慢且效率低下 [5] RLT技术原理与创新 - 公司提出了一种“偷懒”的解决方案：不重新训练整个主模型，而是为其增加一个专门负责精细动作的“外挂”——RL token [6] - 核心灵感是让视觉语言动作模型配合一个极其小巧、可实时更新的模型进行强化学习微调，VLA模型输出一个代表内部复杂思考过程“极简摘要”的RL token，作为小型Actor和Critic网络的输入 [10] - RLT技术首先改造VLA，通过一个Transformer结构压缩出RL token，该token浓缩了当前观察画面中强化学习所需的所有关键信息，使得极小的Actor和Critic网络也能基于大模型的丰富理解来改进动作 [12] - 获得RL token后，仅需利用机器人积攒的几小时甚至几分钟真实数据，即可在线训练小型Actor和Critic网络，这些网络设计轻量，每秒可更新数百次，实现即时行为调整 [10][14] 技术实现细节 - 预测“动作块”：强化学习策略预测一连串的“动作块”，与VLA的动作结构保持一致，便于直接调整任务中具有时间跨度的重要连贯动作 [15] - 学会“修改”而非“推翻”：Actor网络接收VLA预测的动作作为输入，学习如何“编辑修改”而非全盘替换，策略更新被限制在参考动作附近，确保探索的稳定性 [15] - 防止“抄作业”：引入“参考动作 dropout”机制，防止小模型在训练初期仅模仿VLA的动作，迫使其保持独立生成动作的能力 [15] - 融入人类干预：可选择性地让人类在机器人卡壳或犯错时直接介入，纠正动作会被折叠并反馈到训练过程中 [16] - 这些设计使在线强化学习成为一个可复用的“通用配方”，无需针对具体任务进行专门工程设计，即可挂载到预训练的VLA模型上应对各种任务 [16] 实验验证与性能表现 - 研究者在四项高精度挑战性任务上测试RLT：用电动螺丝刀拧入M3微型螺丝、系紧扎带、插入网线及插入电源线 [17] - 在这些任务中，通用基础模型能完成大部分“粗略”动作，但任务成败与速度取决于需要大量物理接触、对位置和角度精度要求极高的关键阶段 [17][20] - 实际测试表明，机器人仅利用15分钟的真实世界数据，就能优化每个动作里最难的部分 [22] - 在所有四项任务中，与基础模型相比，RLT在速度和成功率上均有显著提升，以“吞吐量”衡量，RLT使每项任务中最精细步骤的速度提高到原来的3倍 [7][22] - 在“插网线”任务中，整个训练耗时2小时，但包含机器人动作的数据仅15分钟，RLT的执行速度甚至超越了人类远程操作的速度，最终策略有一半的测试速度比任何一次人类示范操作都要快 [24][25]