π0

搜索文档
VLA+强化学习,会催生更强大的系统!
具身智能之心· 2025-07-31 08:04
机器人基础模型发展 - RT-2作为首个机器人VLA模型,通过将机器人控制问题构建为视觉问答任务实现基础功能,基于PaLI-X和PaLM-E预训练模型开发[5][7] - RT-X跨具身数据集整合34个实验室、22种机器人数据,通用模型性能比单一场景专业模型平均提升50%,分布外指令处理能力提升3倍[10][11] - 第二代VLA模型采用连续动作分布设计(如扩散模型/流匹配模型),支持高频率精细控制,动作生成跨度达50个时间步[15][17][19] PI公司技术迭代 - π0模型基于30亿参数Polyglot-LLM开发,集成动作专家模块,输入包含1-3张图像+语言指令,可控制多样化机器人形态[18][19] - π0训练数据集达10,000小时,融合RT-X数据后实现复杂任务微调,如折叠盒子(成功率66%)和衣物(抗干扰恢复能力突出)[21][23][26] - π0.5版本新增分层推理架构,支持长期任务(如卧室清洁),仅3%移动操作数据但实现真实场景迁移应用[28][30][32] 技术融合方向 - 当前VLA模型依赖模仿学习,未来将通过强化学习(RLPD算法)优化任务成功率与鲁棒性,采用稀疏奖励+人工干预机制[35][39][43] - RLDG方法尝试将强化学习专家数据整合至VLA,已实现连接器插入等技能泛化,但端到端训练流程仍需突破[45][46] - 视觉编码器+图像分类奖励机制提升强化学习效率,动态任务如煎蛋翻面、家具组装验证技术互补潜力[42][43]
PI联合创始人,机器人大神!详解VLA+强化学习,催生更强大的系统
具身智能之心· 2025-07-30 14:03
机器人基础模型发展 - 首个机器人基础模型RT-2基于语言模型开发,通过视觉问答形式实现机器人控制,将电机指令编码为问题答案[7][8] - RT-2基于PaLI-X和PaLM-E预训练视觉语言模型构建,能处理基础语言指令[10] - 跨具身数据集RT-X整合34个实验室数据,覆盖22种机器人类型,通用模型性能比专用模型高50%,分布外指令处理能力提升3倍[12][13] 模型架构迭代 - 第一代VLA模型采用离散Token生成动作,第二代升级为连续动作分布,支持扩散模型生成多步动作片段[19] - 第二代VLA模型π0基于30亿参数Polyglot-LLM开发,增加动作专家模块,输入1-3张图像+语言指令,输出50时间步高维动作[22][24] - π0.5新增分层推理能力,可分解长期任务(如打扫卧室)为子步骤执行,移动操作数据仅占训练集3%但能泛化至新场景[36][38][40] 应用与性能表现 - π0完成复杂任务如折叠盒子(成功率66%)和衣物,具备抗干扰恢复能力[26][29][33] - π0.5在未训练过的真实厨房环境中执行叠毛巾、清洁等任务[41] - 模型组合多任务流程,例如从烘干机取衣→搬运→折叠的全流程操作[34] 未来技术方向 - 当前模型依赖模仿学习,未来将通过强化学习优化任务成功率与鲁棒性[44][45] - 强化学习采用RLPD算法,结合稀疏奖励和人工干预提升效率[49][53] - RLDG方法尝试将专家策略知识蒸馏至VLA,已实现连接器插入等复杂任务泛化[59] - 行业需解决VLA与强化学习的端到端训练流程整合问题[60]
Physical Intelligence 创始人:人形机器人被高估了
海外独角兽· 2025-03-28 19:51
文章核心观点 - 通用机器人是AGI从数字世界走向物理世界的重要路径,robot foundation model旨在为机器人构建大脑以实现通用能力 [3] - Physical Intelligence(PI)被视为机器人领域的OpenAI,专注于开发通用机器人的foundation model,近期开源了通用模型π0并推出分层推理系统Hi Robot [3][10][26] - 实现机器人泛化的核心在于获取多样化数据而非仅追求数据质量,需扩大真实机器人数据规模并优化跨平台数据共享 [12][17][18] - 人形机器人形态当前被高估,未来机器人形态将呈现多样化"寒武纪大爆发",物理智能才是AGI核心 [4][22][36] Chelsea Finn机器研究的开端 - 研究始于10年前伯克利博士阶段,早期探索神经网络控制将图像像素直接映射到机器人扭矩,当时属非主流方向 [6] - 关键挑战在于让机器人在不同环境/物体间泛化任务能力,如拧瓶盖、挂衣架等基础操作 [6] - 研究路径涉及构建广泛数据集,结合强化学习、模仿学习等方法,曾在Google Brain工作并创立斯坦福实验室 [7] PI的研究进展和发展 - 目标构建可控制任何机器人执行任何任务的神经网络模型,突破传统单一任务优化局限 [10] - 采用跨平台数据整合策略(六轴/七轴/单双臂机器人),最大化数据复用价值以解决硬件迭代导致的数据废弃痛点 [10][12] - 2023年10月展示复杂任务能力(叠衣/清理/纸箱搭建),当前重点扩展语言交互与环境泛化能力 [13][15] - 技术架构依托Transformer和预训练Vision-Language Model,利用互联网知识迁移(如Taylor Swift案例) [15][16] 机器人实现AGI的路径 - 短期难预测具体应用场景,需探索人机协作模式降低容错要求,语言交互是重要突破方向 [21] - 运动控制蕴含进化级智能,基础操作(倒水/做麦片)实际具有极高复杂性 [23] - 关键里程碑研究:SayCan(语言模型规划)、RG2(网页数据集成)、RT-X(跨机器人形态训练)、Aloha(远程操作训练) [24] Hi Robot系统设计 - 分层推理架构:高层模型处理任务规划(如"拿起番茄"),低层模型转换为具体动作指令 [26] - 解决长周期任务执行与实时交互需求,已实现三明治制作/购物/清理等场景 [28] 传感器与硬件发展 - 当前依赖视觉(RGB摄像头)已取得显著进展,手腕摄像头可部分替代触觉传感器 [29] - 嗅觉/味觉等冗余传感器虽有益但非优先级,当前瓶颈在于数据处理与记忆功能开发 [30] - 未来硬件将趋向场景专用化(厨房/折叠衣物等),形成多形态共存的生态系统 [36][37] 自动驾驶与机器人领域对比 - 机器人操作空间维度更高(14维vs自动驾驶2D),精度要求更严但分布问题范围较小 [31] - 初创公司优势在于快速迭代部署,大公司受限于安全规范难以实现多样化数据收集 [34] 训练数据方法论 - 人类观察数据(如YouTube)价值有限,机器人需从自身物理经验中学习运动控制 [35] - 数据泛化能力取决于分布广度,通过建筑物/场景数量等指标粗略评估 [36] - 自动化经验与强化学习结合是提升数据价值的关键路径 [35]
空间具身通用操作模型!百万真实数据训练,预训练代码全开源 | 上海AI Lab/TeleAI/上科大等团队新作
量子位· 2025-03-05 12:21
核心观点 - SpatialVLA是一种通用机器人策略,通过探索对齐的空间表示,赋予视觉-语言-动作(VLA)模型3D空间智能,显著提升了在现实世界中的通用性和鲁棒性 [6][8] - 该模型在zero-shot泛化控制、新场景高效微调和空间理解能力评估中均取得最先进性能,尤其在复杂环境变化和跨机器人平台适应性方面表现突出 [10][12][17][20] - 模型采用Ego3D位置编码、自适应空间动作网格和空间嵌入适应三大关键技术,解决了机器人观察数据3D未对齐和动作特性多样化的核心挑战 [6][7] 通用操作策略面临的挑战 - 现有VLA模型局限于2D输入,缺乏鲁棒3D感知能力,难以应对单视角视差、光照变化和环境不一致等现实场景问题 [1][3] - 机器人观察数据因相机传感器和安装位置差异导致3D空间未校准,动作特性因自由度、控制器等差异而多样化,阻碍通用策略开发 [4][5] SpatialVLA模型架构 - 采用SigLIP视觉编码器提取2D语义特征,通过Ego3D位置编码融合3D空间上下文,消除对特定机器人相机校准的依赖 [6][7] - 将连续7D动作(ΔT,ΔR,G)离散化为3个空间动作token,通过自适应动作网格实现不同机器人动作与3D物理世界的对齐 [6][7] - 后期训练中通过高斯分布调整动作网格和空间嵌入,实现跨机器人平台的高效迁移 [6][7] 实验验证结果 Zero-shot泛化控制 - 在SimplerEnv Benchmark中,WidowX配置下整体成功率达34 4%(zero-shot)和42 7%(微调),"将茄子放入黄色篮子"任务微调后成功率100% [12][14] - 真实WidowX平台测试显示,在未见过的场景、物体和动态动作中平均成功率显著超越OpenVLA等基线 [15][16] 新场景高效微调 - 在Franka机械臂13个平台上,从基本操作到混合多任务均表现优异,验证了作为通用控制策略的多功能性 [17][18] - LIBERO Benchmark中取得78 1%最高平均成功率,在无state输入策略中排名第一 [19] 空间理解能力 - Franka任务1准确率73%,WidowX零样本任务2-4操作能力显著提升,LIBERO-Spatial任务成功率88 2% [20][21] - 相比Octo等基线策略(成功率<50%),3D信息集成使模型在空间布局变化中展现更强适应性和鲁棒性 [20] 技术实现与开源 - 项目已全面开源,提供Huggingface模型库、GitHub训练代码和项目主页,支持下载部署、预训练和高效微调 [22][23]