π₀

搜索文档
Physical Intelligence 核心技术团队分享:物理世界的“Vibe Coding”如何实现?
海外独角兽· 2025-08-23 20:04
编译:shiling、haozhen 编辑:Siqi 那么,从技术视角看,VLA 与 LLM、VLM 之间究竟是什么关系?为了实现通用机器人大脑,PI 是 怎么从零构建数据管线的?PI 新提出的"知识绝缘(Knowledge Insulation)"机制到底又是如何运行 的? 这篇文章是 Physical Intelligence 核心技术团队对机器人过去和当下技术路径的解读,并分享了 PI 在 数据采集、算法设计以及 multi-robot 通用模型领域的前沿技术探索: • VLM 在 LLM 基础上拓展了视觉感知能力,而 VLA 是 VLM 在机器人领域的进一步应用; 通用机器人是 AGI 从数字世界走向物理世界的重要路径,而在 AI robotcis 这个主题下,Physical Intelligence 无疑是最具技术深度和研究影响力的团队之一。今年 4 月,PI 以 π₀ 为基础,新发布了一 个在开放世界具有泛化能力的 VLA 模型 π₀.₅,PI 表示 π₀.₅ 在一些未知环境中,依然能够展现出与在 原始训练环境相近的表现。 • PI 团队几乎从头搭建了整个数据引擎,而且通过实验,PI 证明了提高 ...
VLA爆发!从美国RT-2到中国FiS-VLA,机器人的终极进化
具身智能之心· 2025-07-09 22:38
具身智能与VLA模型发展 - 2025年全球具身智能赛道爆火,视觉语言动作模型(VLA)成为核心驱动力,从美国RT-2到中国FiS-VLA实现技术快速迭代 [4][6][7] - 谷歌DeepMind、Figure AI等硅谷领军企业加速布局VLA,谷歌发布首个离线VLA模型实现机器人精准离线操控 [8][9] - 中国智平方联合高校推出FiS-VLA模型,通过快慢双系统架构解决机器人操控效率与推理能力矛盾问题 [10][12] 技术演进关键节点 - 谷歌RT-1(2022年)开创机器人Transformer模型,首次实现"预训练+微调"范式,完成多步骤任务如"把可乐放入冰箱" [23][25][27] - 微软ChatGPT for Robotics(2023年)实现零样本任务规划,但暴露语言模型在动作控制上的局限 [31][32][34] - 谷歌RT-2(2023年7月)确立VLA范式,将动作离散化为文本token联合训练,在未见任务上成功率超50% [38][39][40][46] 中国技术创新突破 - 智平方推出RoboMamba模型,引入Mamba架构使推理速度达主流模型3倍,仅微调0.1%参数实现SE(3)位姿预测 [45][47][50][52] - HybridVLA模型融合自回归与扩散架构,在仿真任务成功率提升8%,真实环境提升11% [74][77][79] - FiS-VLA实现21.9Hz控制频率,是CogACT的2倍以上,在RLBench任务平均成功率69%领先基线方法 [105][114][115] 国际竞争格局 - 开源模型OpenVLA以7亿参数超越55亿参数的RT-2-X,29种操作任务成功率高出16.5% [54][57][58] - Figure AI发布Helix双系统模型,系统1(80M参数)与系统2(VLM主干)实现7-9Hz工作频率 [88][89][93][96] - 英伟达开源GROOT N1人形机器人基础模型,融合互联网与机器人数据实现广义推理 [97][98][101] 行业应用前景 - VLA技术推动机器人从实验室走向工业落地,已在人形机器人和智能制造领域部署应用 [123][124] - π系列模型实现开放世界泛化,在未见家庭场景零样本完成清洁任务,标志技术具备大规模推广能力 [63][69][70] - 技术演进形成"自回归到扩散到混合"与"非端到端到快慢耦合"双路径,推动机器人向通用能力进化 [122]