π0.5 - 财报，业绩电话会，研报，新闻

π0.5

搜索文档

具身智能之心· 2025-12-28 11:42

π系列VLA模型的技术演进与行业影响 - π系列是视觉语言动作模型领域的里程碑，以持续技术突破引领生成式AI时代的机器人学习范式，重塑行业应用逻辑 [2] - π0于2024年10月发布，首创Flow Matching连续动作轨迹预测，突破传统离散动作精度瓶颈，为精密制造、自动驾驶等场景提供毫米级操作基础 [3] - π0.5于2025年4月发布，通过异构任务协同训练与层次化推理，在陌生环境复杂任务泛化成功率高达94%，利用人类视频训练使数据成本降低90%，大幅提升跨本体适应性并降低机器人规模化部署门槛 [3] - π0.6于2025年11月发布，通过RECAP强化学习赋能零样本泛化与高效微调，在真实世界效率与精度超越人类，实现工业级100%任务完成率与数十分钟快速换型，推动柔性生产落地 [3] - 其模型能力引领通用机器人从实验室走向工业制造、家庭服务等实景应用，成为2025年来业界众多VLA模型的核心参考 [3] - 不少公司基于π系列搭建真机演示，如叠衣服、拆箱子等，或基于此思路改进优化，其新工作发布常引起行业反响 [3] VLA模型学习与应用的实践挑战 - 基于π系列完成数据、模型训练优化、部署一整套任务对初学者非常困难，有用户甚至踩坑半年无法真正入门 [5] - π系列模型存在“不听话”、不好调试、难以达到预期效果的问题，导致用户花费相当多时间在“踩坑”上 [4] - 对于更新快速的技术路线，如何有效学习VLA难倒了相当多同学，许多人即使拥有真机也不知如何使用 [8] 具身智能之心的VLA实战课程解决方案 - 具身智能之心基于SO-100机械臂复现了π0、π0.5、ACT、GR00T等方法，旨在解决用户缺乏真机和项目指导的问题 [7] - 该平台联合业内VLA专家开发了国内首个《面向实战与求职的VLA小班课》，手把手带领学员复现π0系列 [8] - 课程内容全面，涵盖机械臂硬件、数据采集、VLA算法、VLA评测、仿真、主流VLA模型部署、VLA+世界模型、各类真机实验及具身产业讲解 [13] - 购买课程的学员将获赠一套SO-100机械臂，包含示教臂和执行臂 [17] - 课程讲师为某机器人公司VLA高级研究员，拥有5年以上机器人行业实战经验，聚焦产学研协同落地，并在顶级期刊发表学术论文10余篇 [20] - 课程面向人群广泛，包括正在具身领域求职、需要实战项目的同学，VLA领域入门进阶者，从事具身智能研究的各阶段学生，以及希望从传统领域转行进入具身的从业者等 [25] - 课程要求学员具备一定的Python和PyTorch基础，推理建议使用3060及以上显卡，训练建议使用2张以上3090ti显卡或可自租云服务器资源 [25] - 学员学后有望掌握真机调试与数据采集、各类VLA算法在真机上部署、对VLA模型量化有深入了解，并对具身产业落地有清晰认识，简历上可获得足够多的项目支撑，达到1-2年以上算法工程师经验 [25] - 课程于2025年12月30日正式开课，有效期2年，购买后不支持退款，提供微信VIP群内答疑 [26]

RLinf上新πRL：在线强化学习微调π0和π0.5

机器之心· 2025-11-06 16:58

技术背景与挑战 - 基于流匹配的视觉语言动作模型，如Physical Intelligence发布的π0和π0.5，能生成高维平滑的连续动作序列，在复杂操控任务中具显著优势[2] - 此类模型训练严重依赖大规模高质量人类演示数据，数据收集与标注成本高昂且周期漫长[2] - 强化学习可通过与环境交互自行探索迭代，减少对大量数据的依赖并提升监督微调的性能上限[2] - 针对流匹配视觉语言动作模型的强化学习研究较少，核心挑战在于其通过迭代去噪生成动作，难以直接计算输出动作的对数似然，而这是策略梯度方法更新的关键[2] πRL框架核心创新 - 由清华、北大、CMU等机构联合推出，是面向流匹配视觉语言动作模型的在线强化学习微调框架，基于RLinf系统实现[3] - 提出Flow-Noise和Flow-SDE两种微调方案，解决流匹配视觉语言动作模型难以直接计算输出动作对数似然的问题[8] - Flow-Noise通过将去噪过程建模为离散马尔可夫过程，直接计算去噪序列的联合概率密度[10][13] - Flow-SDE将去噪与环境交互结合，构建双层马尔可夫决策过程，训练中混合使用确定性采样和随机探索以加速训练[10][11][20] - 策略在收集数据后统一采用PPO进行策略梯度优化[10] 实验性能与结果 - 在LIBERO测试平台，πRL使π0模型平均成功率从57.6%提升至97.6%，π0.5模型从77.1%提升至98.3%，超越全数据监督微调训练的流匹配视觉语言动作模型表现[3][19] - 在LIBERO-Long长时序任务上，πRL使π0.5单样本监督微调性能从43.9%大幅提升至94.0%[21] - 在ManiSkill构建的4,352种抓取-放置任务组合中，πRL将π0成功率从38.42%提升至78.83%，π0.5成功率从40.06%提升至90.85%[24][27] - 在12个域随机化测试环境中，πRL显著提升了两类模型在新环境下的泛化性能[26][27] - 强化学习使模型完成操作任务的平均步数显著减少，效率逼近专家数据水平[28] 技术细节与消融研究 - 探索了两种Actor-Critic架构：一种将Critic部署在动作模型之后，另一种直接将Critic接入视觉语言模型后[14][16][20] - 对于π0模型，Critic接动作模型隐藏层输出更适用；对于π0.5模型，Critic接视觉语言模型隐藏层输出更优[20] - 算法对比显示，使用流匹配视觉语言动作模型时，PPO在最终性能和训练稳定性上均优于GRPO[31] - Flow-Noise收敛略快，Flow-SDE单步更新更快且与去噪步数解耦，两者最终性能接近[35] - 可学习噪声与固定噪声两种策略在相同框架下性能类似，证明两类噪声注入均有效[35] - Critic接在视觉语言模型后略优于接在动作模型后，且更稳定[35] 资源与未来方向 - 全部代码、模型和文档示例已完全开源，资源包括论文链接、开源代码库、模型仓库及复现文档[5][6] - 未来计划接入更多仿真环境进行更丰富的基准测试，并针对强化学习带来的泛化增益展开深入分析[36]

Reinforcement Learning

Flow Matching VLA

Artificial Intelligence

πRL

π0

π0.5

Reinforcement Learning

Flow Matching VLA

Artificial Intelligence

πRL

π0

π0.5

K-ScaleLabs产品与工程负责人离职！创立GradientRobotics新公司聚焦美国机器人与物理AI关键难题！

机器人大讲堂· 2025-10-26 18:03

JingxiangMo的职业动态与新公司 - JingxiangMo于2024年9月离开其创办的K-Scale Labs，并计划创办新企业Gradient Robotics，专注机器人技术与物理人工智能领域[1][6] - 新公司Gradient Robotics的联合创始人兼首席执行官为JingxiangMo，但具体技术方向与产品规划尚未公开[6][30] K-Scale Labs的技术成就与团队表现 - 团队在K-Scale Labs期间主导K-Bot和Z-Bot项目，10人团队在8个月内完成硬件设计、生产制造及操作系统、强化学习/视觉语言动作模型的全流程开发[2] - K-Bot项目从原型到量产仅耗时不到6个月，2025年7月推出首批150台量产机型，销售额超200万美元，客户包括谷歌DeepMind、OpenAI、斯坦福大学等[11] - Z-Bot主打大规模量产，单台售价低于1000美元，公开等待名单已超2万人，原型机已应用于斯坦福大学CS234课程[13] - 团队早期项目Zeroth-01为全球最小3D打印开源人形机器人，物料成本仅350美元，开源社区拥有5000多名成员，GitHub星标超700个[15] 行业对标企业：Physical Intelligence与FieldAI - Physical Intelligence（PI）专注机器人智能软件研发，2024年10月推出参数量3B的通用机器人基础模型π0，2025年5月升级为π0.5模型，支持长程复杂操作[18][20][22] - PI在2024年11月完成4亿美元融资，投后估值达24亿美元，投资方包括杰夫・贝索斯、OpenAI、Sequoia Capital等[24][25] - FieldAI核心技术为Field基础模型，嵌入物理知识实现机器人自主决策，2025年8月完成总计4.05亿美元融资，投后估值达20亿美元[25][27][29] 通用机器人技术发展路径与行业趋势 - JingxiangMo指出通用型机器人技术是当今最重要课题之一，团队已明确解决路径，类比自动驾驶技术突破历程，认为必将以开源方式实现[4] - 机器人与物理AI领域成为具身智能赛道竞争焦点，PI与FieldAI的快速崛起凸显行业对技术突破的迫切需求[30]

π0.5宣布开源！这下机器人泛化难题有解了？

机器人大讲堂· 2025-09-14 12:06

技术亮点 - 采用异构数据协同训练方式整合多个机器人、高级语义预测、网络数据等多种不同来源数据实现更广泛泛化 [2] - 多模态数据深度融合包括图像观察、语言命令、目标检测、语义子任务预测和低级动作数据建立不同模态间关联 [4] - 基于通用视觉语言模型构建通过优化网络结构减少信息传递损耗采用高效卷积神经网络提取视觉特征改进网络结构增强长文本理解 [6] - 通过调整参数更新策略如自适应学习率算法加快模型收敛在有限时间和资源下充分学习数据源知识与模式 [6] 泛化能力突破 - 泛化性能随训练集中不同环境数量增加稳步提升经过约100个训练环境后性能接近直接在测试环境中训练的基线模型 [7] - 在全新真实家庭环境中成功完成"抽屉内物品整理""洗衣篮归置"和"水槽内餐具清洗"三项测试任务 [8] - 能够理解任务语义并拆解复杂任务流程在训练数据未遇到过的新家庭环境中完成清洁任务 [8][9] - 通过联合训练不同模态数据增强从语言到策略的知识迁移能力实现更灵活泛化 [11] 合作伙伴关系 - 广和通推出新一代具身智能平台Fibot 搭载自研高算力机器人域控制器与多传感器融合系统通过VR眼镜实现操作员与双臂机器人联动操作已成功投入到π0.5模型数据采集进程 [13][15] - 方舟无限长期提供硬件支持在2025年5月模型演示中使用机械臂在陌生厨房卧室环境中执行复杂指令产品贯穿Physical Intelligence多代模型迭代 [16][17] - 星尘智能为早期合作伙伴 2024年11月Astribot S1机器人嵌入初代模型π0 采用绳驱传动技术模拟人类肌腱用力方式为π0.5模型训练提供多维度数据资源 [18][23]

π0.5开源前，国内也开源了一个强大的端到端统一基础模型！具备强泛化和长程操作

具身智能之心· 2025-09-11 10:07

开源模型技术突破 - Physical Intelligence开源π0.5模型通过知识隔离训练实现更强的开放世界泛化能力[1] - 自变量机器人开源端到端具身智能基础模型WALL-OSS 包含完整预训练模型权重、训练代码和部署文档[3] - WALL-OSS采用紧耦合架构与多策略训练在单一框架内整合指令推理、子目标分解与细粒度动作合成[8] 技术架构创新 - 采用QwenVL2.5-3B作为主干网络接收视觉与文本输入并生成多模态输出[12] - 训练采用"先离散、后连续、再联合"三阶段pipeline 仅需RTX 4090级别算力即可完成全流程[14] - 通过流匹配方法实现离散到连续动作预测的转换采用共享注意力+专家分流架构[16] - 实现统一跨层级思维链覆盖从语义到感觉运动的完整推理链条[18] 性能表现优势 - 在具身视觉问答基准测试中 WALL-OSS在物体定位任务达到91.6%准确率较基础模型46.1%提升显著[27][28] - 场景描述任务准确率87.6% 较基础模型57.7%提升近30个百分点[27][28] - 在抓取放置任务中对已知物体指令达到85%平均任务进度对新物体指令保持61%性能[29] - 在数据稀缺任务中(500条演示) 预训练模型保持90%以上成功率未预训练模型降至20%以下[31] - 在积木拼写任务中字母识别准确率达87% 数字识别达95% 显著高于动作专用模型的26%和80%[34] 数据集与训练 - 构建数万小时具身中心多源数据集包含自收集机器人数据、开源动作数据和多模态视觉问答数据[20] - 数据集涵盖短程操作任务和长程推理任务需任务分解、进度跟踪和实时决策能力[22] - 采用多模型pipeline进行细粒度步骤标注辅以人工抽查和质量控制[23] - 按场景/物体/任务/形态分层抽样对长程任务和稀缺技能采用温度控制重采样策略[24] 行业影响与公司发展 - 端到端系统被业内公认为最终形态国内外具身团队都在深入研究突破[3] - 自变量机器人成立于2023年12月聚焦自研通用具身智能大模型[39] - 公司已完成近10亿元A+轮融资资金将投入全自研通用具身智能基础模型的持续训练[39] - 行业形成本体和大脑两条创业路线硬件看宇树大脑看自变量[39]

具身智能之心· 2025-07-31 08:04

机器人基础模型发展 - RT-2作为首个机器人VLA模型，通过将机器人控制问题构建为视觉问答任务实现基础功能，基于PaLI-X和PaLM-E预训练模型开发[5][7] - RT-X跨具身数据集整合34个实验室、22种机器人数据，通用模型性能比单一场景专业模型平均提升50%，分布外指令处理能力提升3倍[10][11] - 第二代VLA模型采用连续动作分布设计（如扩散模型/流匹配模型），支持高频率精细控制，动作生成跨度达50个时间步[15][17][19] PI公司技术迭代 - π0模型基于30亿参数Polyglot-LLM开发，集成动作专家模块，输入包含1-3张图像+语言指令，可控制多样化机器人形态[18][19] - π0训练数据集达10,000小时，融合RT-X数据后实现复杂任务微调，如折叠盒子（成功率66%）和衣物（抗干扰恢复能力突出）[21][23][26] - π0.5版本新增分层推理架构，支持长期任务（如卧室清洁），仅3%移动操作数据但实现真实场景迁移应用[28][30][32] 技术融合方向 - 当前VLA模型依赖模仿学习，未来将通过强化学习（RLPD算法）优化任务成功率与鲁棒性，采用稀疏奖励+人工干预机制[35][39][43] - RLDG方法尝试将强化学习专家数据整合至VLA，已实现连接器插入等技能泛化，但端到端训练流程仍需突破[45][46] - 视觉编码器+图像分类奖励机制提升强化学习效率，动态任务如煎蛋翻面、家具组装验证技术互补潜力[42][43]

PI联合创始人，机器人大神！详解VLA+强化学习，催生更强大的系统

具身智能之心· 2025-07-30 14:03

机器人基础模型发展 - 首个机器人基础模型RT-2基于语言模型开发，通过视觉问答形式实现机器人控制，将电机指令编码为问题答案[7][8] - RT-2基于PaLI-X和PaLM-E预训练视觉语言模型构建，能处理基础语言指令[10] - 跨具身数据集RT-X整合34个实验室数据，覆盖22种机器人类型，通用模型性能比专用模型高50%，分布外指令处理能力提升3倍[12][13] 模型架构迭代 - 第一代VLA模型采用离散Token生成动作，第二代升级为连续动作分布，支持扩散模型生成多步动作片段[19] - 第二代VLA模型π0基于30亿参数Polyglot-LLM开发，增加动作专家模块，输入1-3张图像+语言指令，输出50时间步高维动作[22][24] - π0.5新增分层推理能力，可分解长期任务（如打扫卧室）为子步骤执行，移动操作数据仅占训练集3%但能泛化至新场景[36][38][40] 应用与性能表现 - π0完成复杂任务如折叠盒子（成功率66%）和衣物，具备抗干扰恢复能力[26][29][33] - π0.5在未训练过的真实厨房环境中执行叠毛巾、清洁等任务[41] - 模型组合多任务流程，例如从烘干机取衣→搬运→折叠的全流程操作[34] 未来技术方向 - 当前模型依赖模仿学习，未来将通过强化学习优化任务成功率与鲁棒性[44][45] - 强化学习采用RLPD算法，结合稀疏奖励和人工干预提升效率[49][53] - RLDG方法尝试将专家策略知识蒸馏至VLA，已实现连接器插入等复杂任务泛化[59] - 行业需解决VLA与强化学习的端到端训练流程整合问题[60]

进厂“试用期”一年，人形机器人“转正”还要跨过几道坎？

第一财经· 2025-04-29 19:39

具身智能与VLA模型发展 - 灵初智能发布Psi-R1大模型，声称是真正的VLA模型，能在开放场景下解决长程复杂任务[2] - 2025年以来至少有七家企业发布VLA相关模型，包括Physical Intelligence、英伟达、银河通用等[2] - VLA模型成为机器人厂商展示技术先进性的重要手段，但部分展示视频可能掩盖真实技术能力[7] 机器人进厂打工的挑战 - 人形机器人从实验室到实际工厂应用需经历漫长的概念验证阶段，目前大部分仍处于试用期[2][10] - 概念验证需证明技术成功率、可靠性、效率、成本和收益，是商业化落地的关键障碍[3] - Figure机器人被曝在宝马工厂实际仅有一台执行简单搬运任务，与展示视频存在差距[10] VLA模型的技术难点 - 动作信号输入是VLA模型的核心难点，缺乏动作输入会导致泛化性不足和长线推理偏差[5] - 真正的VLA模型需具备长时序动作执行能力、跟随描述性语言指令并由单一模型完成所有任务[8] - 当前部分VLA模型仅通过模仿学习加原子技能调用完成简单操作，缺乏自主推理能力[7] 机器人落地的工程化流程 - 工厂落地需经历三个阶段：3个月实验室环境内测、3个月客户场景验证、6个月有人陪产部署[12] - 实际工厂环境中存在光线干扰、电磁干扰、流程差异等问题，需针对性优化[12] - 部署阶段需应对人为打断等突发情况，要求上层大脑具备实时推理和决策能力[13] 人形机器人的应用场景选择 - 当前进厂机器人多从事搬运、检测等基础工种，如优必选S1进行物料搬运和车灯检测[14] - 未来目标应是替代人力完成自动化设备无法胜任的精细化工作，如3C制造质检[14] - 客户更关注落地可行性而非技术完美性，需平衡长程推理能力与实时控制要求[15]