π0.5

搜索文档
π0.5宣布开源!这下机器人泛化难题有解了?
机器人大讲堂· 2025-09-14 12:06
技术亮点 - 采用异构数据协同训练方式 整合多个机器人、高级语义预测、网络数据等多种不同来源数据 实现更广泛泛化 [2] - 多模态数据深度融合 包括图像观察、语言命令、目标检测、语义子任务预测和低级动作数据 建立不同模态间关联 [4] - 基于通用视觉语言模型构建 通过优化网络结构减少信息传递损耗 采用高效卷积神经网络提取视觉特征 改进网络结构增强长文本理解 [6] - 通过调整参数更新策略如自适应学习率算法加快模型收敛 在有限时间和资源下充分学习数据源知识与模式 [6] 泛化能力突破 - 泛化性能随训练集中不同环境数量增加稳步提升 经过约100个训练环境后性能接近直接在测试环境中训练的基线模型 [7] - 在全新真实家庭环境中成功完成"抽屉内物品整理""洗衣篮归置"和"水槽内餐具清洗"三项测试任务 [8] - 能够理解任务语义并拆解复杂任务流程 在训练数据未遇到过的新家庭环境中完成清洁任务 [8][9] - 通过联合训练不同模态数据增强从语言到策略的知识迁移能力 实现更灵活泛化 [11] 合作伙伴关系 - 广和通推出新一代具身智能平台Fibot 搭载自研高算力机器人域控制器与多传感器融合系统 通过VR眼镜实现操作员与双臂机器人联动操作 已成功投入到π0.5模型数据采集进程 [13][15] - 方舟无限长期提供硬件支持 在2025年5月模型演示中使用机械臂在陌生厨房卧室环境中执行复杂指令 产品贯穿Physical Intelligence多代模型迭代 [16][17] - 星尘智能为早期合作伙伴 2024年11月Astribot S1机器人嵌入初代模型π0 采用绳驱传动技术模拟人类肌腱用力方式 为π0.5模型训练提供多维度数据资源 [18][23]
π0.5开源前,国内也开源了一个强大的端到端统一基础模型!具备强泛化和长程操作
具身智能之心· 2025-09-11 10:07
端到端系统是业内公认的最终形态,国内外的具身团队都在深入研究不断突破。最近自变量机器人CTO王 昊和physical intelligence的研究员柯丽一鸣(Kay Ke)有一期对话节目《临近机器人GPT-3时刻,具身智能 开源模型的加速演进》,里面针对开源模型的话题展开了一些讨论。非常巧,就在π0.5开源的前一天,自 变量机器人也开源了他们的端到端具身智能基础模型WALL-OSS。 去项目网页上看了下,WALL-OSS有一整套完整可复现的具身大模型方案,包括预训练模型权重、训练代 码、数据集接口,甚至还附带了详细部署文档,开发者可以在自己的机器人上直接跑通闭环流程。 昨天Physical Intelligence开源了π0.5(π0的升级版本,通过知识隔离训练获得更强的开放世界泛化能力)今 天看到了项目主页上已经更新了0.5的信息。 π0.5通过异构任务协同训练实现广泛的泛化能力,这也是业内首次论证端到端学习型机器人系统能在全新 家庭环境中执行长周期精细操作技能,例如完成厨房或卧室的清洁工作。 这个模型对行业有什么意义?在此之前,先来说下当下的一些困境吧。 现有视觉语言模型的空间感知与具身理解能力仍存在局 ...
VLA+强化学习,会催生更强大的系统!
具身智能之心· 2025-07-31 08:04
机器人基础模型发展 - RT-2作为首个机器人VLA模型,通过将机器人控制问题构建为视觉问答任务实现基础功能,基于PaLI-X和PaLM-E预训练模型开发[5][7] - RT-X跨具身数据集整合34个实验室、22种机器人数据,通用模型性能比单一场景专业模型平均提升50%,分布外指令处理能力提升3倍[10][11] - 第二代VLA模型采用连续动作分布设计(如扩散模型/流匹配模型),支持高频率精细控制,动作生成跨度达50个时间步[15][17][19] PI公司技术迭代 - π0模型基于30亿参数Polyglot-LLM开发,集成动作专家模块,输入包含1-3张图像+语言指令,可控制多样化机器人形态[18][19] - π0训练数据集达10,000小时,融合RT-X数据后实现复杂任务微调,如折叠盒子(成功率66%)和衣物(抗干扰恢复能力突出)[21][23][26] - π0.5版本新增分层推理架构,支持长期任务(如卧室清洁),仅3%移动操作数据但实现真实场景迁移应用[28][30][32] 技术融合方向 - 当前VLA模型依赖模仿学习,未来将通过强化学习(RLPD算法)优化任务成功率与鲁棒性,采用稀疏奖励+人工干预机制[35][39][43] - RLDG方法尝试将强化学习专家数据整合至VLA,已实现连接器插入等技能泛化,但端到端训练流程仍需突破[45][46] - 视觉编码器+图像分类奖励机制提升强化学习效率,动态任务如煎蛋翻面、家具组装验证技术互补潜力[42][43]
PI联合创始人,机器人大神!详解VLA+强化学习,催生更强大的系统
具身智能之心· 2025-07-30 14:03
机器人基础模型发展 - 首个机器人基础模型RT-2基于语言模型开发,通过视觉问答形式实现机器人控制,将电机指令编码为问题答案[7][8] - RT-2基于PaLI-X和PaLM-E预训练视觉语言模型构建,能处理基础语言指令[10] - 跨具身数据集RT-X整合34个实验室数据,覆盖22种机器人类型,通用模型性能比专用模型高50%,分布外指令处理能力提升3倍[12][13] 模型架构迭代 - 第一代VLA模型采用离散Token生成动作,第二代升级为连续动作分布,支持扩散模型生成多步动作片段[19] - 第二代VLA模型π0基于30亿参数Polyglot-LLM开发,增加动作专家模块,输入1-3张图像+语言指令,输出50时间步高维动作[22][24] - π0.5新增分层推理能力,可分解长期任务(如打扫卧室)为子步骤执行,移动操作数据仅占训练集3%但能泛化至新场景[36][38][40] 应用与性能表现 - π0完成复杂任务如折叠盒子(成功率66%)和衣物,具备抗干扰恢复能力[26][29][33] - π0.5在未训练过的真实厨房环境中执行叠毛巾、清洁等任务[41] - 模型组合多任务流程,例如从烘干机取衣→搬运→折叠的全流程操作[34] 未来技术方向 - 当前模型依赖模仿学习,未来将通过强化学习优化任务成功率与鲁棒性[44][45] - 强化学习采用RLPD算法,结合稀疏奖励和人工干预提升效率[49][53] - RLDG方法尝试将专家策略知识蒸馏至VLA,已实现连接器插入等复杂任务泛化[59] - 行业需解决VLA与强化学习的端到端训练流程整合问题[60]
进厂“试用期”一年,人形机器人“转正”还要跨过几道坎?
第一财经· 2025-04-29 19:39
具身智能与VLA模型发展 - 灵初智能发布Psi-R1大模型,声称是真正的VLA模型,能在开放场景下解决长程复杂任务[2] - 2025年以来至少有七家企业发布VLA相关模型,包括Physical Intelligence、英伟达、银河通用等[2] - VLA模型成为机器人厂商展示技术先进性的重要手段,但部分展示视频可能掩盖真实技术能力[7] 机器人进厂打工的挑战 - 人形机器人从实验室到实际工厂应用需经历漫长的概念验证阶段,目前大部分仍处于试用期[2][10] - 概念验证需证明技术成功率、可靠性、效率、成本和收益,是商业化落地的关键障碍[3] - Figure机器人被曝在宝马工厂实际仅有一台执行简单搬运任务,与展示视频存在差距[10] VLA模型的技术难点 - 动作信号输入是VLA模型的核心难点,缺乏动作输入会导致泛化性不足和长线推理偏差[5] - 真正的VLA模型需具备长时序动作执行能力、跟随描述性语言指令并由单一模型完成所有任务[8] - 当前部分VLA模型仅通过模仿学习加原子技能调用完成简单操作,缺乏自主推理能力[7] 机器人落地的工程化流程 - 工厂落地需经历三个阶段:3个月实验室环境内测、3个月客户场景验证、6个月有人陪产部署[12] - 实际工厂环境中存在光线干扰、电磁干扰、流程差异等问题,需针对性优化[12] - 部署阶段需应对人为打断等突发情况,要求上层大脑具备实时推理和决策能力[13] 人形机器人的应用场景选择 - 当前进厂机器人多从事搬运、检测等基础工种,如优必选S1进行物料搬运和车灯检测[14] - 未来目标应是替代人力完成自动化设备无法胜任的精细化工作,如3C制造质检[14] - 客户更关注落地可行性而非技术完美性,需平衡长程推理能力与实时控制要求[15]