π0.5模型

搜索文档
国内外那些做具身大脑的公司们......
具身智能之心· 2025-09-13 12:03
文章核心观点 - 具身智能已成为全球焦点 重点关注开发机器人"大脑"系统的企业 包括具身大模型和多模态感知决策系统 [2][3] 国内公司技术布局 - 自变量机器人聚焦通用具身大模型研发 采用端到端技术路线 成立不到两年完成8轮融资 [4][6] - 星海图专注于智能导航技术 坚持"一脑多形"理念 开发具身基础模型EFM-1采用快-慢双系统架构 [5][6] - 优必选拥有全栈自研能力 Thinker大模型在三大国际权威基准测试中斩获四项全球第一 [7][10] - 智元机器人发布启元大模型 采用VILLA架构 任务成功率较市面模型提升32% 支持跨本体应用 [8][10] - 银河通用构建三大技术壁垒 自主研发全球首个通用具身大模型 采用大脑+小脑协同框架 [9][10] - 千寻智能开发Spirit V1 VLA模型 国内首个攻克柔性物体长程操作难题的AI模型 [11][14] - 星动纪元研发端到端原生机器人大模型ERA-42 支持机器人完成超过100种动态任务 [12][14] - 逐际动力聚焦本体硬件设计制造 基于强化学习的全身运动控制和具身大脑训练范式 [13][14] - 穹彻智能开发Noematrix Brain 2.0 新增实体概念学习能力 支持3D模仿学习框架和视-触觉融合网络 [15][17] - 智源研究院推出RoboBrain 2.0 以70亿和320亿参数规格实现感知 推理与规划能力统一 [16][17] 国外公司技术突破 - Figure AI开发Helix模型 采用独特双系统AI架构模仿人类直觉和思考认知模式 [18] - Physical Intelligence发布π0通用机器人基础模型 采用预训练+后训练模式 π0.5采用知识隔离训练方法提升泛化能力 [19][22] - 谷歌DeepMind推出Gemini Robotics系列 具备通用性 交互性和灵巧性 Project Astra体现具身智能在人机交互应用 [20][22] - 英伟达开发Eureka系统基于GPT-4打造 支持30余种复杂动作 GR00T N1采用双系统架构实现接近人类运动控制能力 [21][26] - Skild AI研发Skild Brain分层架构 适用于各种四足机器人 人形机器人和移动机械手 [23][26] - Covariant开发RFM-1模型 参数80亿 是世界首个基于真实任务数据训练的机器人大模型 [24][26] 知名研究团队贡献 - Meta和CMU联合打造RoboAgent 采用多任务动作分块Transformer架构恢复高性能策略 [25][26] - 斯坦福李飞飞团队开发VoxPoser 利用VLM和LLM常识知识实现零样本机器人操纵 [25][26]
Jinqiu Select | 为什么具身机器人的未来无关形态
锦秋集· 2025-07-26 11:00
机器人技术发展趋势 - Physical Intelligence的π VLA模型取得突破性成功,标志着机器人产业的重要转折点,但构建真正的机器人智能比预想的更复杂和分散[1] - 机器人技术栈正在经历大解构,从模型编排到运动控制、数据采集到跨形态学习各环节专业化发展[1] - 机器人技术走向规模化,但需在物理世界的重力、摩擦等限制下证明可靠性,智能具身化成本仍高[1] 机器人形态进化逻辑 - 生命进化中的"蟹化"现象显示形式服从功能,机器人形态也应适应多样化环境而非模仿人类[5] - 机器人技术未来将多样化发展,由任务、地形和环境塑造形态,而非收敛于人形[6] - 计算机、飞机等发明证明高效能无需模仿生物形态,机器人领域存在"人形谬误"[8] 人形机器人局限性 - 双足运动能量效率比人类低15倍以上,比轮式低300倍,Boston Dynamics商业化产品均为非人形设计[9] - 机器人吸尘器成功源于功能优化而非人形模仿,其低矮圆盘设计优于拟人化方案[10] - 五指手机械复杂度高,五倍执行器带来更多故障点,特定任务末端执行器可靠性更优[12] 技术范式转变 - 应从硬件优先转向软件向下,训练可泛化智能而非绑定特定硬件形态[13] - Physical Intelligence采用形态无关方法,跨手臂/移动基座等形态训练实现能力迁移[14] - 机器人学习借鉴LLMs模式,通过异构数据训练VLA模型实现跨模态泛化[16] 行业实践案例 - Boston Dynamics实际收入来自轮式工业机器人Stretch和四足Spot,已部署1500+台[9] - Physical Intelligence的π0.5模型通过跨具身数据训练,实现"清洁厨房"等复杂任务分解[16] - Formic通过机器人即服务模式,在真实工厂环境中积累边缘案例数据驱动AI进步[18] 技术堆栈解构 - 机器人堆栈分为数据收集、软件和训练基础设施三层,形成从物理操作到智能行为的闭环[20] - 跨形态数据聚合可提升模型性能,消融实验显示去除跨具身数据会导致显著性能下降[17] - 行业出现类似自动驾驶的专业化分工趋势,特定领域极致化公司更具优势[1]
万字对谈 Physical Intelligence(π):具身智能的卡点和下一步突破,到底在哪?
Founder Park· 2025-07-25 21:38
具身智能技术进展 - 公司Physical Intelligence(π)由OpenAI和红杉资本领投,估值达20亿美元,已开源π0 VLM模型并展示机器人自动叠衣服案例[1] - 2023年发布π0模型展示复杂任务执行能力,2024年4月推出π0.5模型实现开放世界泛化能力,可在陌生家庭环境完成整理房间等任务[1][8][9] - 技术发展轨迹类似自动驾驶,预计将经历长期积累后突然实现突破性应用[14] 技术瓶颈与突破 - 当前主要瓶颈在于智能软件而非硬件,硬件早在十多年前就已"准备就绪"[17][19][20] - 三大技术难关:复杂任务能力(已突破)、环境泛化能力(已突破)、高可靠性性能(当前最大障碍)[6][8] - 模型在约100个多样化家庭环境训练后即可实现良好泛化,环境共性被低估[6][51] 技术实现路径 - 采用"大模型+大数据"模式,但需解决真实数据收集、硬件适配等复杂系统问题[23] - 创新性使用"知识绝缘"技术,将机器人动作标记化处理,训练速度提升10倍[44][45] - 利用图像修复技术解决推理延迟问题,实现动作预测与执行的同步[47] 行业认知与展望 - 通用机器人基础模型价值被严重低估,形态不重要而智能是关键[52][53] - 预计5年内实现家庭机器人普及,5-10年达到百万家庭应用规模[55] - 行业仍处早期阶段,开源策略有助于推动整体技术进步[60][61] 数据与评估挑战 - 机器人数据量巨大且持续增长,数据基础设施成为关键挑战[34][35] - 评估依赖真实世界测试,需大量重复运行和统计分析,操作繁重[40][41] - 采用新旧模型同步测试的相对评估方法,避免环境变量干扰[40]
技术圈热议的π0/π0.5/A0,终于说清楚是什么了!功能/场景/方法论全解析~
自动驾驶之心· 2025-06-22 09:35
π₀模型结构 - 核心架构基于预训练视觉语言模型(VLM)和Flow Matching技术,包含VLM backbone、动作专家和跨具身训练组件[3] - 整合7种机器人、68项任务、超10,000小时数据,通过权重调整处理不同机器人的动作空间差异[3] - 训练流程基于PaliGemma VLM,融合多模态输入(图像编码器、语言编码器、proprioceptive state编码器)[3] - 独立子网络(3亿参数)负责将VLM输出转换为连续动作,采用流匹配技术生成高频率动作序列(最高50Hz)[3] π₀优势与功能 - 零样本直接执行任务,通过语言提示控制机器人无需额外微调[4] - 支持复杂任务多阶段微调,如叠衣服分解为多个步骤[4] - 语言指令跟随与高层策略集成,提升语义理解与任务规划能力[4] - 高频率精细操作(50Hz)适用于折叠衣物、组装盒子等任务[4] - 单模型适配多种机器人形态,降低部署成本[4] π₀性能分析 - 开箱即用性能:在餐桌清理等任务中指令跟随准确率比π₀-small高20%-30%[4] - 衬衫折叠成功率接近100%,远超OpenVLA[6] - 复杂清理任务正确分类物体数量比Octo高40%[6] - 预训练+微调流程实现60%-80%任务完成度,显著优于从头训练[7] π0.5模型结构 - 采用双阶段训练框架和分层架构,基于Transformer的视觉-语言-动作(VLA)模型[7][9] - 分层推理机制:高级语义子任务预测+低级动作生成[9] - 动作表示融合离散标记(FAST tokenizer)和连续表示(流匹配)[9] - 预训练阶段使用400小时移动机器人数据+非移动机器人数据+网页多模态数据[9] π0.5优势与功能 - 异构数据驱动泛化,实现从未见场景中的任务执行[13] - 长时程任务处理能力,支持10分钟以上连续操作[13] - 零样本语义理解,基于网页数据预训练理解未见过物体[13] - 在"盘子入水槽"等任务中成功率比π0高25%-40%[12] - 离散-连续动作混合训练比纯扩散模型效率高3倍[12] π0.5性能分析 - 真实家庭环境中多阶段任务成功率达60%-88%,任务时长10-15分钟[23] - 随训练环境增加性能持续提升,"整理床铺"成功率从30%升至80%[24] - 跨实体数据移除后任务性能下降20%-30%[24] - 网页数据对未知物体泛化至关重要,移除后成功率从60%降至30%[24] A0模型结构 - 采用分层架构设计:高层空间Affordance理解+低层动作执行[21] - 核心组件包括Position Offset Attention和Spatial Information Aggregation Layer[22][25] - 预训练与微调策略:100万接触点数据集预训练+标注轨迹数据微调[25] A0优势与功能 - 跨平台泛化能力,可在多种机器人平台无缝部署[26] - 高效空间推理,避免密集空间表示的高计算成本[26] - 数据利用效率高,少量任务特定数据即可适应新场景[26] - 可完成擦黑板、物体放置、开抽屉等需要空间推理的任务[26] A0性能分析 - Franka机器人平均成功率62.5%,开抽屉任务成功率75%[27] - Kinova机器人平均成功率53.75%,轨迹跟踪任务比基线高20%[27] - 擦黑板任务成功率比MOKA高15%-20%,比ReKep高约20%[27] - 在Kinova平台擦黑板任务中成功率50%,远超RDT-1B(10%)和π₀(35%)[27]
技术圈热议的π0/π0.5/A0,终于说清楚是什么了!功能、场景、方法论全解析~
具身智能之心· 2025-06-21 20:06
π₀模型结构 - 核心架构基于预训练视觉语言模型(VLM)和Flow Matching技术,包含VLM backbone、动作专家和跨具身训练组件[3] - 整合7种机器人、68项任务、超10,000小时数据,通过权重调整处理不同机器人动作空间差异[3] - 训练流程继承PaliGemma VLM的语义知识,融合多模态输入(图像/语言/物理状态)[3] - 独立子网络(3亿参数)将VLM输出转换为连续动作,流匹配技术实现50Hz高频率动作序列生成[3] π₀优势与功能 - 零样本直接执行预训练覆盖的语言提示任务(如"fold shirt")[4] - 支持复杂任务多阶段微调(如叠衣服分解为4个子步骤)[5] - 语言指令跟随能力可将高层任务(如"bus the table")分解为子任务序列[6] - 流匹配技术实现50Hz精细操作,适用于衣物折叠等高精度场景[7] - 单模型适配多种机器人形态,降低部署成本[10] π₀性能分析 - 开箱即用性能:在餐桌清理等任务中指令跟随准确率比π₀-small高20%-30%[11] - 微调效率:预训练类似任务仅需1-5小时数据微调,全新任务性能比从头训练提升2倍[11] - 复杂任务表现:叠衣服等任务通过"预训练+微调"实现60%-80%完成度[11] - 衬衫折叠成功率接近100%,复杂清理任务正确分类数量比Octo高40%[12] π0.5模型结构 - 采用双阶段训练框架和分层架构,基于Transformer实现多模态序列编码[13] - 分层推理机制:高级语义子任务预测+低级动作生成,结合离散/连续动作表示[16] - 预训练阶段使用400小时异构数据(97.6%非移动机器人数据)[16] - 后训练阶段引入动作专家模块优化实时控制,SigLIP视觉编码器(400M参数)+Gemma语言模型(2.6B参数)[16] π0.5优势与功能 - 异构数据驱动泛化:在未见过场景中执行任务,支持10分钟以上长时程操作[18] - 离散-连续混合训练比纯扩散模型效率提升3倍[17] - 多场景适应性:家庭环境清洁/整理任务,跨实体迁移学习能力[20] - 数据效率突破:仅用400小时移动数据(占2.4%)实现强泛化[21] π0.5性能分析 - 真实环境表现:未训练家庭中多阶段任务成功率60%-88%,单任务耗时10-15分钟[25] - 数据规模影响:104个训练位置时性能接近测试环境基线(差距<5%)[26][27] - 关键数据源:跨实体数据移除导致性能下降20%-30%,网页数据对未知物体泛化至关重要[28] A0模型结构 - 分层架构设计:高层空间Affordance理解+低层动作执行[29] - 核心组件包括Position Offset Attention和Spatial Information Aggregation Layer[30] - 预训练策略:100万接触点数据集预训练+标注轨迹微调[31] A0优势与功能 - 跨平台泛化:支持Franka/Kinova等机器人平台无缝部署[34] - 高效空间推理:通过接触点预测降低计算成本[34] - 数据利用效率:少量任务数据即可适应新场景[34] A0性能分析 - Franka机器人平均成功率62.5%,开抽屉任务达75%[35] - Kinova机器人轨迹跟踪任务成功率比基线高20%[35] - 擦黑板任务成功率比MOKA高15%-20%,执行步骤仅为RDT-1B的1/8-1/10[35]
对标具身智能大模型独角兽[PI] ,这家“清华系”创企又融资!!
Robot猎场备忘录· 2025-05-20 13:01
公司融资动态 - 千诀科技于2025年5月20日完成Pre-A+轮融资,投资方包括钧山投资、祥峰投资和石溪资本,资金将用于技术演进、产品标准化及产业化交付能力提升 [1] - 2025年3月公司完成数千万元Pre-A轮融资,由追创创投与德同资本领投,景业智能战略投资,两个月内连续完成两轮融资 [1][2] - 截至2025年5月,公司累计完成5轮融资(企查查显示4轮),包括2025年1月的天使+和天使++轮(华业天成、瑞江投资领投)及2024年9月的天使轮(英诺天使基金领投),累计融资金额达数亿元 [2] 公司背景与技术定位 - 公司成立于2023年6月,专注于将"类脑"技术应用于机器人感知、决策与控制,开发跨场景部署的通用机器人大模型Universal Policy [3][4] - 核心团队来自清华大学自动化系,研究方向涵盖强化学习、机器人控制及多任务泛化,创始人高海川博士提出通用机器人概念并创建VIPlab机器人组 [9][11] - 技术顾问陈峰教授为国内首批脑科学专家,主导中国脑计划课题,助力公司积累亿级具身感知与决策预训练数据集 [11][14] 核心技术优势与对标企业 - 国内唯一对标美国Physical Intelligence(PI)的企业,自主研发的"具身大脑"系统与PI的π0.5模型功能一致,具备开放环境长时程任务执行能力 [12] - 算法层面:打造产品级机器人感知与决策大模型,支持全自主动态响应环境变化,实现跨形态、跨任务泛化 [16] - 硬件层面:基于Tianjic类脑芯片开发端侧软硬一体方案"脑坞",减少对云端及英伟达算力依赖 [16] 产品商业化进展 - 2024年4月发布机器人感知与决策大模型,已在家庭、商业及工业场景落地,与多家互联网及3C巨头合作 [15] - 计划展示系统在非结构化环境中的全流程自主决策能力,覆盖识别、路径生成到任务执行的闭环 [14] - 全球具身智能赛道两家独角兽为PI和Skild AI,其中PI成立1个月即获7000万美元融资(投后估值4亿美元),2024年11月估值达24亿美元 [15][16][17] 行业趋势与竞争格局 - 科技巨头如谷歌、OpenAI、华为等从投资转向亲自入局人形机器人制造,资本更关注具身智能大模型或强AI能力的本体公司(如自变量机器人、穹彻智能等) [21][22] - 人形机器人商业化依赖软件算法突破,大模型的通识理解与多级推理能力是核心,自研大模型成为企业技术闭环的关键 [20][22] - PI的π0.5模型展示开放世界家庭任务泛化能力,标志机器人技术从实验室向现实突破,国内企业如星尘智能、智元机器人已与PI展开合作 [17][18]
清华系具身大脑团队累计融资数亿规模,对标美国头部公司,已在行业头部厂商落地|硬氪首发
36氪· 2025-05-20 09:33
融资与资金用途 - 公司完成Pre-A+轮融资 由钧山投资 祥峰投资和石溪资本共同投资 累计融资金额达数亿元 [1] - 本轮融资将用于核心技术演进 产品标准化及产业化交付能力提升 [1] 团队与技术背景 - 公司为清华系团队孵化 核心成员多毕业于清华大学自动化系及相关人工智能研究机构 具备顶尖人才密度 [1] - 国内唯一可对标美国Physical Intelligence的企业 率先实现通用具身智能的实景长时程任务执行能力 [1] - 自主研发的"具身大脑"系统通过多模态实时感知 持续任务规划和自主执行 理念与Physical Intelligence的π0.5模型高度一致 [2] 技术特点与突破 - 具身大脑具备跨环境 无预设 长时程特点 可适配二十余种硬件形态 家庭保姆机器人可持续运行数小时直至电量耗尽 [2] - 采用"类脑计算"技术路径 打通感知-推理-行为闭环 实现机器人从被动执行向主动规划的质变 [5] - 系统在开放式非结构化环境下展示全流程自主决策能力 覆盖识别 判断 路径生成 任务执行等维度 [5] - 通过类脑启发的神经推理机制重构决策输入 机器人仅依靠自身传感器进行长时程工作 不依赖人为指令触发 [5] 商业化进展 - 具身大脑已在家庭服务 物流配送 商业运营等场景稳定运行 与多家头部机器人厂商 消费电子及互联网企业达成合作 [6] - 联合知名3C产业方构建全球最大纯实采家庭场景数据集并完成模型训练 部署于实际产品运行 [6] - 系统实现任务抽象与复用 相比传统方案无需针对每类任务重写脚本 成为"可扩展具身智能标品" [6] 产品演示与迭代 - 累计现场演示上百场 最长演示时长超2小时 自2023年6月成立后快速完成从基础框架到产品级落地的迭代 [5] - 具身大脑具备标准化能力 支持灵活适配和快速部署 兼容各类人形与非人形平台 成本与工程交付效率优势显著 [5]