Workflow
Pi0.5
icon
搜索文档
超百万算力、72小时、近百台真机:具身智能的刷分时代,被一场「裸考」终结
机器之心· 2026-04-01 13:04
赛事概况与核心理念 - 全球首届具身智能开发者大会(EAIDC)暨“具亮计划”黑客松决赛于3月30日收官,是全球首个将“真实环境+真实任务”同时写入赛制的大规模具身智能赛事[11] - 赛事旨在通过真实世界的随机性、多样性与复杂性检验具身智能模型能力,认为最好的测评不在榜单而在现实世界[8][9] - 赛事为期72小时,20支队伍现场使用真机完成数据采集、模型训练和系统部署,模型、算力、硬件等基础设施由主办方统一提供[3][4][5][7] 赛事组织与基础设施 - 主办方为降低上手难度,打造了“顶配考场”,提供超过100 PFLOPs算力、近百台高性能六轴机械臂、开源基础模型、数据集及完整的数据采集、训练和推理基础设施[16][17] - 比赛采用24小时轮转评测并实时出分以保证公平[33] - 在统一基础设施下,外部变量被抹平,核心考察点在于模型能否在真实世界快速落地[18] 赛题设计与技术挑战 - 决赛设置四道任务,难度递增,对应具身智能落地的真实痛点[20] - 前两题“套圆环”和“分水果”是基础能力测试,分别考察精细操作和语言到动作的映射能力[21] - 后两题“插电源线”和“拼单词”是拉开差距的关键,权重更高,重点考察在不确定环境中完成精细对齐的能力,以及长时序、多步骤的任务规划与执行能力[23][25] - 赛题设计指向从Robotics到Embodied AI的转变,强调“脑力”是决定能力上限的关键[23] 比赛结果与技术洞察 - 参赛队伍来自清华、北大等顶尖高校与科研机构,初始任务成功率仅在20%–30%左右,通过调参和优化,成功率显著提升,例如套圆环任务可达60%–70%,拼单词任务可达40%–50%,证明模型在真实环境中能被快速调优并实际工作[30] - 比赛也暴露出模型泛化能力不足、训练范式和数据利用效率不高等问题[31] 行业痛点与开源必要性 - 行业长期缺乏在真实物理环境中检验技术成熟度的统一评测体系[11] - 具身智能已演变为从数据采集、模型训练到真机部署的系统工程,门槛极高,不开源则大多数开发者无法入场,高校也难以培养落地人才,行业易陷入少数团队内部循环[37] - 当前技术路线无标准答案,需通过开源吸引更多人参与试错,加速技术收敛,开源的意义在于“制造共识”并定义未来技术路径[37] - 具身智能开源与大模型不同,需平衡数据隐私、硬件绑定和核心竞争力保护等问题,寻求开放与保护的平衡点[37] 开源实践与生态建设 - 自变量机器人通过赛事实践了“真开源”,不仅开放代码,更开放“能跑通的能力”,包括数据、流程及真实环境,其开源模型WALL-OSS可通过标准工具链在几小时内完成从模型加载到机械臂执行的闭环部署[38] - 开源生态旨在吸引大量开发者(包括非科班出身者)参与,通过社区力量扩展模型能力边界,构建中国自己的“具身智能大脑”[39] - 表现突出的方案可进入WALL-OSS官方示例库获得行业认可,企业可站在社区肩膀上发展,社区反馈能暴露问题,推动技术体系进化,形成“开源—创新—回馈”的闭环[45][46] 未来路径:真泛化与生态驱动 - 实现真泛化要求具身智能必须走进真实家庭与生活等随机场景,大规模持续采集数据开展训练[40] - 技术路径必须从通用基础模型出发,向具体场景高效迁移,实现规模化落地[41] - 行业进化将不再依赖少数公司,而是依靠由生态驱动的、持续加速的系统,赛事通过降低门槛、吸引开发者参与,加速生态形成[44][45][48] - 未来EAIDC将持续举办,旨在成为具身智能领域的“真实世界评测场”和行业观察窗口[50][51]
蚂蚁出手VLA,就是开源超越Pi0.5的基座模型
机器之心· 2026-01-28 11:36
行业现状与核心挑战 - 当前具身智能产品(如1X公司的Neo机器人)在演示场景中能完成特定任务,但在面对多样化的真实日常任务时,泛化能力严重不足,常需工程师远程教学,处于“半成品智能”状态[1] - 行业落地的核心瓶颈在于模型的**泛化能力不足**,突破瓶颈的共识是需要**大规模、多样化的真实机器人数据**来训练模型,但高质量真机数据采集成本高,且不同构型机器人的数据难以复用,导致多数模型训练受限[2] 蚂蚁灵波LingBot-VLA模型概述 - 蚂蚁灵波开源了具身智能基座模型**LingBot-VLA**,该模型基于约**20000小时**、覆盖**9种主流双臂机器人构型**的真实世界数据预训练而成[2] - 在涵盖**100多项任务**的统一真机评测基准下,其整体表现**超越了之前的行业标杆Pi0.5**,成为能够跨本体、跨场景泛化的开源具身基座模型新标杆[2] - 该模型的超越源于其在模型架构、数据规模与训练效率上的系统性突破,公司并**开源了相应的模型权重、代码、后训练工具链**,以助力开发者[3] 行业标杆Pi0.5的地位与意义 - 在LingBot-VLA出现前,Physical Intelligence开源的**Pi0.5是行业无法绕开的标杆**,它首次在开源世界证明了一个模型无需针对特定场景训练,就能在完全陌生的真实家庭环境中完成长达**10-15分钟的复杂操作链条**[7] - Pi0.5的成功让行业看到具身智能从“实验室奇观”过渡到“规模化产品”的可能性,因此成为学术和产业界模型选型中“必须要比一比”的对象,许多机器人公司选择在其基础上进行微调,巩固了其生态核心地位[7] - 许多自研模型只能在特定任务或固定构型机器人上取得优势,一旦更换任务或机器人本体,性能就会大幅退化,这本质上是专用模型的胜利,而非泛化能力的提升[8] LingBot-VLA的性能验证与优势 - 模型在全新的具身智能基准**GM-100**上接受测试,该基准包含**100项真机任务**,涉及长序列任务和精细操作(如串糖葫芦、拉软包拉链),设计复杂严谨[12] - 测试部署在来自**三大不同平台(AgileX、Agibot G1、Galaxea R1Pro)的25台机器人**上,是对跨本体、跨任务能力的综合考验[13] - 实验结果显示,在所有测试平台上,LingBot-VLA的**成功率(SR)和部分成功率(PS)均最高**,相比Pi0.5,**平均SR提高了4.28%,PS提高了7.76%**[14] - 具体数据:在Agibot G1平台上,LingBot-VLA(带深度信息)的SR为11.98%,PS为30.47%;在AgileX平台上,SR为18.93%,PS为40.36%;在Galaxea R1Pro平台上,SR为20.98%,PS为35.40%,各项指标均领先于Pi0.5、GR00T N1.6和WALL-OSS等对比模型[15] 模型的数据与算力效率 - **数据利用效率更高**:在Agibot G1平台上,LingBot-VLA仅使用**80条示范数据**进行后训练,其表现就超越了使用**130条完整数据**训练的Pi0.5模型,且随着数据量增加,性能差距进一步拉大[17] - **算力效率更高**:在相同数据集和架构下,其训练吞吐量(samples/s)显著高于StarVLA、Dex Botic、OpenPI等主流开源框架,在两种模型设置下均实现最快训练速度[19] - 训练框架扩展性极佳,随着GPU规模从**8卡扩展至256卡**,训练效率仍能紧密跟随理论线性扩展上限,这意味着企业能以更低算力成本、更短训练周期完成模型迭代[19] 模型架构与技术细节 - 架构上,LingBot-VLA选择强大的预训练视觉语言模型**Qwen2.5-VL**作为“大脑”,并配以专门生成机器人动作的“动作专家”,两者通过**Mixture-of-Transformers (MoT)** 架构有机结合,保证视觉语义知识指导动作生成,又避免模态间干扰[20] - 动作生成采用**Flow Matching**方法建模连续平滑的动作轨迹,以提升复杂操作的控制稳定性[21] - 空间感知采用**基于视觉蒸馏的深度信息融合方法**,通过可学习的查询机制,使视觉语言主干提取的特征与专用深度模型LingBot-Depth生成的空间表征进行对齐,而非直接输入深度图[21] - 训练代码库进行了系统级优化,采用改进的FSDP策略、FlexAttention和算子融合等技术,最终训练吞吐量达到**每GPU每秒261个样本**,相比主流开源代码库有**1.5至2.8倍的加速**[24] 行业意义与未来展望 - LingBot-VLA的发布为行业提供了首个扎实的实证,证明**通过扩展真实数据可以实现更强泛化**,公司技术报告首次系统性地揭示了VLA模型在真实机器人数据上的**Scaling Law**:随着预训练数据规模从3000小时扩展至20000小时,模型下游任务成功率持续显著提升,且性能曲线在20000小时量级仍未显示饱和迹象[26] - 这类以真实交互数据为核心的成功实践,为**VLA模型未来与世界模型的深度融合**奠定了现实基础[28] - 尽管取得突破,但所有模型在GM-100上的**平均成功率都未超过20%**,表明具身模型距离真正的跨本体、跨场景泛化仍有很长的路要走[28] - LingBot-VLA可被理解为蚂蚁AGI版图中面向“**真实世界交互**”的一次落子,在通用智能能力之外,通过具身智能把模型带入物理世界闭环,其开源发布及同步建设InclusionAI社区,旨在以更开放的协作扩大验证面,加速迭代[28]
一款持续在进化的具身机械臂......
具身智能之心· 2026-01-22 17:42
产品定位与核心价值 - 公司推出Imeta-Y1,一款面向具身智能科研领域的轻量级高性价比机械臂,旨在解决该领域硬件选择中“太贵买不起”或“太便宜难用”的痛点 [2] - 产品专为新手、科研初学者、学生、教育工作者及刚入行的开发者设计,旨在帮助用户低成本、高效率地完成算法验证与项目开发 [2] - 公司认为真正的“性价比”不在于静态参数,而在于产品的持续进化能力,并致力于通过开源更新和功能迭代来拓展“轻量级”的边界 [2] 目标用户与核心优势 - 对新手友好,提供全流程开源工具链和代码示例,覆盖从数据采集到模型部署的全过程,帮助新人快速上手不卡壳 [3][17] - 提供快速响应的售后支持,承诺24小时内响应,为学习过程提供保障 [3][19] - 支持批量采购,并提供更多优惠,同时支持基于该产品的项目开发与教学培训 [19] 产品关键性能参数 - 机械臂本体重量为4.2公斤,额定负载为3公斤,拥有6个自由度 [8][19] - 工作半径为612.5毫米,重复定位精度达到±0.1毫米 [8][19] - 供电电压为24V,采用PC作为控制器,材质主要为铝合金 [8][19] - 通讯方式为CAN,控制方式支持轨迹跟踪、示教和API [8][19] - 各关节运动速度最高可达180°/s至220°/s [8][21] 软件开发与兼容性 - 提供完整的开源软件开发工具包(SDK),包含驱动程序、API接口、示例代码与文档 [29][30] - 支持Python和C++双语言开发接口,方便不同编程背景的用户快速上手 [3][18][30] - 兼容ROS1和ROS2机器人操作系统,并提供URDF模型,支持仿真与真机无缝切换 [3][17][19] - 提供从数据采集、模型训练到推理部署的全流程工具链,支持视觉、力控等多模态数据融合 [17][36] - 兼容TensorFlow、PyTorch等主流AI框架,助力实现端到端的智能算法落地 [17][36] 仿真与部署能力 - 提供URDF模型,支持Gazebo等主流仿真环境与真机实时联动,用户可在仿真中验证算法后一键部署至物理设备,降低开发风险与调试成本 [17][22] - 产品已适配Pi0与Pi0.5任务,并能够适配Lerobot框架,同时被赋予VR遥操作能力 [2] - 公司计划后期陆续升级更新VLA(视觉语言动作)、VA(视觉动作)相关的源码,且新老客户均可享受升级 [19] 硬件配置与扩展 - 机械臂采用紧凑型结构与模块化接口,适用于嵌入式AI与机器人学习平台的开发与应用推广 [6] - 产品已适配RealSense D435系列、奥比中光DCW2等型号的相机 [50] - 公司表示所有开源模型用户均可自行微调,并已适配Pi0和Pi0.5模型 [50] - 对于需要运行VLA模型的用户,公司适配的ALOHA ACT算法在NVIDIA GeForce RTX 4060显卡上即可进行训练和推理 [50] 交付与售后政策 - 产品交付周期为1至2周 [48] - 提供半年质保,范围限于非人为损坏,质保期后售后服务需按市场价付费 [49] - 不支持无理由退货或测试,除非产品本身存在问题 [51]
速递 | 中国公司干翻硅谷!全球具身智能第一,完全开源
文章核心观点 - 中国公司千寻智能凭借其开源的Spirit 1.5模型,在全球权威的具身智能真机评测榜单RoboChallenge Table30中夺得第一,标志着中国团队在该领域进入世界第一梯队 [1][2] - 千寻智能的成功源于其创新的“多样化采集”数据范式,利用真实世界的“脏数据”进行训练,显著提升了模型的迁移学习效率和泛化能力 [4][5] - 具身智能行业正处发展拐点,未来1-2年将出现明显分化,软硬一体、拥有产业资源和真实数据闭环的公司更可能胜出,并带来就业、产业及供应链等多重机会 [12][13][22] 行业竞争格局与公司定位 - 全球具身智能赛道玩家主要分为三派:以特斯拉、波士顿动力为代表的**硬件派**;以Physical Intelligence、Skild AI为代表的**软件派**;以及以千寻智能为代表的**软硬一体派** [11][12] - 千寻智能属于软硬一体派,同时拥有自研的Spirit大模型和自研的人形机器人Moz1,并能向其他硬件厂商提供算法解决方案 [12] - 软硬一体路线的核心优势在于能形成**数据闭环**,通过硬件收集真实场景数据持续训练模型,模型能力提升后又可反哺硬件表现,形成飞轮效应 [13] - 国内其他主要公司包括智元机器人、星动纪元、宇树科技等,其中宇树科技在四足机器人领域表现突出,但在“人形机器人+通用大模型”的路径上,千寻智能目前处于领先位置 [15] 技术突破与竞争优势 - 千寻智能的Spirit 1.5模型在RoboChallenge Table30榜单中取得**总分66.09分,成功率50.33%**,超越了此前排名第一、获得4亿美金融资的Physical Intelligence的模型Pi0.5(总分61.84分,成功率42.67%)[2][3] - 其技术核心是**“多样化采集”** 数据方案,放弃精心设计的固定任务演示,让机器人在实现大目标的过程中自主应对真实世界的复杂情况 [4] - 使用这种“脏数据”训练的模型,其**迁移学习效率比使用“干净数据”训练的模型高出40%**,学习新任务仅需后者六成的训练时间,且泛化能力更强 [4] - 该技术路径的优势在具体任务中得以体现,例如在插花等需要精细操作的任务上,Spirit 1.5因接触过更多真实世界的复杂情况,表现比主要在仿真环境中训练的Pi0.5更稳定 [14][15] 公司背景与资本认可 - 创始人韩峰涛为珞石机器人前CTO,拥有十余年机器人行业产业化经验;联合创始人高阳为清华姚班毕业、伯克利博士,师从具身智能领域泰斗Pieter Abbeel [6] - 公司成立于2024年2月,成立当年即完成3轮融资,2025年又完成Pre-A和Pre-A+轮融资,最新一轮融资额近**6亿元**,由**京东领投** [8] - 京东投资逻辑在于其自身拥有海量物流与零售场景,需要能实际干活的机器人,而千寻的机器人已能在办公室场景下完成桌面整理、扔垃圾等任务 [9] - 公司于去年被《The Information》评为“全球最具潜力创业公司”亚洲区第二名,该榜单素有“创业界奥斯卡”之称 [9] 发展前景与行业机会 - **2026年被认为是具身智能的量产元年**,行业将迎来大规模落地 [20] - 未来1-2年,行业将出现明显分化:纯软件公司若无法获取足够真实数据将掉队;纯硬件公司若模型能力不足将被边缘化;最终胜出者大概率是千寻这类**软硬一体且有产业资源背书**的公司 [22] - 京东在2025年7月连续投资千寻智能、逐际动力、众擎机器人三家具身智能头部公司,其背后逻辑是押注具身智能将成为未来十年的关键基础设施,类似2010年的云计算 [22] - 判断公司潜力的三个关键指标包括:**第三方榜单真实排名**、**真实的商业订单与落地场景**、以及团队是否**真正懂产业化** [25] 对从业者与产业的启示 - **就业机会**:三大方向人才紧缺,包括机器人算法工程师(需懂多模态大模型、强化学习)、场景解决方案专家、以及数据标注与采集工程师 [19] - **产业机会**:制造业可接触机器人公司进行产线试点;服务业(餐饮、酒店、养老)可提前布局以应对人力成本上升;供应链存在巨大机会,人形机器人涉及上千个零部件 [20] - **认知机会**:物理AI(具身智能)与ChatGPT等虚拟AI逻辑不同,它需要在真实世界中负责任地行动,将重新定义安全标准、伦理边界和法律责任,提前理解这一转变具有战略优势 [20]
具身开源模型新王!千寻Spirit v1.5模型登顶 RoboChallenge,终结 Pi0.5领跑时代
量子位· 2026-01-12 08:37
Spirit v1.5模型性能表现 - 千寻智能的具身智能基础模型Spirit v1.5在RoboChallenge真机评测榜上,以总分66.09、成功率50.33%的成绩超越美国公司Physical Intelligence的Pi0.5,登顶榜首[1] - Spirit v1.5是RoboChallenge自上线以来,首个击败基准模型Pi0.5的国产具身模型,同时也是首个在该榜单上成功率超过50%的具身智能模型[3] - 在“寻找绿盒”任务中,Spirit v1.5的成功率达到90%,显著领先于Pi0.5的80%和Pi0的70%[11][12] - 在“水果入篮”任务中,Spirit v1.5以80%的成功率领先Pi0.5(40%)整整一倍[14] - 在“贴胶带”任务中,Spirit v1.5以20%的成功率实现对比Pi0.5(10%)的翻倍领先[20] - 在“插花”任务中,虽然Spirit v1.5与Pi0.5成功率均为50%,但Spirit v1.5的稳定性更高,没有出现极端的失败案例[16] 技术路径与数据策略 - Spirit v1.5的核心创新在于预训练阶段的数据策略,从高度精选、强控制的“干净数据”转向多样化、开放式、弱控制的数据采集范式[33][34] - 开放式采集鼓励数据采集员围绕任务目标自由行动,而非遵循固定流程,使数据连续覆盖抓取、插入、整理、双臂协作等大量原子技能[40][41][43] - 该数据策略带来工程收益:人均有效采集时长提升约200%,对算法专家深度介入的需求降低约60%[45] - 消融实验显示,在预训练数据规模一致的前提下,采用多样化预训练的模型在新任务上达到相同性能时,所需迭代次数减少约40%[47] - 研究表明,对具身模型而言,任务多样性比单一任务的演示数量更为关键,模型学到的是可迁移的通用策略[52] RoboChallenge基准测试平台 - RoboChallenge由Dexmal原力灵机联合Hugging Face发起,是首个在真实物理环境中由真实机器人执行操作的大规模、多任务基准测试,被誉为具身智能的“ImageNet”[8][25] - 其Table30任务集通过30个高频桌面及周边日常场景,从视觉语言动作模型难点、机器人形态、任务流程与物体属性等维度考察模型真实世界通用操作能力[25] - 平台采用远程机器人范式,参赛者通过HTTP接口向机器人发送控制指令,显著降低参赛门槛,并使不同算法能在同一套真实硬件条件下接受统一评测[27][29] - 平台区分任务特定与通用型两种训练协议,榜单中带有“/multi”后缀的模型遵循更具挑战性的通用型设定[32] 公司背景与行业影响 - Spirit v1.5的研发团队千寻智能成立于2024年1月,是一家具备AI+机器人全栈技术能力的具身智能公司,常被称为“中国版Figure”[57][58][59] - 公司创始人兼CEO韩峰涛为机器人行业连续创业者,曾主导交付超2万台工业机器人;联合创始人兼首席科学家高阳为清华交叉信息研究院助理教授,其提出的ViLa算法被Figure采用[61] - 2025年,千寻智能完成超15亿元融资,其中PreA+轮由京东领投6亿元[61] - 公司通用人形机器人“小墨”已于2025年底在宁德时代电池产线规模化落地,精细作业成功率突破99%[61] - Spirit v1.5同步开源了模型权重、推理代码及使用样例,其登顶成绩及开源举措意味着技术进展被放入开源体系,旨在与社区共同推动具身智能发展[7][56][68][71]