Workflow
WoW具身世界模型
icon
搜索文档
人形机器人“爆单”,规模化落地何解?
21世纪经济报道· 2025-10-23 17:29
21世纪经济报道记者孙燕 上海报道 如果说2024年是人形机器人量产元年,2025年则普遍被认为是人形机器人商业化元年。 从中标项目、采购订单、预订单、意向订单以及销售框架合同看,人形机器人在科研教育、文娱商演的基础上,正陆续在数据 采集、汽车制造、3C制造等场景商业化落地。由易到难 在成千上万的场景中,人形机器人商业化的可行路径何在?由易到难,是整个行业心照不宣的选择。 智元机器人合伙人、高级副总裁、通用业务部总裁王闯在2025可持续全球领导者大会期间的圆桌对话中分享了他眼中的人形机 器人落地路线:先进入不与物理世界接触,能发挥人形机器人运动能力、交互能力以及大语言模型、多模态模型优势的场景; 再拓展到与物理世界接触,但规则简单、物体刚性且精度要求较低的场景;最终进入柔性、高精度场景。 具体到不同场景中,也有落地难易之分。 以养老场景为例,王闯在接受21世纪经济报道等媒体采访时分享道,退休之后可以分为三个阶段:第一阶段人们的行动能力较 好,对机器人的需求在于陪伴;第二阶段人们的行动能力越来越不便,对于机器人的需求在于辅助;第三阶段人们的行动能力 较差,需要机器人提供24小时看护。"难度是逐渐增加的。我们今年 ...
北京人形创新中心开源 WoW,具身智能 “加速跑” 向生活!机器人ETF(562500) 盘中涨幅位居同类第一!
每日经济新闻· 2025-10-21 10:36
市场表现 - 机器人ETF(562500)截至今日10点08分上涨0.81%,涨幅位居同类ETF第一,走势强于中证机器人指数(+0.79%)和上证指数(+0.61%)[1] - ETF成交额为2.91亿元,量比为1.26,交投较为活跃,持仓股中52只上涨、21只下跌,呈现结构性分化[1] - 近五日ETF净流入资金合计约7.3亿元,显示其规模延续稳健增长态势[1] 个股表现 - 持仓股中中信重工涨停领涨板块,矩子科技、科远智慧等涨幅居前[1] - 海得控制、东杰智能出现小幅回调[1] 行业动态 - 北京人形机器人创新中心开源WoW具身世界模型部分模型权重、推理代码与WoWBench,降低了世界模型研究的入门门槛,有望加速具身智能机器人应用发展[1] - 华宝证券表示,人形机器人作为新一代智能终端,有望在未来几年内开启类似于新能源汽车的黄金发展时期[1] 产品概况 - 机器人ETF(562500)是全市场唯一规模超两百亿的机器人主题ETF[2] - 该ETF成分股覆盖人形机器人、工业机器人、服务机器人等多个细分领域,帮助投资者一键布局机器人上中下游产业链[2]
北京人形机器人创新中心提出具身世界模型WoW
证券日报网· 2025-10-20 20:48
本报讯 (记者贾丽)继DeepSeek在大语言模型开源促进行业发展后,北京人形机器人创新中心(以下 简称"北京人形")再次打破边界并开源了全新的世界模型架构,提出了一个让机器人真正"看见、理解 并行动于世界"的具身世界模型——WoW(World-Omniscient World Model),旨在帮助具身智能机器人 快速学习掌握各项技能,助力行业打造"最好用"的机器人。一经发布,该模型便受到学术界和产业界的 广泛关注。 同时,WoW不是在记忆训练场景,而是在学习"物理规律的抽象本质",具备跨机器人形态泛化、任务 泛化、场景泛化全方位能力,这类"视觉+物理"的泛化能力,是通向具身智能的关键指标。 WoW具身世界模型遵循SOPHIA范式,让模型越看越准,越生成越真实。SOPHIA自反范式是指,业内 首次提出SOPHIA框架,让世界模型"自己教自己"。 据了解,WoW具身世界模型可以实现视频生成和机器人动作闭环,意味着AI不再停留在"想象中",而 能真正"动手"去验证自己的理解,标志着真正实现从生成到执行的跨越。 北京人形提出了专测"物理一致性与因果推理"的新基准WoWBench,也是全球首个针对具身世界模型的 综 ...
斯坦福具身智能大佬引用,Huggingface官方催更:北京人形开源WoW具身世界模型
Robot猎场备忘录· 2025-10-18 13:08
文章核心观点 - 北京人形机器人创新中心开源了名为WoW的具身世界模型,该模型融合了视觉、动作、物理感知与推理,旨在让机器人理解物理世界并执行动作,标志着从技术生成到实际执行的跨越 [2][4][26] - WoW模型在物理一致性、因果推理和跨场景泛化能力上表现卓越,其性能在多项基准测试中全面领先于其他强势基线模型,特别是在复杂物理场景中优势显著 [5][33][36] - 该模型的开源策略及配套工具旨在降低研究门槛,构建世界模型的研究基础设施,加速具身智能技术在学术研究和产业应用层面的发展 [42][43][51] 技术架构与核心组件 - WoW模型采用创新的多模态大模型框架,将世界生成、动作预测、视觉理解和自我反思融合为统一系统,解决了传统架构在物理一致性和因果推理方面的局限 [7][9] - 模型核心组件包括:1)统一的世界生成框架;2)SOPHIA自反范式,实现“生成-批评-修正”的迭代循环;3)FM-IDM逆动力学模型,实现从视频生成到机器人动作的闭环;4)WoWBench全球首个具身世界模型综合基准 [10][23][26][29] - 模型基于从800万条机器人交互轨迹中筛选出的200万条高质量数据训练,参数规模从1.3B扩展到14B,验证了模型规模与物理一致性、生成稳定性及泛化性的正相关关系 [12][40] 性能表现与基准测试 - 在WoWBench基准测试中,WoW-DiT在未加入SOPHIA自优化模块时,总体评分已达49.39,领先于Cosmos-Predict、CogVideoX等模型;加入自优化模块后,总体评分进一步提升至51.97,全面领先 [33][34][35] - 在物理模拟量化测评中,WoW模型在刚性体、软体、流体、光学等多种复杂动力学场景中均表现最佳,尤其在非刚体动力学领域优势显著 [36][37] - 在实际任务执行中,WoW驱动的FM-IDM模型在简单任务成功率高达94.5%,中等难度任务成功率达到75.2%,创下新SOTA,其生成的动作几乎可直接在真实机械臂上执行 [38][40] 开源策略与生态构建 - 公司开源了包含1.3B、2B、7B、14B四个参数规模的预训练模型权重、完整的训练推理代码以及WoWBench评估基准,为全球研究者提供了可复现和深入开发的基础 [42][44][45][49] - 开源内容旨在构建世界模型的研究基础设施,大幅降低该领域的研究门槛,促进学术界的快速进步和产业界的广泛应用 [43][51] 应用前景与产业赋能 - 在学术研究层面,WoW模型及WoWBench基准提供了统一的平台和可比较的评估体系,加速世界模型领域的科研进展与复现 [51] - 在技术演进层面,模型可作为交互式生成模拟沙盒,提升视觉语言模型在长时序任务规划中的自我调试和反思能力 [51] - 在产业应用层面,模型具备数据迁移与扩增能力,能从少量真实数据生成合成样本,实现“自我造数”,并能将视觉想象反推为可执行动作指令,赋能机器人在复杂环境中的自主操作 [53][54][56]
斯坦福具身智能大佬引用,Huggingface官方催更:北京人形开源WoW具身世界模型
机器之心· 2025-10-17 19:53
文章核心观点 - 中国团队开源了世界模型WoW,旨在让AI通过身体互动学习物理规律,实现从感知、生成到行动的闭环,是具身智能领域的重要进展 [2][3] - WoW模型的核心创新在于将世界生成、动作预测、视觉理解和自我反思融合,使AI具备“想象-验证-修正-执行”的物理直觉能力 [16][21] - 该模型在真实机器人任务中表现出色,并在多项评测中超越同期模型,显示出强大的泛化与应用潜力 [34][42][45] 模型架构与核心技术 - 模型提出四大核心模块:SOPHIA自反范式、DiT世界生成引擎、FM-IDM逆动力学模型和WoWBench评测基准 [17] - SOPHIA框架使模型具备自我评估与修正能力,通过“生成-批评-改进”的循环迭代优化预测结果 [19][20] - FM-IDM模块能将预测的视频帧反解为机器人末端7自由度的可执行动作,实现从视频生成到物理行动的闭环 [28][29][32] 性能表现与实验结果 - 模型基于800万条交互数据筛选出200万条高质量训练集,在140亿参数视频模型上训练,展现出对未来物理结果的概率分布构建能力 [6] - 在20个机器人操控任务中,简单任务成功率高达94.5%,中等难度任务达到75.2%的新SOTA水平 [34] - 在WoWBench基准评测中,模型在任务指令理解方面得分96.5%,物理一致性超过80% [38] - 消融实验表明,模型性能随数据规模与参数量的扩大而提升,14B参数模型性能最强,7B模型在效率与性能间更平衡 [46][48] 泛化能力与创新应用 - 模型展现出三种核心泛化能力:跨机器人形态泛化、任务技能泛化以及跨视觉风格的领域泛化 [52][55][57] - 具备反事实推理能力,可在假设条件下进行物理推理与行为重新规划,例如预测腐蚀性液体的影响或坚硬材质物体的不可移动性 [61][63] - 模型可用于世界模型迁移与数据扩增,通过生成物理一致的合成数据降低真实数据采集成本,并支持VLM规划自我校正,将任务成功率从33%提升至89% [69][76] 行业影响与未来展望 - WoW模型标志着AI从被动观察者向主动干预世界的智能体转变,为通用机器人的落地与泛化能力带来曙光 [14][80] - 项目已全面开源1.3B至14B的全系列模型权重与代码,旨在促进世界模型研究社区的合作与发展 [24][89] - 该工作被视为通向具身物理世界模型“操作系统”的关键一步,为AI在多模态融合与自主交互方面的进化奠定了基础 [79][85]