WoW具身世界模型
搜索文档
“WoW”具身世界模型来了!机器人实现从想象预演到动作执行“知行合一”
央视网· 2025-10-26 13:23
模型技术核心 - 模型名称为WoW具身世界模型 由科研团队自主研发 [1][3] - 模型本质是AI模拟人类思考决策时进行想象和预测的模型 能生成符合物理规律的未来预测视频 [5] - 模型实现了从想象预演到动作执行的知行合一能力 指导机器人与真实世界交互 [3] 技术能力与数据 - 模型能够自主1:1复刻视频中的动作姿态 视频是机器人行动前想象出来的预演画面 [3] - 科研团队采集了百万级别真实交互的具身智能数据 [8] - 模型能在非常泛化的真实场景下操作 并高精度模拟水洒在电脑上等极端情况 [8][10] 应用范围与影响 - 模型向全球研究者与开发者开放 [10] - 技术可适配人形 类人形 机械臂等不同本体机器人 [10] - 应用场景覆盖家居 商超 工业 物流等多种领域 [10]
具身世界模型开源 让机器人学会“预演”未来
央视网· 2025-10-25 22:59
技术突破与核心能力 - 开源WoW具身世界模型 使机器人具备从想象预演到动作执行的知行合一能力 [2] - 世界模型本质是AI模拟人类思考和决策时进行想象和预测的模型 能生成符合物理规律的未来预测视频 [4] - 模型可适配人形 类人形 机械臂等不同本体机器人 覆盖家居 商超 工业 物流等多种场景 [6] - 模型能高精度模拟水洒在电脑上等极端情况 为真机训练难以实现的数据采集提供重要补充 [6] - 研发团队创新构建全球首个具备自主进化能力的多模态世界模型体系 让世界模型自己教自己 [7] 技术实现与数据基础 - 机器人行动前可先想象出预演画面 用以指导其与真实世界的交互 [2] - 利用手机在家居场景下拍摄的图片 世界模型可生成未来状态并转换成机器人具体执行的操作 [6] - 项目采集了百万级别真实交互的具身智能数据 使模型能在真实且泛化的场景下操作 [6] - 首创具身世界模型与视觉语言模型双模型协同联动的多模态世界模型体系 [7] - 具身世界模型负责物理推演与动态预测 视觉语言模型负责多模态理解 长程任务规划与逻辑自校正 [7] 自主进化与学习机制 - 双模型共同形成想象-验证-修正-再想象的具身智能学习回路 [7] - 机器人通过真实环境的试错学习形成因果理解 自主进化出类似人类心智的物理直觉 [7] - 视觉语言模型与世界模型像打乒乓球一样来回传递信息 使机器人能力越来越好 [9] - 从想象推理到真实世界中的执行动作形成反馈闭环 使世界模型能不断自我进化并在真实场景中自我提升 [9] 行业合作与生态建设 - WoW具身世界模型由北京人形机器人创新中心联合北京大学 香港科技大学团队研发 [6] - 模型向全球研究者与开发者开放 [6] - 北京人形机器人创新中心同步发布全球首个针对具身世界模型的综合基准 构建四大核心能力的多维评测体系 [9]
人形机器人“爆单”,规模化落地何解?
21世纪经济报道· 2025-10-23 17:29
行业商业化进程 - 2025年被普遍认为是人形机器人商业化元年,下半年以来订单出现井喷[1] - 优必选中标广西具身智能数据采集及测试中心项目,金额达1.26亿元[1][2] - 智元机器人获得均胜电子、龙旗科技等企业订单,总金额达数亿元[1][2] - 宇树科技中标中国移动订单金额7800万元及上海大学订单金额380万元[2] 商业化应用场景 - 人形机器人正从科研教育、文娱商演向数据采集、汽车制造、3C制造等场景落地[2] - 智元机器人明确讲解接待、文娱商演、工业智造等八大商业化场景[4] - 行业选择由易到难的商业化路径,优先进入不与物理世界接触或规则简单的场景[2][3] - 银河证券看好工业物流、机构养老、特种环境及toC陪伴等中短期应用场景[6] 技术发展现状与瓶颈 - 人形机器人运动能力飞速发展,从去年走不稳到今年已能满地跑[7] - 当前机器人运动和交互能力展现出超越人类趋势,但作业能力仍有较大差距[7] - 传感器等核心硬件性能不足是规模化落地的首要瓶颈,尤其缺乏像素级别的触觉传感器[8] - 高自由度灵巧手、电池续航、成本、端侧算力等也是重要难题[8] - 软件和大模型训练是更大挑战,需要基于庞大高质量数据进行训练[8] 行业协同与创新 - 业界通过开源大模型、数据集、工具链等方式推动协同创新[9] - 2025年已推出多款开源人形机器人大模型,如智元的GO-1、宇树的UnifoLM等[9] - 大模型能支撑机器人达到场景应用的60分及格线,但需针对性训练以达到95分以上落地标准[9] - 多家公司开源机器人操作数据集,如宇树的UnitreeG1、北京人形机器人创新中心的RoboMIND等[9]
北京人形创新中心开源 WoW,具身智能 “加速跑” 向生活!机器人ETF(562500) 盘中涨幅位居同类第一!
每日经济新闻· 2025-10-21 10:36
市场表现 - 机器人ETF(562500)截至今日10点08分上涨0.81%,涨幅位居同类ETF第一,走势强于中证机器人指数(+0.79%)和上证指数(+0.61%)[1] - ETF成交额为2.91亿元,量比为1.26,交投较为活跃,持仓股中52只上涨、21只下跌,呈现结构性分化[1] - 近五日ETF净流入资金合计约7.3亿元,显示其规模延续稳健增长态势[1] 个股表现 - 持仓股中中信重工涨停领涨板块,矩子科技、科远智慧等涨幅居前[1] - 海得控制、东杰智能出现小幅回调[1] 行业动态 - 北京人形机器人创新中心开源WoW具身世界模型部分模型权重、推理代码与WoWBench,降低了世界模型研究的入门门槛,有望加速具身智能机器人应用发展[1] - 华宝证券表示,人形机器人作为新一代智能终端,有望在未来几年内开启类似于新能源汽车的黄金发展时期[1] 产品概况 - 机器人ETF(562500)是全市场唯一规模超两百亿的机器人主题ETF[2] - 该ETF成分股覆盖人形机器人、工业机器人、服务机器人等多个细分领域,帮助投资者一键布局机器人上中下游产业链[2]
北京人形机器人创新中心提出具身世界模型WoW
证券日报网· 2025-10-20 20:48
文章核心观点 - 北京人形机器人创新中心开源了全新的具身世界模型WoW,该模型融合了视觉、动作、物理感知与推理,旨在让机器人理解物理世界并自主操作,有望成为世界模型领域的“DeepSeek”[1] - 模型相较于Sora2在模拟机器人操作的时空一致性和物理推理能力方面表现更为出色,实现了从生成到执行的跨越[1][2] - 公司通过开源模型权重和WoWBench基准,降低了研究门槛,加速了具身智能机器人的技术发展和产业落地[3][4] 创新的技术架构 - 提出全新的多模态大模型框架,将世界生成、动作预测、视觉理解和自我反思融合为一个统一系统,解决了传统架构在物理一致性、因果推理和泛化方面的局限[2] - 模型遵循SOPHIA自反范式,具备“视觉+物理”的泛化能力,能够跨机器人形态、任务和场景进行泛化,是通向具身智能的关键指标[2] - 模型实现了视频生成和机器人动作闭环,使AI能通过交互学习物理规律,并动手验证自己的理解[2] 模型性能与评估基准 - 公司提出了全球首个针对具身世界模型的综合基准WoWBench,从感知理解、预测推理、决策与规划、泛化执行四大核心维度评估模型能力[3] - 基准采用混合评测机制(专家模型+GPT或精调VLM+人类专家)进行评分,确保模型表现与人类认知保持一致[3] 应用前景与产业赋能 - 模型可实现数据迁移与扩增,从少量真实数据生成更多合成样本,完成“想象-生成-再标注-迁移”的自循环过程,让AI拥有“自我造数”能力[4] - 模型可以从视觉“想象”中反推真实可执行的动作指令,使机器人具备在复杂环境中自主理解与执行自然任务指令的能力[5] - 结合公司此前在“具身天工Ultra”和世界人形机器人运动会中展示的“最能跑”技术实力,本次开源进一步展现了公司在大脑方面的领先实力,加速具身智能落地应用[5]
斯坦福具身智能大佬引用,Huggingface官方催更:北京人形开源WoW具身世界模型
Robot猎场备忘录· 2025-10-18 13:08
文章核心观点 - 北京人形机器人创新中心开源了名为WoW的具身世界模型,该模型融合了视觉、动作、物理感知与推理,旨在让机器人理解物理世界并执行动作,标志着从技术生成到实际执行的跨越 [2][4][26] - WoW模型在物理一致性、因果推理和跨场景泛化能力上表现卓越,其性能在多项基准测试中全面领先于其他强势基线模型,特别是在复杂物理场景中优势显著 [5][33][36] - 该模型的开源策略及配套工具旨在降低研究门槛,构建世界模型的研究基础设施,加速具身智能技术在学术研究和产业应用层面的发展 [42][43][51] 技术架构与核心组件 - WoW模型采用创新的多模态大模型框架,将世界生成、动作预测、视觉理解和自我反思融合为统一系统,解决了传统架构在物理一致性和因果推理方面的局限 [7][9] - 模型核心组件包括:1)统一的世界生成框架;2)SOPHIA自反范式,实现“生成-批评-修正”的迭代循环;3)FM-IDM逆动力学模型,实现从视频生成到机器人动作的闭环;4)WoWBench全球首个具身世界模型综合基准 [10][23][26][29] - 模型基于从800万条机器人交互轨迹中筛选出的200万条高质量数据训练,参数规模从1.3B扩展到14B,验证了模型规模与物理一致性、生成稳定性及泛化性的正相关关系 [12][40] 性能表现与基准测试 - 在WoWBench基准测试中,WoW-DiT在未加入SOPHIA自优化模块时,总体评分已达49.39,领先于Cosmos-Predict、CogVideoX等模型;加入自优化模块后,总体评分进一步提升至51.97,全面领先 [33][34][35] - 在物理模拟量化测评中,WoW模型在刚性体、软体、流体、光学等多种复杂动力学场景中均表现最佳,尤其在非刚体动力学领域优势显著 [36][37] - 在实际任务执行中,WoW驱动的FM-IDM模型在简单任务成功率高达94.5%,中等难度任务成功率达到75.2%,创下新SOTA,其生成的动作几乎可直接在真实机械臂上执行 [38][40] 开源策略与生态构建 - 公司开源了包含1.3B、2B、7B、14B四个参数规模的预训练模型权重、完整的训练推理代码以及WoWBench评估基准,为全球研究者提供了可复现和深入开发的基础 [42][44][45][49] - 开源内容旨在构建世界模型的研究基础设施,大幅降低该领域的研究门槛,促进学术界的快速进步和产业界的广泛应用 [43][51] 应用前景与产业赋能 - 在学术研究层面,WoW模型及WoWBench基准提供了统一的平台和可比较的评估体系,加速世界模型领域的科研进展与复现 [51] - 在技术演进层面,模型可作为交互式生成模拟沙盒,提升视觉语言模型在长时序任务规划中的自我调试和反思能力 [51] - 在产业应用层面,模型具备数据迁移与扩增能力,能从少量真实数据生成合成样本,实现“自我造数”,并能将视觉想象反推为可执行动作指令,赋能机器人在复杂环境中的自主操作 [53][54][56]
斯坦福具身智能大佬引用,Huggingface官方催更:北京人形开源WoW具身世界模型
机器之心· 2025-10-17 19:53
文章核心观点 - 中国团队开源了世界模型WoW,旨在让AI通过身体互动学习物理规律,实现从感知、生成到行动的闭环,是具身智能领域的重要进展 [2][3] - WoW模型的核心创新在于将世界生成、动作预测、视觉理解和自我反思融合,使AI具备“想象-验证-修正-执行”的物理直觉能力 [16][21] - 该模型在真实机器人任务中表现出色,并在多项评测中超越同期模型,显示出强大的泛化与应用潜力 [34][42][45] 模型架构与核心技术 - 模型提出四大核心模块:SOPHIA自反范式、DiT世界生成引擎、FM-IDM逆动力学模型和WoWBench评测基准 [17] - SOPHIA框架使模型具备自我评估与修正能力,通过“生成-批评-改进”的循环迭代优化预测结果 [19][20] - FM-IDM模块能将预测的视频帧反解为机器人末端7自由度的可执行动作,实现从视频生成到物理行动的闭环 [28][29][32] 性能表现与实验结果 - 模型基于800万条交互数据筛选出200万条高质量训练集,在140亿参数视频模型上训练,展现出对未来物理结果的概率分布构建能力 [6] - 在20个机器人操控任务中,简单任务成功率高达94.5%,中等难度任务达到75.2%的新SOTA水平 [34] - 在WoWBench基准评测中,模型在任务指令理解方面得分96.5%,物理一致性超过80% [38] - 消融实验表明,模型性能随数据规模与参数量的扩大而提升,14B参数模型性能最强,7B模型在效率与性能间更平衡 [46][48] 泛化能力与创新应用 - 模型展现出三种核心泛化能力:跨机器人形态泛化、任务技能泛化以及跨视觉风格的领域泛化 [52][55][57] - 具备反事实推理能力,可在假设条件下进行物理推理与行为重新规划,例如预测腐蚀性液体的影响或坚硬材质物体的不可移动性 [61][63] - 模型可用于世界模型迁移与数据扩增,通过生成物理一致的合成数据降低真实数据采集成本,并支持VLM规划自我校正,将任务成功率从33%提升至89% [69][76] 行业影响与未来展望 - WoW模型标志着AI从被动观察者向主动干预世界的智能体转变,为通用机器人的落地与泛化能力带来曙光 [14][80] - 项目已全面开源1.3B至14B的全系列模型权重与代码,旨在促进世界模型研究社区的合作与发展 [24][89] - 该工作被视为通向具身物理世界模型“操作系统”的关键一步,为AI在多模态融合与自主交互方面的进化奠定了基础 [79][85]