世界模型 - 财报，业绩电话会，研报，新闻 - Reportify

世界模型

搜索文档

“AI教母”，公布最新世界模型

财联社· 2025-10-17 20:28

世界模型RTFM的技术突破 - 李飞飞团队发布全新世界模型RTFM，能够实时生成交互式三维世界[2] - 模型设计围绕效率、可扩展性和持久性三大原则，仅需单块H100 GPU即可渲染持久一致的3D世界[2] - 实现4K+60FPS交互式视频流，传统架构需每秒生成超过十万个token，相当于一本《弗兰肯斯坦》的文本量，当前算力下经济上不可行[2] AI算力成本与需求趋势 - 降低算力成本成为硬件厂商重要议程，OpenAI与博通战略合作部署10吉瓦AI加速器，形成英伟达、AMD、博通多元算力体系以倒逼成本下降[3] - 尽管模型效率提升，但算力总需求预期未减，存在“杰文斯悖论”，即效率提升反而增加总消耗量，例如DeepSeek R1性能增强但算力需求持续增长[4] - 预计针对更大推理预算的更大型模型将继续改进，未来算力需求增长预期稳固[3] 世界模型的行业进展与意义 - World Labs在9月发布世界生成模型Marble，可通过单张图片或文字生成3D世界，相比前代实现更优几何结构和更多样化风格[4] - 世界模型的意义在于不仅能理解推理文字信息，还能理解推理物理世界的运作规律[4] - 行业公司积极布局，xAI从英伟达挖来专家，Meta、谷歌加注世界模型，国内宇树、智元等机器人厂商也已开源其世界模型[4] 算力基础设施的估值逻辑 - 算力更便宜易得时，开发者会将更复杂模型系统作为新基准，提升参数量、上下文与并行度[5] - 模型架构迭代可能减小单次推理训练算力，但如Genie3等生成视频的世界模型需跨数量级算力提升才能满足[5] - AI算力更高的天花板和更好的竞争格局将支撑其相对4G/5G的更高估值框架和更强Beta[5]

杰文斯悖论

Artificial Intelligence

RTFM（Real-Time Frame Model）

杰文斯悖论

Artificial Intelligence

RTFM（Real-Time Frame Model）

斯坦福具身智能大佬引用，Huggingface官方催更：北京人形开源WoW具身世界模型

机器之心· 2025-10-17 19:53

文章核心观点 - 中国团队开源了世界模型WoW，旨在让AI通过身体互动学习物理规律，实现从感知、生成到行动的闭环，是具身智能领域的重要进展 [2][3] - WoW模型的核心创新在于将世界生成、动作预测、视觉理解和自我反思融合，使AI具备“想象-验证-修正-执行”的物理直觉能力 [16][21] - 该模型在真实机器人任务中表现出色，并在多项评测中超越同期模型，显示出强大的泛化与应用潜力 [34][42][45] 模型架构与核心技术 - 模型提出四大核心模块：SOPHIA自反范式、DiT世界生成引擎、FM-IDM逆动力学模型和WoWBench评测基准 [17] - SOPHIA框架使模型具备自我评估与修正能力，通过“生成-批评-改进”的循环迭代优化预测结果 [19][20] - FM-IDM模块能将预测的视频帧反解为机器人末端7自由度的可执行动作，实现从视频生成到物理行动的闭环 [28][29][32] 性能表现与实验结果 - 模型基于800万条交互数据筛选出200万条高质量训练集，在140亿参数视频模型上训练，展现出对未来物理结果的概率分布构建能力 [6] - 在20个机器人操控任务中，简单任务成功率高达94.5%，中等难度任务达到75.2%的新SOTA水平 [34] - 在WoWBench基准评测中，模型在任务指令理解方面得分96.5%，物理一致性超过80% [38] - 消融实验表明，模型性能随数据规模与参数量的扩大而提升，14B参数模型性能最强，7B模型在效率与性能间更平衡 [46][48] 泛化能力与创新应用 - 模型展现出三种核心泛化能力：跨机器人形态泛化、任务技能泛化以及跨视觉风格的领域泛化 [52][55][57] - 具备反事实推理能力，可在假设条件下进行物理推理与行为重新规划，例如预测腐蚀性液体的影响或坚硬材质物体的不可移动性 [61][63] - 模型可用于世界模型迁移与数据扩增，通过生成物理一致的合成数据降低真实数据采集成本，并支持VLM规划自我校正，将任务成功率从33%提升至89% [69][76] 行业影响与未来展望 - WoW模型标志着AI从被动观察者向主动干预世界的智能体转变，为通用机器人的落地与泛化能力带来曙光 [14][80] - 项目已全面开源1.3B至14B的全系列模型权重与代码，旨在促进世界模型研究社区的合作与发展 [24][89] - 该工作被视为通向具身物理世界模型“操作系统”的关键一步，为AI在多模态融合与自主交互方面的进化奠定了基础 [79][85]

WoW具身世界模型

WoW具身世界模型

李飞飞世界模型大更新，实时生成3D世界，只要一块GPU

36氪· 2025-10-17 16:03

技术核心与创新 - 公司发布名为RTFM的全新实时世界生成模型，可从单张静态图片实时渲染出可供自由探索和交互的3D场景[1][4] - 该模型采用类似Sora的“自回归扩散Transformer”架构，不构建任何显式的3D模型，而是通过端到端学习海量视频数据来直接预测新视角画面[9] - 模型核心创新在于引入“空间记忆”机制，为每一帧画面赋予3D空间中的精确姿态，并通过“上下文杂耍”技术仅调用局部参考帧，以维持世界持久性而不显著增加计算负担[11] 性能与效率突破 - 模型经过架构、蒸馏和推理过程的极致优化，设计目标为在现有硬件上运行明日模型，成功实现在单块H100 GPU上以交互式帧率进行实时推理和生成[1][8] - 实时生成4K 60fps交互视频流对算力要求极高，每秒需处理token量约等于一本《哈利·波特》文字量，持续一小时的交互需处理超1亿个token，当前基础设施难以负担[6] - 该技术路线相比传统3D引擎的显式建模方法，能更好地利用增长的数据和算力，实现无限扩展[9][11] 应用与演示现状 - 模型已作为研究预览版正式发布，并提供了名为FRAMEBOY的Demo供体验，其逼真的光影、反射和阴影效果在实时交互中呈现[1][3] - 当前Demo体验时间限制为3分钟，3分钟后世界状态无法维持，展示了模型在空间智能和持续交互方面的探索方向[13] - 该技术被视作通往AGI空间智能方向的重要一步，其单GPU高效运行的特性为未来世界模型的普及提供了可能性[13][15]

RTFM (Real-Time Frame Model)

RTFM (Real-Time Frame Model)

“AI教母”李飞飞的全新世界模型问世！一张英伟达AI芯片就能生成无限3D世界

钛媒体APP· 2025-10-17 10:53

公司产品与技术 - World Labs发布全新实时生成式世界模型RTFM 该模型基于大规模视频数据进行端到端训练是一款效率极高的自回归扩散Transformer模型 [2][3] - RTFM模型的核心突破在于不依赖显式3D表征仅通过输入1张或多张2D图像就能直接生成不同视点的全新2D图像可精准建模3D几何反射阴影等复杂物理现象 [3] - 模型具备高效性可扩展性持久性三大核心优势仅需一块英伟达H100 GPU芯片即可实现实时渲染和交互式体验 [4][8] - 模型通过"带位姿帧空间记忆"与"上下文调度"技术实现世界场景的持久性确保用户长时间交互也能保持场景一致性 [8] - 公司未来规划将构建空间智能大模型LWM 该模型将支持AR并最终作用于机器人技术改进自动驾驶汽车自动化工厂人形机器人等领域 [10] 行业影响与发展路径 - 该模型技术被业内称为"学会渲染的 AI" 真正解决了长期困扰世界模型可扩展性的问题 [3][6] - "空间智能+世界模型"成为AGI重要发展路径之一强大的世界模型能实时重建生成并模拟物理精确的世界将彻底改变软件机器人等很多领域和产业 [7] - 生成式世界模型正处在绝佳位置将从持续降低的算力成本中获益 [4] - 公司联合创始人李飞飞认为语言空间视觉具身智能等多种AI技术正在融合并开始真正改变人类社会 [12] 公司融资与估值 - World Labs于今年9月获得2.3亿美元（约合人民币16亿元）融资由a16z NEA恩颐投资和Radical Ventures领投 AMD Adobe Databricks的风投部门和Shinrai Investments LLC以及英伟达创投部门参与投资 [10] - 公司成立仅3个月估值便达到10亿美元（约合70亿元）团队约24人其中华人面孔约占据三分之一 [10] 相关研究项目 - 李飞飞团队还打造了Behavior视觉挑战比赛并于今年10月正式发布Behavior 1K 这是一个包含1000个任务的综合仿真基准与训练环境主要聚焦日常家庭环境中的"长时序任务" [11][12] - Behavior项目旨在解决机器人学习中的三大痛点任务缺乏标准化缺乏统一的任务体系以及缺乏训练数据为全球研究者提供开放源码的训练与评测平台 [11]

新世界(SH:600628)

Artificial Intelligence

Artificial Intelligence

李飞飞团队发布世界模型最新成果

经济观察网· 2025-10-17 09:59

模型发布 - 公司于当地时间10月16日宣布推出全新模型RTFM (A Real-Time Frame Model) [1] - 该模型具备实时运行、持久性和3D一致性等技术特性 [1] - 模型对硬件要求较低，单张H100 GPU即可运行 [1]

RTFM(A Real-Time Frame Model)

RTFM(A Real-Time Frame Model)

李飞飞发布全新世界模型，单GPU就能跑

36氪· 2025-10-17 09:45

模型技术特点 - 推出全新模型RTFM，具备实时运行、持久性和3D一致性 [1] - 模型效率极高，仅需单张H100 GPU便能以交互级帧率实时完成推理运算 [1] - 架构具备可扩展性，能随数据量与算力增长而持续扩展，通过端到端的通用架构从海量视频数据中自主学习 [1] - 系统构建的持久化3D世界具有持久性，用户可无限时长交互，所有场景将永久留存 [1] - 采用自回归扩散变换器架构，通过海量视频数据进行端到端训练，实现基于历史帧的后续帧预测 [7] - 模型作为可学习的渲染器，无需构建任何显式3D表征即可从新视角生成场景的2D图像 [7] - 通过将每一帧建模为在三维空间中具有姿态，并将带有姿态的帧作为空间记忆使用，实现持久性不受限制 [9] - 采用上下文切换技术，使模型在不同空间区域生成内容时使用不同的上下文帧，无需对不断增长的帧集合进行推理 [10] 行业技术挑战与机遇 - 强大的世界模型能够实时重建、生成并模拟具有持久性、可交互且物理精确的世界，将彻底改变从媒体到机器人技术等各行各业 [3] - 生成式世界模型对算力的需求将远超当今的大型语言模型 [5] - 若直接套用现有视频架构，生成60帧的4K交互视频流每秒需产生超过10万个token，维持一小时以上持续交互需处理的上下文token更将突破1亿大关 [5] - 生成式世界模型正处在绝佳位置，能从持续降低的算力成本中获益 [6] - 传统3D图形管线依赖人工设计的数据结构与算法，难以随数据量与算力增长实现线性扩展 [7] 研发目标与理念 - 团队目标为设计一款足够高效、可立即部署，并能随算力提升持续扩展的生成式世界模型 [6] - 旨在打造仅需单张H100 GPU即可驱动的模型，在保持交互帧率的同时，确保虚拟世界永不消散 [6] - 团队深信随算力增长优雅扩展的简洁方法终将在AI领域占据主导 [6] - 通过精心优化推理堆栈的每个环节，融合架构设计、模型蒸馏与推理优化的前沿突破，致力于在当今硬件上呈现对未来模型最高保真度预览 [6]

新世界(SH:600628)

生成式世界模型

Artificial Intelligence

RTFM（A Real-Time Frame Model）

生成式世界模型

Artificial Intelligence

RTFM（A Real-Time Frame Model）

自驾行业完整的基建，更值得毕业的同学做探索！

自动驾驶之心· 2025-10-17 08:03

自动驾驶行业现状与前景 - 自动驾驶行业技术形态开始收敛，但产品形态尚未收敛，仍有许多值得打磨之处 [1] - 行业对计算资源的投入巨大，达到万卡级别，在基建、数据闭环及云端工具链成熟度方面具有优势 [1] - 业内主流在打磨L2功能，L3法规在路上，L4还有更多悬而未决的问题 [1] - 世界模型和VLA（Vision-Language-Action）等技术路线理论部分趋于完善，但落地和用户体验提升仍有长路要走 [1] - 行业更适合硕士和博士将学术探索直接落地，因其拥有完整的基建 [1] - 真正留在行业内的主力是技术栈丰富的综合型人才，洗牌是早晚的事情 [2] 自动驾驶之心知识星球社区 - 社区是一个集视频、图文、学习路线、问答、求职交流为一体的综合类自动驾驶社区 [4] - 社区目前已有超过4000名成员，期望未来2年内做到近万人规模 [4][5] - 社区汇总了40多个技术方向的学习路线，并邀请了数十位活跃在一线的产业界和学术界大佬作为嘉宾 [7][10] - 社区提供岗位内推机制，与多家自动驾驶公司建立了合作 [11] - 社区成员来自上海交大、北京大学、CMU、清华大学等国内外知名高校，以及蔚小理、地平线、华为等头部公司 [16] - 社区内部梳理了近40个开源项目、近60个数据集及行业主流仿真平台 [17] 社区技术资源覆盖范围 - 技术方向覆盖感知、规划控制、仿真、端到端自动驾驶、VLA、世界模型、多传感器融合、BEV感知、3D目标检测等40多个领域 [10][17][27] - 提供包括“自动驾驶100问系列”在内的实战问答，涵盖TensorRT模型部署、毫米波雷达融合、车道线检测等主题 [10] - 社区内部有原创直播课程，涵盖感知融合、多传感器标定、SLAM与高精地图、决策规划等多个系列视频教程 [11] - 汇总了国内外自动驾驶与机器人高校实验室、自动驾驶公司、开源项目及开源数据集 [28][30][34][36] 行业热点与技术趋势 - 端到端自动驾驶是学术界和工业界的研究热点，社区详细梳理了一段式、二段式、量产方案及VLA相关算法 [38] - 3DGS与NeRF、自动驾驶世界模型、视觉语言模型（VLM）、自动驾驶VLA是当前前沿领域 [40][42][44][46] - BEV感知是当下量产的基石，扩散模型是与世界模型、大模型结合的研究热点 [50][52] - 社区内部有超过一百场专业技术直播，分享内容涵盖VLA、V2X、3D检测、大模型等最新工作 [90]

自动驾驶之心知识星球

自动驾驶之心知识星球

工业界和学术界都在怎么搞端到端和VLA？

自动驾驶之心· 2025-10-17 08:03

端到端自动驾驶技术趋势 - 端到端算法是当前自动驾驶量产的核心算法，技术栈丰富，业内主要存在一段式和两段式两大类范式 [1] - 一段式范式以UniAD为代表，直接从传感器输入建模自车轨迹输出，而二段式则基于感知结果进一步输出自车和他车轨迹 [1] - 一段式端到端算法可进一步延伸出基于感知、扩散模型、世界模型以及视觉语言模型（VLA）等多种子领域，尤其是基于VLA的算法相关论文正爆发式发表，工业界也在争先量产 [1] 自动驾驶VLA与大模型技术 - 核心算法涉及BEV感知、视觉语言模型（VLM）、扩散模型、强化学习、世界模型等，代表了学术界和工业界最前沿的技术方向 [3] - 自动驾驶VLA与大模型实战课程聚焦VLA领域，内容涵盖从VLM作为自动驾驶解释器，到模块化VLA、一体化VLA，以及当前主流的推理增强VLA [3] - 课程配套理论基础梳理，包括Vision/Language/Action三大模块、强化学习、扩散模型等，并设有大作业章节指导从零搭建VLA模型及数据集 [3] 课程师资与团队 - 课程教师团队包括来自清华大学等顶尖院校的研究人员，在ICCV、IROS、EMNLP等国际顶级会议发表多篇论文，研究方向涵盖多模态感知、自动驾驶VLA、大模型Agent等前沿领域 [8][11] - 教师团队具备丰富的自动驾驶、大模型研发和实战经验，例如有教师主持完成多项自动驾驶感知和大模型框架工具，其维护的开源项目总Star数超过2k [8] - 工业界教师团队包括来自国内顶级主机厂的算法专家，拥有CCF-A/B论文发表记录，并主持完成多项自动驾驶感知和端到端算法的产品量产交付，具备丰富的端到端算法研发经验 [12][14] 端到端自动驾驶课程内容 - 端到端与VLA自动驾驶课程由工业界专家带队，聚焦端到端自动驾驶宏观领域，梳理一段式/两段式方向的重点算法和理论基础 [12] - 课程详细讲解BEV感知、大语言模型、扩散模型和强化学习等关键技术 [12] - 课程设计两大实战项目：基于扩散模型的Diffusion Planner和基于VLA的ORION算法 [12] 课程参与要求 - 参与者需要自备GPU，推荐算力在RTX 4090及以上 [15] - 参与者需具备一定的自动驾驶领域基础，熟悉自动驾驶基本模块，并了解transformer大模型、强化学习、BEV感知等技术的基本概念 [17] - 参与者需具备一定的概率论和线性代数基础，熟悉常用数学运算，并具备一定的Python和PyTorch语言基础 [17]

视觉语言模型VLM

视觉语言模型VLM

蔚小理智驾部门“大换血”：技术路线转向世界模型，智能化下半场突围战承压

36氪· 2025-10-16 15:33

行业竞争逻辑转变 - 2025年电动化渗透率突破50%的拐点来临，行业共识是“电动化决定车企下限，智能化决定车企上限” [1] - 智驾作为“皇冠上的明珠”，成为下半场竞争的核心战场 [1] 蔚小理智驾部门人事与战略调整 - 蔚来、小鹏、理想三家头部新势力在短短数月内发生17位高管岗位变动，进行自动驾驶部门“大换血” [1] - 小鹏汽车人事调整最为跌宕，智驾北美负责人朴一树、视觉感知负责人王弢离职，由袁婷婷、刘先明等接任重要职位 [2] - 小鹏汽车技术路线从VLA全面转向具备物理世界推演能力的“世界基座模型” [4] - 蔚来呈现“架构重构+核心流失”局面，技术专家胡成臣、算法核心樊昊阳、世界模型负责人马宁宁等骨干离职 [4] - 蔚来将感知和规控团队合并为大模型团队，构建“4×100接力棒”研发模式，旨在冲刺世界模型2.0，其NWM已实现100毫秒内推演216种轨迹的能力 [4] - 理想汽车智驾团队规模从峰值缩减至800人，技术路线经历多次转向后确立“VLA+世界模型融合”路线，其OTA 8.0.1版本在环岛场景通过率超90% [5] - 三家公司的调整共同指向行业共识：传统模块化智驾方案已触瓶颈，世界模型成为通向L3/L4的必经之路 [7] 外部竞争压力 - 传统车企如长城、广汽、比亚迪快速追赶，比亚迪智能驾驶车型累计销量已突破71万辆 [8] - 华为等科技巨头构成威胁，其ADS 4.0系统以0.6次的超低接管次数稳居第一梯队，并通过“HIPLUS”模式构建行业性技术基础 [8] - 路测数据显示，传统车企与新势力的技术差距正快速缩小，头部传统车企已对第二梯队新势力实现“贴身紧逼” [10] 资金与研发投入挑战 - 智驾、AI、芯片等领域的研发投入巨大，蔚来2024年研发费用达130.4亿元，其中大量投向NWM架构与自研芯片 [10] - 小鹏的自研芯片多次延期，部门墙问题加剧成本压力；理想虽盈利，但智驾团队调整与技术转向带来隐性成本 [10] 差异化应对策略 - 小鹏押注“云端基座模型+车端蒸馏”模式，以万卡智算集群实现5天一次迭代，720亿参数模型已实现车端控车 [11] - 蔚来采取“自研+合作”策略，在推进NWM 2.0的同时与Mobileye合作快速落地L2+功能 [11] - 理想通过整合芯片、OS、模型等部门，以“高效协同”降低成本 [11]

VLA视觉语言模型

新能源汽车

Coffee Pilot Ultra系统

广汽昊铂NDA 3.0端到端系统

比亚迪BAS 3.0

VLA视觉语言模型

新能源汽车

Coffee Pilot Ultra系统

广汽昊铂NDA 3.0端到端系统

比亚迪BAS 3.0

AI与机器人盘前速递丨马斯克旗下xAI公司构建“世界模型”；新益昌正式发布机器人！

每日经济新闻· 2025-10-15 09:11

市场表现 - 科创人工智能ETF华夏收报1.432元，跌幅3.83%，成交额约2.41亿元，成交量1.67亿份，成分股30只中仅1只上涨 [1] - 机器人ETF收报1.009元，跌幅4.09%，成交额达18.25亿元，成交量超17.7亿份，成分股73只中仅1只上涨 [1] - 合合信息逆势上涨1.92%，海得控制逆势上涨4.78%，而双环传动、鸣志电器、绿的谐波、中控技术等板块核心权重股跌幅均超6% [1] 行业动态 - 马斯克旗下xAI公司正构建"世界模型"，与Meta和谷歌等对手角逐下一代AI系统，并将游戏与机器人视为验证世界模型的首批应用方向 [2] - 新益昌发布具身智能机器人HOSON-Robot，将人形机器人业务列为公司战略发展核心，并持续在机器人"小脑"运动控制器、混合智能架构模型等领域推进研发 [2] - 亚马逊云科技推出Agentic AI应用Amazon Quick Suite，可连接企业内部知识库及超1000个应用，旨在帮助员工自动化任务和开展深度研究 [2] 机构观点 - 持续看好板块行情，特斯拉第三代新品发布及明年展望逐步清晰利好板块β表现 [3] - 国产链条预计下半年来自于资本运作、订单出货、场景落地等消息将不断催化，建议重视板块布局机会 [3]

新益昌(SH:688383)

具身智能机器人HOSON - Robot

Amazon Quick Suite

具身智能机器人HOSON - Robot

Amazon Quick Suite