通用世界模型 - 财报，业绩电话会，研报，新闻

通用世界模型

搜索文档

贝壳财经· 2026-02-06 09:36

公司核心动态与财务里程碑 - 酷哇科技于2月5日正式发布Coowa WAM 2.0通用世界模型底座 [1] - 公司已率先实现年度EBITDA（息税折旧摊销前利润）回正标志着其具备了自我造血能力对融资保持相对克制 [1] 业务布局与市场拓展 - 公司成立于2015年已构建“智慧出行 + 智慧物业 + 智慧城市管家”三大业务矩阵 [1] - 业务已进驻北京、上海、广州、深圳四个一线城市并开展常态化服务一线城市业务占比从2022年的不足2%跃升至2025年的25% [1] - 目前90%以上的订单在国内优先供给经济发达的一线城市和沿海地区 [1] - 海外市场采取“开城”策略正逐步进入新加坡、中东（阿布扎比、迪拜、利雅得）以及日韩地区的主要城市 [1] 商业模式与客户结构 - 商业模式并非单纯卖单机设备更多是以“自动驾驶运力服务”的形式打包解决方案和运力进行出售 [2] - 公司基于运营公司（集成方）提供“城市大管家”服务目前B端企业客户占比已接近50% [3] 行业分析与战略观点 - 公司认为机器人现阶段并非替代人类而是补充用工缺口目前环卫工人老龄化严重缺口约50% 一台机器人能补充约5个人的工作量 [4] - 行业临界点的出现需满足两个条件：机器成本低于人工以及用工缺口的紧迫程度 [4] - 研判“城市大管家”市场规模约4000亿元至5000亿元目前市场格局分散未来有机会出现平台化、一家通吃的企业 [4] - 对于机器人形态公司认为核心在于是否足够通用而非必须是人形为了务实解决生产力问题可能会开发配备机械手腿的“泛人形”机器人来完成特定任务 [4] - 针对未来发展方向认为物理世界（前端）应追求完全无人化而决策系统（云端）在未来相当一段时间内仍需人机协同因为决策涉及主观偏见、历史规律和政策因素 AI未必能完全获取所有信息 [4][5]

通用世界模型

具身智能

机器人

Coowa WAM 2.0 (World - Action Model)通用世界模型底座

通用世界模型

具身智能

机器人

Coowa WAM 2.0 (World - Action Model)通用世界模型底座

答应大家的《自动驾驶世界模型》课程终于开课了！

自动驾驶之心· 2026-01-06 14:52

课程核心信息 - 课程名称为《世界模型与自动驾驶小班课》，是《端到端与VLA自动驾驶小班课》的进阶课程，聚焦于通用世界模型、视频生成、OCC生成等算法 [1] - 课程为首个面向端到端自动驾驶的进阶实战教程，旨在推动端到端在工业界的落地，助力学员理解端到端自动驾驶 [11] - 课程为离线视频教学，包含VIP群答疑及三次线上答疑，答疑服务截止2026年12月31日 [15] - 课程于1月1号开课，预计两个半月结课，各章节按计划时间解锁 [15][16] 讲师背景 - 讲师Jason拥有C9本科和QS50高校的博士学位，已发表2篇CCF-A论文及若干CCF-B论文 [3] - 现任国内TOP主机厂算法专家，从事端到端、大模型、世界模型等前沿算法的预研和量产 [3] - 拥有丰富的自动驾驶感知和端到端算法研发实战经验，已主持并完成多项相关算法的产品量产交付 [3] 课程大纲与内容 - **第一章：世界模型介绍** 复盘世界模型与端到端自动驾驶的联系，讲解其发展历史、应用案例、不同流派（如纯仿真、仿真+Planning、生成传感器输入、生成感知结果）及其在业界的应用环节，并介绍相关数据集与评测 [6] - **第二章：世界模型的背景知识** 讲解世界模型的基础知识，包括场景表征、Transformer、BEV感知等，这些内容是当下世界模型求职面试频率最高的技术关键词 [6][7] - **第三章：通用世界模型探讨** 聚焦通用世界模型及热门工作，涵盖李飞飞团队的Marble、DeepMind的Genie 3、Meta的JEPA、导航世界模型，以及VLA+世界模型算法DriveVLA-W0和特斯拉ICCV分享的世界模型模拟器 [7] - **第四章：基于视频生成的世界模型** 聚焦视频生成类世界模型算法，讲解Wayve的GAIA-1 & GAIA-2、上海交大CVR'25的UniScene、商汤的OpenDWM、中科大ICCV'25的InstaDrive，并以商汤开源的OpenDWM进行实战 [8] - **第五章：基于OCC的世界模型** 聚焦OCC生成类世界模型算法，包含三大论文讲解及一个项目实战，此类方法可扩展为自车轨迹规划以实现端到端 [9] - **第六章：世界模型岗位专题** 基于前五章基础，分享世界模型在工业界的应用现状、行业痛点、期望解决的问题，以及如何准备相关岗位面试 [10] 关键技术覆盖 - 课程将复习Transformer并扩展到视觉Transformer，讲解为多模态大模型奠定基础的CLIP和LLaVA [12] - 详细介绍BEV感知基础知识及世界模型常见的占用网络 [12] - 讲解扩散模型理论，该模型输出多模轨迹是当前学术界和工业界追捧的热点 [12] - 梳理世界模型中常提的闭环仿真、NeRF和3DGS的核心概念 [12] - 讲解其他生成式模型，如VAE、GAN以及Next Token Prediction [12] - OCC生成类世界模型部分将涵盖清华的OccWorld、复旦的OccLLaMA、华科ICCV'25的HERMES以及西交最新的II-World等经典与前沿工作 [13] 面向人群与学后收获 - **面向人群要求**：学员需自备GPU，推荐算力在4090及以上；需具备一定的自动驾驶领域基础，熟悉其基本模块；了解transformer大模型、扩散模型、BEV感知等技术基本概念；具备一定的概率论、线性代数及Python和PyTorch语言基础 [14] - **学后收获目标**：学员学完后能够达到1年左右世界模型自动驾驶算法工程师水平；掌握世界模型技术进展，涵盖视频生成、OCC生成等方法；对BEV感知、多模态大模型、3DGS、扩散模型等关键技术有更深刻了解；可复现II-World、OpenDWM等主流算法框架；能够将所学应用到项目中，设计自己的世界模型；在实习、校招、社招中均能受益 [14]

Runway深夜炸场：一口气发布5大更新，首个通用世界模型来了

机器之心· 2025-12-12 12:31

文章核心观点 - AI视频生成公司Runway发布了一系列重大更新，标志着行业正从单纯的“视频生成”迈向“世界模拟”的新阶段 [34] - 此次更新不仅发布了旗舰视频生成模型Gen-4.5，更首次对外展示了其在通用世界模型上的战略布局，旨在让AI理解并模拟物理世界的运行规律 [3][35] - 英伟达CEO黄仁勋专门发来祝贺视频，暗示了算力与前沿AI算法发展的深度绑定 [4][21][35] 产品更新：Gen-4.5 旗舰视频生成模型 - **核心能力提升**：Gen-4.5是Runway最新的旗舰视频生成模型，在画质惊人的基础上，引入了原生音频生成与编辑功能 [6][13] - **精确遵循提示**：模型实现了极高的物理精度和视觉精确度，物体运动符合逼真的重量、动量和力量，液体流动动力学正确，发丝和材料纹理等精细细节在运动和时间中保持连贯 [9] - **风格控制与一致性**：能够处理从照片级真实感、电影感到风格化动画的多种美学风格，同时保持连贯的视觉语言 [11] - **新增编辑功能**：支持多镜头编辑，用户可以对初始场景进行更改，并将该更改应用到整个视频中 [14] - **访问计划**：公司正在逐步开放对Gen-4.5的访问权限，将在未来几天内向所有人开放 [16] 战略布局：通用世界模型GWM-1及其变体 - **模型定位**：GWM-1是Runway的首个通用世界模型，被视为理解物理世界运行规律的基石，基于Gen-4.5构建但采用自回归的逐帧预测方式 [6][18][19] - **战略意义**：公司认为世界模型处于AI进步的前沿，是解决机器人技术、疾病、科学发现等棘手问题的关键，为通用模拟提供了最清晰的路径 [21] - **当前变体**：目前GWM-1有三种单独的后训练变体，公司正致力于将它们统一到一个单一的基础世界模型之下 [21] GWM Worlds：实时环境模拟器 - **产品定义**：GWM Worlds是一个基于GWM-1的环境模拟器，允许用户在无限的数字世界中实时探索 [6][23] - **核心特性**：关键在于保持空间连贯性，在长时间的移动序列中，环境能保持一致性并对用户的指令做出准确响应 [23][24] - **应用场景**：可用于交互式体验、游戏、可探索世界等沉浸式环境，也可作为训练AI系统在现实世界中导航和行动的沙盒模拟器 [24] GWM Robotics：机器人训练模拟器 - **产品定义**：GWM Robotics是一个打破物理瓶颈，为机器人训练提供合成数据的学习型模拟器 [6] - **核心功能**：支持合成数据增强策略训练，利用世界模型生成合成数据以提升机器人策略的泛化能力；支持策略模拟评估，允许在模型中直接测试策略模型，方式更快、更安全 [27][28] - **配套工具**：公司发布了GWM-1 Robotics SDK，这是一款面向其机器人世界模型API的Python SDK，支持多视角视频生成和长上下文序列 [27] GWM Avatars：音频驱动交互式视频模型 - **产品定义**：GWM Avatars是一个音频驱动的交互式视频生成模型，可让数字人拥有自然的灵魂 [6][29] - **核心表现**：模型能针对任意角色模拟自然的人类动作和表情，包括逼真的面部表情、眼球运动、口型同步和手势，在长时间对话中质量不下降 [30] - **应用潜力**：应用场景广泛，包括实时辅导与教育、客户支持与服务、培训模拟以及互动娱乐与游戏 [31][32] - **发布计划**：该模型即将登陆Runway网页产品和API，以便用户集成到自己的产品和服务中 [31]

通用世界模型

AI视频与多媒体生成技术

Artificial Intelligence

Artificial Intelligence

Gen - 4.5

GWM - 1

GWM Worlds

工业界大佬带队！彻底搞懂自动驾驶世界模型...

自动驾驶之心· 2025-12-11 11:35

课程核心定位 - 课程为自动驾驶领域首个面向端到端自动驾驶的进阶实战教程，旨在推动端到端技术在工业界的落地，并助力学员深入理解端到端自动驾驶 [11] - 课程聚焦于通用世界模型、视频生成、OCC生成等世界模型算法，涵盖特斯拉世界模型、李飞飞团队Marble等前沿工作 [1] - 课程由工业界专家授课，内容基于讲师丰富的端到端算法研发和量产交付实战经验 [3][6] 课程内容与结构 - **第一章：世界模型介绍** 复盘世界模型与端到端自动驾驶的联系，讲解其发展历史、应用案例、不同技术流派（如纯仿真、仿真+规划、生成传感器输入等）及其在业界解决的问题与所处环节，并介绍相关数据集与评测 [6] - **第二章：世界模型背景知识** 讲解世界模型的基础技术栈，包括场景表征、Transformer、BEV感知等，这些内容是当前世界模型求职面试频率最高的技术关键词 [6][7] - **第三章：通用世界模型探讨** 聚焦通用世界模型及近期热门工作，详细讲解李飞飞团队Marble、DeepMind的Genie 3、Meta的JEPA、导航世界模型，以及VLA+世界模型算法DriveVLA-W0和特斯拉ICCV分享的世界模型模拟器 [7] - **第四章：基于视频生成的世界模型** 聚焦视频生成类世界模型算法，讲解Wayve的GAIA-1 & GAIA-2、上海交大CVR'25的UniScene、商汤的OpenDWM、中科大ICCV'25的InstaDrive，并以商汤开源的OpenDWM进行实战 [8] - **第五章：基于OCC的世界模型** 聚焦OCC生成类世界模型算法，讲解清华OccWorld、复旦OccLLaMA、华科ICCV'25的HERMES、西交II-World等三篇论文，并进行一个项目实战，此类方法可扩展至自车轨迹规划以实现端到端 [9][13] - **第六章：世界模型岗位专题** 基于前五章算法基础，分享工业界应用现状、行业痛点、期望解决的问题，以及如何准备相关岗位面试，内容为公司真正关注的经验积累 [10] 课程技术覆盖与学后收获 - **关键技术覆盖** 课程涵盖Transformer、视觉Transformer、CLIP、LLaVA、BEV感知、占用网络、扩散模型、闭环仿真、NeRF、3DGS、VAE、GAN及Next Token Prediction等生成式模型 [12] - **预期能力提升** 学员学完后预期能达到相当于1年左右经验的世界模型自动驾驶算法工程师水平，掌握世界模型技术进展，并对BEV感知、多模态大模型等关键技术有更深刻理解 [14] - **实践成果** 学员将能够复现II-World、OpenDWM等主流算法框架，并将所学应用到项目中，真正搞懂如何设计自己的世界模型，对实习、校招、社招均有助益 [14] 课程安排与面向人群 - **课程进度** 课程于1月1日开课，预计两个半月结课，采用离线视频教学，配合VIP群答疑及三次线上答疑，答疑服务截止2026年12月31日 [15] - **章节解锁时间** 第一章于12月10日解锁，后续章节在1月1日至3月1日期间陆续解锁 [16] - **学员基础要求** 学员需自备算力在4090及以上的GPU，具备一定的自动驾驶领域基础，熟悉Transformer大模型、扩散模型、BEV感知等基本概念，并具备概率论、线性代数及Python和PyTorch编程基础 [14]

AI 能造世界了？谷歌 DeepMind 的 Genie 3 分秒生成《死亡搁浅》

36氪· 2025-08-06 19:29

文章核心观点 - DeepMind发布Genie 3模型，标志着生成式AI从生成静态内容（文本、图像、视频）迈向生成可交互、逻辑一致且持久的3D虚拟世界，是AI向“通用世界模型”发展的关键一步[1][2][5] - 该模型通过文本指令即可实时生成并修改可探索的3D场景，在交互性、世界一致性和物理规律模拟上实现重大突破，有望颠覆游戏开发、影视制作、教育及AI智能体训练等多个行业[2][8][10][12] - 尽管在分辨率、持久性和细节渲染上仍有技术限制，但Genie 3代表了AI技术从2D向3D、从静态生成向空间智能交互演进的重要方向[18][20] 模型技术突破 - **性能飞跃**：相比前代Genie 2，Genie 3在短短七个月内实现重大升级，分辨率从360p跃升至720p，帧率提升至24帧每秒，场景可持续时间从10-20秒延长至数分钟[2][3] - **世界一致性**：引入新的视觉记忆机制，使模型能参考并维护前一帧的状态，确保生成的物体位置稳定、场景布局连续，解决了过往模型“世界一致性”的难题[3][4] - **物理逻辑模拟**：模型通过预测而非硬编码来维持场景逻辑和物理一致性，例如树叶自然晃动、阴影随动、物体碰撞反馈符合物理规律[3][7] - **动态交互与可塑性**：支持“文字即指令，世界实时响应”（Promptable World Events），用户可通过文本指令在已生成场景中动态添加或修改元素（如在水面添加摩托艇并溅起水花），且场景能随之调整并保持逻辑[8] - **3D推理与视角自由**：模型支持视角自由移动并能动态重绘不同视角内容，这需要强大的3D推理能力，标志着其目标是“基于世界的交互式生成”而非单纯视频生成[9] 行业应用与影响 - **游戏开发**：能通过一句话即时生成可探索、可交互的3D场景，极大降低传统3D场景构建所需的高成本与长时间（数周至数月），为资源有限的独立开发者或小团队填补“成本鸿沟”，使其能快速构建开放世界[10][12] - **影视行业**：导演和美术可在开拍前实时预览并调整场景风格、光影、角色及演员走位，实现“沉浸式分镜头”[12] - **教育行业**：可将课本中的历史古迹、地理现象生成可交互、可探索的场景，拓展教学方式[12] - **艺术与元宇宙**：为艺术表达提供新形式，例如“进入”经典文学或画作中的场景；同时，降低每个人构建虚拟空间的能力，可能助推元宇宙概念的实现[12][14] - **AI智能体训练**：为AI智能体（Agent）提供低成本、可无限生成且逻辑连贯的“认知训练场”，用于学习因果关系、空间感知和行动规划，例如训练仓储机器人、自动驾驶汽车应对极端场景[16][17] 当前限制与挑战 - **技术规格限制**：当前场景分辨率仅为720p、帧率24fps，距离4K高帧率的游戏画面标准有差距；生成的场景持久性虽达数分钟，但演示多控制在1分钟以内[18] - **细节渲染与物理一致性不足**：场景中的文字渲染效果糟糕（如路牌字体不清）；在模拟大批量生物或雪崩等复杂细节时，物理一致性仍不完美，会出现“AI异常”破绽[18] - **开放性与可用性未知**：模型目前仅用于研究和合作项目，尚未向公众开放API或提供在线体验入口[20] AI技术演进路径 - Genie 3的发布并非孤立事件，它与李飞飞的World Labs、英伟达的Cosmos世界基础模型等共同反映了一条清晰的AI空间智能技术发展路径：从2D到3D，再到空间可探索，最终实现场景物理一致、时空连贯、交互有因果[20] - 技术演进方向是让文字成为“可操作”的空间，构建虚拟世界将变成一种即时表达方式[20][21]

生成式AI

通用世界模型

元宇宙

Artificial Intelligence

Artificial Intelligence

Genie 3

Sora