谷歌Genie - 财报，业绩电话会，研报，新闻

谷歌Genie

搜索文档

虎嗅APP· 2026-03-08 11:04

文章核心观点 - AI当前缺乏理解、预测和推演世界的能力，为解决此问题，OpenAI、谷歌、微软等大公司及顶尖学者正集中研究“世界模型”，这被视为通往AGI的关键一步[4][6] - 世界模型旨在让AI从“只会回答问题”的语言机器，转变为能够“观察、推理、行动”的真正智能体，其核心特质包括表示世界、预测未来以及在世界中规划和行动[24][26] - 当前世界模型的研究呈现多条技术路线并行的局面，主要包括视频生成、3D空间生成、在虚拟世界训练智能体以及直接学习世界抽象结构等，这些路线共同指向让AI理解并能在世界中行动的终极目标[48][101][134] - 世界模型若发展成熟，预计将对机器人、自动驾驶、穿戴式设备、内容生成与游戏、AI Agent等多个关键行业产生颠覆性影响，从效率提升转向范式级改变[106][117][121] 一、什么是世界模型？ - **概念起源与目标**：世界模型的概念源于对人类心智模型的研究，旨在让机器像人类一样，在内部构建一个“世界如何运作”的模型，以进行预测和行动规划[8][9][10] - **理论发展**：在AI和强化学习早期研究中，Dyna架构首次明确将“世界模型”确立为智能体的基础能力，其核心是智能体学习“采取动作后世界如何变化”[12] - **现代框架**：2018年Google Brain的论文《World Models》提出了一个精炼化的理解框架：世界模型 = 观察世界（视觉模块V）+ 预测世界（记忆模块M）+ 在内部世界中学习行动（控制模块C）[17] - **核心特质**：研究者普遍认为世界模型应具备三大特质：1) 表示世界（理解环境中的物体与关系）；2) 预测未来（模拟事件变化）；3) 在世界里规划和行动（基于预测采取行动）[24] 二、为什么要研究世界模型？ - **与大语言模型的区别**： - **任务与目标**：大语言模型预测下一个词/Token，世界模型预测下一帧画面、下一步状态变化[29] - **数据与输出**：大语言模型主要依赖静态文本数据，输出语言或图像；世界模型主要依赖动态时序数据（如视频），输出对未来状态的预测和可执行方案[29] - **学习方式**：大语言模型通过语言间接理解世界，是世界模型的补充；世界模型通过交互和推演直接理解世界，并能进行预测和干预[28][30] - **大语言模型的瓶颈**：部分顶尖学者认为大语言模型路线存在根本性瓶颈，例如Yann LeCun认为其只是在拟合语言统计相关性，对现实世界缺乏直接建模能力，若继续“堆量”难以实现真正的智能[33][37] - **研究驱动力**：1) 大模型的原生能力遇到天花板；2) 多模态时代到来，海量视觉/动作数据、强大算力等条件成熟，使得训练“真正的世界模型”成为可能[44][46] 三、当前推进世界模型的主要路线 - **三层结构框架**：可将世界模型领域拆解为三层：1) 底层思想与范式（抽象、预测、规划）；2) 中间表现形式（世界如何被生成出来）；3) 顶层目的层（智能体训练，让AI在世界中行动）[49][50][52] - **行业现状**：目前产业界的尝试多集中在第二层“世界生成”，这是整个领域最活跃的部分，也是世界模型体系的入口和根基[54][56] 四、世界模型的表现形式：世界生成 - **视频生成路线**： - **目标与代表**：让AI生成一个能随时间连续演化、动起来的世界，代表模型包括OpenAI Sora、谷歌Genie等[56][59] - **优势**：结果“看得见”，易于观察和评估；训练数据（互联网视频）易获得；对Scaling Law敏感，规模越大效果越好；能快速商业化落地[65][67] - **局限**：对世界的理解是“隐式”的，藏在模型权重中，难以直接读取或迁移到机器人等决策系统[67][69] - **3D生成（空间智能）路线**： - **目标与代表**：不是“画”出世界，而是“建”出世界的三维结构，关注几何关系与可操作性，代表是李飞飞的World Labs及其模型Marble[57][70][72] - **优势**：生成显式的3D结构信息，更利于物理模拟、规划和控制；在游戏、影视、室内设计等场景有商业转化优势[72][75] - **挑战**：高质量3D训练数据稀缺；几何结构建模难度大；对算力需求远超2D模型[76] 五、世界模型的目的：智能体训练 - **基于虚拟世界训练路线**：代表是Google SIMA，将AI放入游戏等虚拟生成的世界中训练，使其学会可迁移到真实世界的行动能力，最新版本SIMA 2展现出复杂任务理解、自主规划和强大泛化能力[84][86][87] 1. **直接学习世界抽象结构路线**：代表是Yann LeCun提出的JEPA架构，其核心是不生成具体画面，而是将世界压缩成抽象的高维潜在表示，并在此空间中预测未来的关键结构，优势是计算成本低、更易捕捉因果关系、输出信息更利于机器人行动[90][92][97][98] 六、世界模型会改写哪些关键行业？ - **机器人**：世界模型让机器人拥有“世界的内部模型”，能进行预测和模拟，从而具备跨环境、跨任务的迁移和泛化能力，这将改变机器人行业过去每项新任务都需重新编程工程的范式[106][107][109] - **自动驾驶**：世界模型能让系统学习“世界如何运转”，进行高质量仿真和多种决策路径推演，从而获得接近人类的预判能力，被认为是推动自动驾驶走向大规模商业化的核心技术之一[110][113] - **穿戴式设备**：世界模型能让设备真正理解用户所处的3D环境并进行预测规划，使其从“信息终端”进化为随身的“世界理解引擎”和“数字伙伴”[114][116] - **内容生成、游戏与影视制作**：世界模型能根据简单设定自动生成并演化整个虚拟世界，将内容创作从“制作”变为“生成”，彻底改变叙事和创作方式，例如游戏世界可以即时生成和进化[117][118][120] - **AI Agent**：世界模型为AI Agent提供了一个可训练、可试错、接近真实的“内在世界”，解决了其与真实环境交互训练昂贵且危险的核心问题，是决定AI Agent能否走向现实世界的关键[121][122][124]

Artificial Intelligence

Artificial Intelligence

世界模型

重大突破！斯坦福李飞飞推出空间智能模型Marble！单图&文本生成永久免费3D世界！

机器人大讲堂· 2025-09-24 19:09

模型核心能力 - 基于单张图片或文本提示生成可永久存在、自由探索的3D世界，几何结构干净、风格丰富且支持场景拼接[4][5] - 核心技术包括场景几何结构解析与重建，能自主识别空间关系并还原隐藏区域，通过估算深度地图和识别几何边界确保物理空间逻辑合理[6] - 同步处理光照、材质、纹理等细节元素，通过训练学习图像特征与三维属性对应关系，实现全维度转化[6][7] - 生成的高斯点云格式相比传统网格模型大幅降低数据体积，支持跨设备适配，包括台式机、笔记本电脑、移动设备和VR头显[9] 技术优势对比 - 相比传统3D生成技术仅能提供简化场景，该模型可构建包含多层结构和复杂装饰的完整空间，避免加载中断或物体形变[9] - 与谷歌Genie相比，该模型以永久性场景生成为核心，无时间限制和探索范围约束，用户可自由切换视角并保存场景[10][12] - 谷歌Genie参数规模110亿，训练数据基于超20万小时二维游戏视频，但场景存在时效性且交互逻辑受限[14] 商业化应用潜力 - 在游戏开发中可将复杂场景搭建周期从数周至数月压缩至几分钟，仅需输入参考图即可生成基础3D框架[13][15] - 在VR内容创作领域直接适配VR头显，提供沉浸式探索体验，无需额外开发投入[16] - 在影视场景搭建中快速生成不同风格原型，帮助导演直观确认效果，降低后期修改成本[21] 当前技术局限 - 功能聚焦3D环境创建，暂不支持人物、动物等动态中心对象的生成，需借助其他工具手动导入[22] - 场景规模受限，仅能生成房间大小的3D空间，构建更大规模场景会出现加载延迟和细节丢失问题[24]

3D世界生成技术

Artificial Intelligence

Marble

谷歌Genie

3D世界生成技术

Artificial Intelligence

Marble

谷歌Genie