腾讯混元世界模型 - 财报，业绩电话会，研报，新闻

腾讯混元世界模型

搜索文档

观察者网· 2026-01-04 09:34

人工智能发展现状与局限 - 以大语言模型为代表的生成式AI已成为数十亿人进行创作、提高生产效率和沟通交流的工具，能够生成连贯文本、代码、图像和短视频 [4] - 然而，当前AI在空间智能方面严重落后于人类，无法可靠地判断距离、方向、尺寸，难以在迷宫中导航或预测基本物理结果，生成的视频也缺乏连贯性 [12] - 多模态大语言模型初步引入了空间意识，能分析图片和生成逼真图像，但AI对世界的理解缺乏整体性，与物理现实脱节，限制了其在驾驶、机器人引导、沉浸式体验及科学发现等领域的应用 [11][12] 空间智能的定义与重要性 - 空间智能是人类与物理世界互动、进行想象与创造的基础，它支撑着日常行为、极端情境下的决策以及婴幼儿的认知发展 [7] - 空间智能是人类想象力与创造力的基石，从史前壁画到现代电影、游戏和工业仿真都离不开它，也是推动文明进程的关键，例如埃拉托色尼测算地球周长、珍妮纺纱机的发明以及DNA双螺旋结构的发现都依赖于空间推理 [8][9] - 空间智能是人类认知的“脚手架”，在观察、创造、抽象推理及人际互动中均不可或缺，但当前AI尚不具备这种流畅的、基于物理直觉的思考能力 [9][11] 下一代AI前沿：世界模型 - 实现空间智能需要构建全新的“世界模型”，其能力需超越当前的大语言模型，能够理解、推理、生成与交互高度动态复杂的语义、物理和几何世界 [14] - 世界模型需具备三项关键能力：生成性（能生成在感知、几何与物理层面保持一致的模拟世界）、多模态（能处理图像、视频、文本、手势等多种形式输入）、交互性（能基于输入动作预测并输出世界的下一状态） [14][16][17] - 构建世界模型是未来十年AI发展的决定性挑战，其复杂度远超语言模型，需要在任务函数、训练数据、模型架构等方面取得基础性突破 [19][20][21] 世界实验室的研究与进展 - 世界实验室成立于2024年初，旨在构建能够释放空间智能的世界模型，其研究团队正致力于推动所需的基础性突破 [3][14] - 公司提出了名为RTFM的实时生成式帧模型，该模型以具有空间锚定的帧作为“空间记忆”，在保持生成世界连续性的同时实现高效实时生成 [21] - 公司已向小部分用户展示了名为Marble的世界模型早期形态，这是首个能接受多模态提示、生成并维持一致三维环境供用户探索互动的模型，并正努力尽快向公众开放 [21] 空间智能的应用前景：创造力 - 空间智能将彻底改变故事创作和体验的路径，其影响将从娱乐拓展至教育和设计建造领域 [24] - Marble平台为电影人、游戏设计师、建筑师等提供了前所未有的空间能力与可控创作工具，使其能快速构建并迭代可自由探索的三维世界，无需承受传统三维软件的高昂成本 [24] - 空间智能将催生新维度的叙事体验、以设计承载的空间叙事以及全新的沉浸式与交互式体验，使“造世界”的能力从专业工作室向个体创作者和教育者开放 [25][26] 空间智能的应用前景：机器人技术 - 世界模型将通过提供可扩展的训练数据解决方案，在机器人学习中发挥决定性作用，缩小仿真与现实差距，协助训练机器人应对无数状态与交互 [27] - 具备空间智能的机器人有望成为人类在实验室、家庭等场景中的伙伴与协作者，但前提是其感知、规划与行动必须与人类的目标和行为保持共情式对齐 [28] - 世界模型将在开发多样化机器人形态（如纳米机器人、软体机器人）的过程中，于仿真数据、训练环境与评测基准的构建中扮演不可或缺的角色 [30] 空间智能的应用前景：科学、医疗与教育 - 在科学研究中，具备空间智能的系统能模拟实验、检验假设并探索人类难以进入的环境，有望彻底改变气候科学、材料研究等领域的计算建模方式 [31] - 在医疗健康领域，空间智能可加速药物发现、提升医学影像诊断能力，并构建环境感知型监测系统以支持患者与照护者，同时机器人在医疗场景中协助医护人员也潜力巨大 [32] - 在教育领域，空间智能能实现沉浸式学习，使抽象概念变得可感知，为学生提供探索复杂结构（如细胞内部）和历史现场的机会，并为专业人士提供安全的高仿真技能练习环境 [32]

空间智能

人工智能

世界模型

Artificial Intelligence

Artificial Intelligence

腾讯混元世界模型

Marble