文章核心观点 世界模型作为具身智能发展的关键方向,目前研究尚处起步阶段且共识未成,但已在通用空间感知、三维感知视频生成、数字人重建、物理世界建模及三维生成技术等多个关键子领域取得显著进展,这些技术旨在为机器人或AI系统提供对物理世界的深刻理解、交互与预测能力,并正从研究走向应用 [2] 面向具身智能的通用空间感知技术 - 浙江大学研究员彭思达团队聚焦赋予机器人三项基础空间感知能力:相机定位、深度估计和物体运动估计,这些是机器人决策和规划的关键支撑 [5] - 团队提出使用人类行为数据训练机器人的思路,将人类视为特殊机器人,通过记录日常行为获取训练数据,此过程依赖上述三项感知技术 [6] - 在相机定位方面,团队于2021年提出LoFTR模型,使用Transformer进行图像稠密特征匹配,以解决传统方法在恶劣环境或大视角差异下匹配不佳的问题 [7] - 在深度估计方面,针对现有方法在物体边缘产生“飞点”的问题,团队提出Pixel-Perfect-Depth思路,移除VAE并在像素空间优化,同时整合语言特征以增强模型全局理解能力 [8] - 在物体运动估计(三维跟踪)方面,团队提出SpatialTracker方法,将二维图像反投影至三维空间进行3D tracking,以实现比传统二维跟踪更鲁棒的效果 [9] 迈向三维感知的视频世界模型 - 腾讯ARC Lab研究员胡文博指出,尽管Sora展现了不错的3D一致性,但视频细节的垂直性与平整性仍有提升空间,且视频本质是2D的,而世界是3D的,因此探索3D感知的视频世界模型至关重要 [12] - 团队从重建和生成两方面发力,重建工作包括从视频估计深度(DepthCrafter)、从视频估计点云进行4D重建(GeometryCrafter)以及从单目视频重建运动(Holi4D) [13] - 在生成方面,ViewCrafter借助重建的3D点云控制视频扩散模型,实现以点云为条件的图像生成与更新,这被视为早期世界模型的记忆机制 [14] - TrajectoryCrafter工作允许用户通过单目视频探索背后的4D世界,通过注入重建的3D信息,能生成指定相机位姿的动态视频、子弹时间特效和复现Dolly Zoom特效 [16] - VerseCrafter模型实现了场景交互,在单图重建几何的基础上,通过标注可移动物体,能生成固定相机、只动物体、相机物体同动等逼真的交互观测结果 [16] 数字人重建技术的进展与展望 - 西湖大学修宇亮教授团队推出的UP2You方案,将单个数字人建模时间从传统DreamBooth等方法所需的3至4小时大幅压缩至1.5分钟,其核心是将日常“脏数据”转化为对重建友好的多视角正交图片 [20] - UP2You方案的优势在于重建质量随输入图片数量增加而稳定提升,能规避脏数据弊端并放大数据量优势 [21] - ETCH工作旨在根据高精度穿衣人体模型得到解剖学正确的内部人体结构,通过向量定义衣服与皮肤间的厚度关系,解决了此前建模结果普遍偏胖的问题,该工作获ICCV 2025 Highlight Paper [21][22] - Human3R工作实现了人物及场景的实时动态呈现,在同时进行场景重建和人体状态预测、追踪的基础上,达到实时15 FPS且仅占用8GB显存,仅需一张商用GPU即可实现SOTA性能 [22] - 修宇亮教授展望指出,更强大的通用3D重建模型正使数字人重建任务迎刃而解,未来相关任务将逐渐转变为在视觉基础模型上进行微调 [23] 创新基础模型以强化物理世界建模 - 中山大学王广润博士指出,物理空间智能面临“感知-规划-执行”端到端实现的挑战,但高质量数据匮乏 [26] - 团队在推理计算上提出全局迭代生成方法,相比顺序生成,具备全局性、渐进精化、快速性及便于多模态统一的优势 [26] - 团队提出全新的原位Tweedie离散扩散模型,该模型可在one-hot单纯形上实现严格扩散过程,直接在扩散空间去噪,不依赖嵌入、掩码或马尔科夫性,且去噪过程中token语义能从混乱噪声逐步稳定为清晰表征 [26] - 针对现有VLA模型的瓶颈(泛化不足、动作控制粗糙、建模范式矛盾),团队构建了新的E0具身大模型 [27] - 王广润博士提出了物理建模与空间建模解耦的思路,并介绍其实验室构建了一个24小时运行的无人机化物理智能评测平台,用于无痛测评VLA模型 [28] 三维生成技术的价值与未来角色 - 香港中文大学(深圳)韩晓光教授梳理了三维生成技术的发展:从“类别限定”时代,到Dreamfusion开启的“开放世界”文本生成3D时代,再发展到当前大模型时代(如Adobe大型重建模型、混元3D),单图生成3D的效果和速度已大幅提升 [32] - 韩晓光教授指出三维生成的三大趋势:更精细(追求几何细节)、更结构化(模型可自动拆解部件)、更对齐(确保3D模型与输入2D图像精确对应) [32] - 针对Sora等视频生成模型对三维内容创作构成的“存在性”冲击,韩晓光教授分析视频生成存在细节可控性差、长程记忆缺失等难题,为3D技术留下了价值空间,并提出了四种可能的2D与3D结合路径 [33] - 在世界模型是否需要3D的问题上,韩晓光教授认为,无论是为VR/AR提供可交互的触觉反馈,还是为机器人提供仿真训练环境,或是实现虚拟到实体的智能制造,3D都是不可或缺的基石 [33] - 韩晓光教授强调,3D作为一种人类可直观理解、可解释的显式表示,是构建可信、安全AI系统的关键途径,有助于在模型效果与可解释性之间取得平衡,带来安全感 [34] 圆桌讨论:世界模型的未来展望 - 彭思达认为世界模型发展需同时关注算法提升与硬件迭代,并预测3D tracking技术将在2027年慢慢收敛,同时自监督学习会出现巨大突破 [37] - 胡文博致力于开发给个人使用的世界模型,让使用者能够体验未知、虚构或他人的世界 [37] - 王广润期待世界模型在交互层面的应用,看好从当前状态到未来更高级别(如从PI0到PI1)的发展过程 [37] - 韩晓光认为到2026年,做好3D的骨架和可移动部分对具身智能依然非常有用,并呼吁继续探索3D方向 [37] - 修宇亮指出需从多模态表征统一的角度解决数字人的情绪价值问题,但面临情绪价值难以量化、缺乏基准的挑战 [38] - 主持人赵昊呼吁该领域需要形成共识与合作,一个关于“世界模型”的技术联盟正在酝酿之中 [39]
GAIR 2025 世界模型分论坛:从通用感知到视频、物理世界模型的百家争鸣
雷峰网·2025-12-13 17:13