产品核心升级 - 腾讯发布并开源混元世界模型1.1 (WorldMirror),这是真正统一的端到端3D重建基座大模型 [1] - 新模型是继今年7月发布的混元世界模型1.0后,腾讯的又一次世界模型大升级 [15] - 混元世界模型1.1突破了1.0版本的局限,使用户能够上传多视图或者视频来生成3D场景 [37] 技术突破与行业地位 - 该模型是业界首个统一(any-to-any)的前馈式(feedforward) 3D重建大模型 [4] - 首次支持用户从多视图或视频中一键生成3D世界,并能在单卡、秒级推理下完成高精度重建 [3] - 实现了业界首次统一的多任务输出(点云、深度、相机、表面法线和新视角合成),并均取得SOTA表现 [21] 性能表现对比 - 在3D点云重建任务中,混元世界模型1.1生成表面更平整,场景更规整,优于Meta的最新开源模型MapAnything [9][11] - 在端到端3D高斯重建任务中,几何精度和细节还原全面超越AnySplat模型,场景重建更稳定真实 [12][14] - 模型采用纯前馈架构,处理典型8-32视图输入耗时仅需1秒钟,远快于需要迭代优化数分钟甚至数小时的传统方法 [22] 核心功能特性 - 支持灵活注入多模态先验(相机位姿、相机内参、深度图),通过动态先验注入机制能适应任意先验组合 [18][20] - 采用端到端多任务协同训练,各任务相互强化,提升整体几何一致性 [21] - 基于完全Transformer骨干,使用DPT头进行密集预测,并通过可微光栅化器进行监督 [30][31] 应用场景与效果 - 支持动画风格虚拟场景、中华风场景、真实航拍场景及科幻漫画等多种风格的高精度重建 [5][6][7] - 通过多模态先验融合、通用几何预测和前馈高效推理的结合,将3D重建从专业工具转变为人人可用的技术 [37] - 项目已完全开源,开发者可克隆GitHub仓库一键部署,普通用户也可通过Hugging Face在线体验 [34]
腾讯开源混元世界模型1.1,视频秒变3D世界,单卡推理仅需1秒