混元Voyager

搜索文档
世界模型,腾讯混元卷到了榜首
量子位· 2025-09-03 15:30
腾讯混元世界模型Voyager发布 - 腾讯混元发布业界首个支持原生3D重建的超长漫游世界模型HunyuanWorld-Voyager 该模型支持将视频直接导出为3D格式 并能够生成长距离且世界一致的漫游场景 [1][3][4] - 模型在发布后立即开源 距离上一代Lite版发布仅间隔两周 展现出快速迭代能力 [3] 核心功能与技术特性 - 新增"漫游场景"功能 支持通过鼠标和键盘在场景内自由活动 交互性远超360°全景图 用户可通过一句话或一张图生成高质量3D场景 [10][11][13] - 创新性将场景深度预测引入视频生成过程 通过空间与特征结合支持原生3D记忆和场景重建 避免传统后处理的延迟和精度损失 [31] - 采用视频生成与3D建模融合技术 基于相机可控的视频生成技术合成可自由控制视角的RGB-D视频 [32] - 关键组件包括世界一致的视频扩散架构和长距离世界探索机制 后者通过世界缓存机制支持迭代式场景扩展和平滑视频采样 [33] 数据集与训练体系 - 构建超过10万个视频片段的大规模数据集 整合真实世界采集与虚幻引擎渲染资源 通过自动化视频重建流水线实现无需人工标注的大规模数据构建 [33][34] - 训练数据构建引擎可自动估计相机位姿和度量深度 支持多样化训练数据的自动化生成 [33] 性能表现与基准测试 - 在斯坦福大学WorldScore基准测试中以77.62分位居综合能力首位 显著超越WonderWorld(72.69分)和WonderJourney(63.75分)等竞争对手 [36] - 在相机运动控制(85.95分)和风格一致性(84.89分)等细分指标表现突出 较第二名优势明显 [36] - 视频生成质量指标PSNR达18.751 SSIM达0.715 LPIPS为0.277 均优于See3D和FlexWorld等对比模型 [39] - 在场景重建任务中PSNR达18.035 SSIM达0.714 使用深度信息初始化点云后重建效果更佳 [42][43] 技术应用与扩展能力 - 支持视频场景重建 3D物体纹理生成 视频风格定制化生成和视频深度估计等多种3D理解与生成应用 [27] - 与混元世界模型1.0高度适配 可扩展1.0模型的漫游范围并提升复杂场景生成质量 [24] - 生成视频帧实时更新缓存形成闭环系统 支持任意相机轨迹同时维持几何一致性 [35] 模型部署要求 - 模型运行需要60GB GPU峰值内存 支持540p分辨率输出 [47] 腾讯开源生态布局 - 腾讯混元持续加速开源进程 产品矩阵包括MoE架构模型混元large 混合推理模型Hunyuan-A13B以及最小仅0.5B参数的端侧小模型 [48] - 最新开源翻译模型Hunyuan-MT-7B在国际机器翻译比赛中获得30个第一名 同时发布翻译集成模型Hunyuan-MT-Chimera-7B [48] 行业开源动态 - 阿里开源视频生成模型Wan2.2-S2V 美团发布首个开源大模型Longcat-Flash-Chat 显示国内大厂持续加码开源布局 [49][50][51]
腾讯混元发布Voyager 3D世界模型
每日经济新闻· 2025-09-02 16:45
公司产品发布 - 腾讯混元发布业界首个支持原生3D重建的超长漫游世界模型HunyuanWorld-Voyager(混元Voyager)[2] - 模型聚焦AI在空间智能领域的应用扩展[2] - 为虚拟现实、物理仿真、游戏开发等领域提供高保真3D场景漫游能力[2] 行业技术突破 - 混元Voyager是业界首个支持原生3D重建的超长漫游世界模型[2] - 模型将推动虚拟现实、物理仿真、游戏开发等领域的技术发展[2]