3D生成
搜索文档
腾讯王腾飞:从生成内容到生成环境,世界模型的3D落地之路
AI前线· 2026-06-23 14:34
文章核心观点 - 世界模型不是“更好的视频生成”,而是一次范式跃迁,其核心是交付“可运行环境”,而非仅交付“内容” [3][6][8] - 3D是世界模型落地的重要路径,因其具备一致性、资产概念、物理精确性及成本优势,是唯一能真正交付到生产环节的形态 [12][13][14] - 游戏数字世界是物理世界的“可控代理”,两者在核心技术框架(感知、仿真、推理、规划)上高度一致,可相互复用 [6][29] - 世界模型生态当前最稀缺的是评测标准,而非模型本身 [6][31] 对世界模型的理解与定义 - 公司对世界模型的理解与李飞飞提出的“渲染器、仿真器、规划器”三层框架略有不同,更倾向于将渲染与仿真合并看待 [4] - 世界模型需满足三个核心特征:状态持续、物理准确、可交互 [9][16] - 世界模型与普通视频生成、3D生成最本质的区别在于可交互性与可维护的世界状态 [8] 技术路径与产品布局 - 公司遵循“能力积木化、最终系统化”的技术路径,各模块独立输出价值,整合后涌现更大能力边界 [7] - 已在世界仿真与渲染层布局WorldPlay、WorldStereo等视频模型,以及WorldMirror、HY 3D等仿真资产生成模型 [5] - 已在世界规划层布局WorldNav及后续系列模型,支撑导航与操作任务 [5] - 将各模块能力整合推出HY World产品,用户输入简单文本或图像即可生成完整、可交互、可仿真的3D世界,并配套专用渲染器WorldLens实现高效实时渲染 [5] 3D作为落地路径的核心原因 - 3D天然具备一致性,且兼容现有管线:采用显式3DGS表达,可提取mesh,直接接入标准图形管线、游戏引擎及仿真平台 [13] - 3D具备“资产”概念:生成的是可编辑、可复用、可接入工作流的结构化资产,而视频帧仅是最终影像或素材 [13] - 3D具备物理精确性:结合重建模型WorldMirror,能输出真实的深度、法线和点云数据,满足精准模拟仿真的需求 [13] - 3D具备成本优势:建模成本是一次性的,边际成本极低;而视频生成需要持续消耗算力进行推理 [14] 应用场景判断标准 - 判断是否需要世界模型的核心在于应用场景是否需要“交互” [10] - 指向“交互”需求的三个信号:持久的世界状态、可编辑可复用的资产、物理交互,满足条件越多,对世界模型需求越强 [11] - 被动观看型内容(如营销短片、概念图)适合视频生成;需要接入可运行系统的场景(如游戏、机器人仿真、VR漫游)则依赖3D和世界模型 [17][18] HY-World 2.0技术架构与生成流程 - 不采用端到端模型的原因:缺乏成对训练数据,且模块化方案可控性、可解释性更强 [20] - 生成流程分为四个阶段,对应人类“感知世界→理解世界→想象世界→重建世界”的认知过程 [21] - 第一阶段(全景生成,HY-Pano):将输入转化为360°全景,提供全局自洽的初始化 [21] - 第二阶段(轨迹规划,WorldNav):将全景解析为点云、mesh等,并规划探索路线 [21] - 第三阶段(世界扩展,WorldStereo):沿规划轨迹补全未观测区域,保持全局一致性 [22] - 第四阶段(世界合成,WorldMirror):将多视角视图重建为精确几何结构,得到可自由漫游的3D世界 [22] 关键模块技术优势 - WorldMirror 2.0大幅降低三维重建门槛:单次前向传播即可输出全套自洽统一的几何结果;凭借学习到的先验知识,在稀疏视角等“不完美”输入下稳定工作;采用前馈式预测,速度快,无需针对每个场景单独优化 [23] - WorldLens作为专用渲染平台,承担三项核心功能:自动IBL光照、高效碰撞检测、训练-渲染协同设计,确保生成的世界能实时、高质量地“跑起来” [24][25] 物理交互能力与挑战 - “兼容物理引擎”意味着对生成内容进行轻量化处理,使其能接入标准图形管线,实现实时碰撞检测与物理反馈 [27] - 目前已成熟的能力包括:静态场景碰撞、漫游导航、角色与环境碰撞交互、基本重力与刚性反馈、一致的光照系统 [27] - 仍面临的挑战包括:动态物体生成与交互、铰接与可形变物理效果实现、物理参数准确估计、物体级语义解耦与可交互编辑 [28][32] 生态建设与开发者机会 - 公司选择开源HY-World 2.0全部模型权重、代码和技术细节,旨在推动生态建设 [30] - 当前生态中最具价值的三个探索方向:建立量化“世界好坏”的评测标准;开发工具链适配与工作流插件;进行垂直领域(如自动驾驶、具身智能)适配 [31]
Z Potentials | 大厂进场3D的这一年,影眸Hyper3D凭什么还是最强3D模型开发者
Z Potentials· 2026-06-23 13:37
公司发展历程与融资 - 公司由上海科技大学学生于2020年创办,早期探索3D与生成技术,经历过元宇宙泡沫和现金流紧张的至暗时刻[2] - 2024年将筹码押注于原生3D生成大模型Hyper3D Rodin,引领了行业主流技术转向[2] - 在2025年7个月内快速完成两轮千万美元级融资,并于近期完成新一轮数亿元人民币融资,由凯辉基金、上海国投先导领投,老股东跟投[2] 核心技术突破与产品迭代 (Rodin Gen-2.5) - Hyper3D Rodin大模型已迭代至Gen-2.5,这是全球首个千万面级3D生成模型,首次将类大语言模型的“先思考、再生成”运行逻辑引入3D生成领域[2] - 模型引入“Thinking Effort”机制,生成时长在4秒到80秒间连续可调,分为五档以覆盖从快速草稿到极致精模的不同场景[8] - 通过控制token长度来满足用户对模型风格(如细节体现在模型表面还是贴图)的不同需求,token越长越倾向于表示更多细节[9] - 在Medium模式下,用户可一次性生成10个模型,提高了抽卡效率[10] - 模型采用flow matching路线,并在CLAY框架中引入了变长token设计,此次在Gen-2.5中深度探索了其价值[11] - 同步推出全球首个12K精度的原生3D贴图模型,其VAE性能超越了Flux 2,实现了超越实景扫描的几何精度和材质保真度[2][13] - Gen-2.5被视为中间版本,整数版本(如Gen-3)将采用全新架构,版本间隔约6个月,中间每2到4个月发布小版本[14] 技术优势与行业地位 - 公司是业内唯一连续多年获得国际图形学顶级会议SIGGRAPH最佳论文及提名的商业公司,算法团队每2人中就有1人获得或提名最佳论文[3] - 已上线业内唯一的3D编辑、递归分件技术BANG以及支持多种格式的3D ControlNet,将3D生成推进到可编辑、可控制的生产工作流[3] - 在部分场景(如3D打印、部分游戏)已能直接投产,Gen-2.5已显著降低人工修改成本[15][16] - B端订单量超过了同赛道其他公司之和[4] - Rodin Gen-2.5发布后首月,订阅用户与年度经常性收入(ARR)环比增速均超过400%[4] - 过去一年客户零流失(除倒闭外),运营团队规模仅为同行的十分之一,平均每9天上线一个新功能[4][31] - 英伟达CES Keynote主视觉、Unity AI引擎、OpenAI首届Codex Hackathon冠军项目均采用了其生成的3D资产或技术[4][39] 对3D生成行业的理解与战略 - 认为“3D根本不是一个行业”,而是由游戏、3D打印、CAD、智能制造等不同分门别类的领域构成,各领域需求差异巨大[12][19] - 3D领域的Scaling Law比语言模型更早遭遇瓶颈,无法单纯依靠增加参数和数据量来提升效果,其scaling发生在应用场景上,需要为各场景做专用适配[17] - 与语言模型不同,3D领域垂直模型特别重要,当前发展阶段相当于语言模型的O1阶段,通过不同的“thinking”实现测试时缩放(test-time scaling)[12][18] - 公司坚持探索新技术时绕开“看起来对”的学术惯性路径(如坚持3D原生而非2D升维),从而建立差异化优势[5][12] - 真正的壁垒在于大厂不愿碰的“脏活累活”,如下游工业适配、深入理解具体生产流程等[5][44] - 3D生成是构建世界模型(world model)的必需品,但公司不愿蹭此概念,更关注撕开标签后的具体任务定义[6][50] 研发体系与组织文化 - 研发体系与DeepSeek高度相似:没有KPI,不打卡,允许本科生直接领导项目[3][52][53] - 团队善于摆脱学术惯性,基于对底层模型的深入了解进行创新,提出了“Understanding by Generating”的思路[24] - 内部大量使用AI agent进行传统算法优化、性能调优和代码开发,大幅提升了研发效率,避免了团队规模的过度膨胀[54] - 论文产出源于长期研发和产品突破,而非为了发表,两年内获得三项最佳论文提名/获奖[12][58] 商业化路径与市场前景 - 当前商业化核心聚焦于B端专业化使用场景,认为3D还不是一个成熟的C端模态[35][36] - 短期(3-5年)目标市场是专业3D领域,全球有百万数量级建模师,Autodesk年营收达数十亿美元,游戏行业每年外包建模花费一二百亿美元,预计是一个500到1000亿美元的市场[40] - 长期看,随着3D打印和AR/VR普及到C端,3D生成可能成为像手机拍照一样的底层框架,市场潜力是当前的两倍以上[40][41] - 采用产品和定价策略筛选专业用户,客户粘性高,留存率领先行业[38] 竞争格局与差异化 - 面对大厂(腾讯、阿里、字节等)全面进场,公司认为大厂的目标是证明技术模态的完备性,而非针对具体场景做深入适配,这构成了创业公司的差异化机会[43][44] - 模型层面的设计(如3D ControlNet、3D编辑)难以被快速复刻,需要更长的攻克时间[27] - 公司经历过多个周期,不易被市场疯狂情绪裹挟,判断基于产品和真实用户[48] - 投资人更看重其技术路线和长期价值,而非短期增长曲线[49]