Workflow
干货超标!腾讯混元3D负责人郭春超:真正的3D AIGC革命,还没开始!

腾讯混元大模型家族演进 - 腾讯混元大模型自2023年2月启动研发,从大语言模型向多模态模型全面演进,早期聚焦大语言模型方向并于2023年9月发布基于万亿参数级NLP稀疏大模型的生成式能力 [8] - 2024年5月开源业界首个中文DIT架构图像生成模型实现中文图像生成领域开源突破,同年11月推出3D生成1.0模型成为业内首个同时支持文生3D和图生3D的开源大模型 [8] - 2024年12月混元文生视频模型加入开源行列,经过两年多发展已成长为覆盖文本、语音、图像、3D、视频等多模态能力的全面生成式AI基座 [8] 3D生成技术现状 - 3D生成仍处发展早期阶段,工业界大规模投入仅一年出头,当前可用度约50%相比大语言模型90%的成熟度仍有显著差距 [22] - 技术路线呈现自回归模型与扩散模型结合趋势,前者可提升可控性和记忆能力,后者在推理速度上保持优势 [36][39] - 主要挑战包括数据稀缺(千万量级3D数据vs百亿级图片数据)、工业级CG管线融合度不足、3D表达方式未达最优 [32][43] 行业应用与效率提升 - 传统人工建模成本高昂:游戏角色建模达1.2万元/个需7天,广告建模最低200元/秒需0.5天,而文生3D成本仅0.5元/次耗时约1分钟 [13] - 腾讯混元构建"3D创动引擎"架构,通过草图生3D、纹理换肤生成、动作融合建模和低多边形优化四类技术矩阵实现关键环节30%-40%效率提升 [13][14] - 应用分层明显:轻量小游戏资产已"踮脚可及",腰部游戏可辅助道具生成,3A大作需多轮原型迭代中提效 [31] 开源战略与技术生态 - GitHub Star数超1.2万,Hugging Face下载量超100万,最小开源模型参数仅0.6B支持本地运行 [19][28] - 开源与商业协同发展:开源模型反馈问题促进研发,社区插件可被复用,形成"持续迭代速度"的核心护城河 [28][34] - ComfyUI官方支持实现从草图到完整3D模型的一键生成,年内计划开放更多模型与数据集降低行业门槛 [17][19] 未来发展方向 - 2025年目标实现物体级生成接近人工建模水平,场景类生成具备初步雏形,向原生多模态统一架构演进 [20] - 世界模型构建分阶段推进:先实现局部空间合理性,再扩展至具备物理规律的三维世界,当前已在腾讯地图导航车标等场景落地 [19][42] - 专业工具定位明确:AI不会替代3D设计师而是成为生产力工具,帮助将创意实现效率提升10倍 [46][47]