Workflow
Hunyuan 3D
icon
搜索文档
直击CVPR现场:中国玩家展商面前人从众,腾讯40+篇接收论文亮眼
量子位· 2025-06-17 15:41
CVPR 2025核心趋势 - 多模态与3D生成成为论文接收热门方向 其中高斯泼溅技术为前五高频关键词之一[6][15] - 基础模型讨论深入并延伸至产业落地 具身智能与机器人AI设立独立Workshop板块[6] - 计算机视觉与图形学加速融合 神经渲染推动3D论文数量显著增长[16][17] 中国企业参与表现 - 腾讯、字节等企业展区规模创纪录 技术Demo体验排队现象突出[3][5] - 腾讯40+篇论文被接收 覆盖混元大模型团队、优图实验室等多方向[32] - 蚂蚁、字节、快手分别有21篇、12篇(含4篇Highlight)、12篇论文入选[32] - 中国企业赞助商占比达6/41 腾讯与字节跻身白金赞助商行列[34] 技术突破与开源进展 - 腾讯Hunyuan 3D 2.1版本实现几何与纹理双重优化 达到开源3D模型SOTA水平[21] - 该模型为全链路开源工业级3D生成大模型 支持消费级显卡适配[23] - 多模态领域高频词包括扩散模型(175次)、大语言模型(129次)、文生图(48次)等[14] 产业应用与人才战略 - Workshop议题新增3D捕获重建、数字孪生等方向 聚焦真实世界建模需求[28] - 腾讯研发投入超706亿元(2024年) 全球专利申请公开总数达8.5万件[44] - 腾讯科技类人才占比73% 青云计划提供无上限薪酬与顶尖科学家资源[51][52] - 企业通过顶会展示技术实力 形成商业反哺技术的良性循环[46][48]
干货超标!腾讯混元3D负责人郭春超:真正的3D AIGC革命,还没开始!
AI科技大本营· 2025-05-16 09:33
腾讯混元大模型家族演进 - 腾讯混元大模型自2023年2月启动研发,从大语言模型向多模态模型全面演进,早期聚焦大语言模型方向并于2023年9月发布基于万亿参数级NLP稀疏大模型的生成式能力 [8] - 2024年5月开源业界首个中文DIT架构图像生成模型实现中文图像生成领域开源突破,同年11月推出3D生成1.0模型成为业内首个同时支持文生3D和图生3D的开源大模型 [8] - 2024年12月混元文生视频模型加入开源行列,经过两年多发展已成长为覆盖文本、语音、图像、3D、视频等多模态能力的全面生成式AI基座 [8] 3D生成技术现状 - 3D生成仍处发展早期阶段,工业界大规模投入仅一年出头,当前可用度约50%相比大语言模型90%的成熟度仍有显著差距 [22] - 技术路线呈现自回归模型与扩散模型结合趋势,前者可提升可控性和记忆能力,后者在推理速度上保持优势 [36][39] - 主要挑战包括数据稀缺(千万量级3D数据vs百亿级图片数据)、工业级CG管线融合度不足、3D表达方式未达最优 [32][43] 行业应用与效率提升 - 传统人工建模成本高昂:游戏角色建模达1.2万元/个需7天,广告建模最低200元/秒需0.5天,而文生3D成本仅0.5元/次耗时约1分钟 [13] - 腾讯混元构建"3D创动引擎"架构,通过草图生3D、纹理换肤生成、动作融合建模和低多边形优化四类技术矩阵实现关键环节30%-40%效率提升 [13][14] - 应用分层明显:轻量小游戏资产已"踮脚可及",腰部游戏可辅助道具生成,3A大作需多轮原型迭代中提效 [31] 开源战略与技术生态 - GitHub Star数超1.2万,Hugging Face下载量超100万,最小开源模型参数仅0.6B支持本地运行 [19][28] - 开源与商业协同发展:开源模型反馈问题促进研发,社区插件可被复用,形成"持续迭代速度"的核心护城河 [28][34] - ComfyUI官方支持实现从草图到完整3D模型的一键生成,年内计划开放更多模型与数据集降低行业门槛 [17][19] 未来发展方向 - 2025年目标实现物体级生成接近人工建模水平,场景类生成具备初步雏形,向原生多模态统一架构演进 [20] - 世界模型构建分阶段推进:先实现局部空间合理性,再扩展至具备物理规律的三维世界,当前已在腾讯地图导航车标等场景落地 [19][42] - 专业工具定位明确:AI不会替代3D设计师而是成为生产力工具,帮助将创意实现效率提升10倍 [46][47]