3D AIGC

搜索文档
干货超标!腾讯混元3D负责人郭春超:真正的3D AIGC革命,还没开始!
AI科技大本营· 2025-05-16 09:33
腾讯混元大模型家族演进 - 腾讯混元大模型自2023年2月启动研发,从大语言模型向多模态模型全面演进,早期聚焦大语言模型方向并于2023年9月发布基于万亿参数级NLP稀疏大模型的生成式能力 [8] - 2024年5月开源业界首个中文DIT架构图像生成模型实现中文图像生成领域开源突破,同年11月推出3D生成1.0模型成为业内首个同时支持文生3D和图生3D的开源大模型 [8] - 2024年12月混元文生视频模型加入开源行列,经过两年多发展已成长为覆盖文本、语音、图像、3D、视频等多模态能力的全面生成式AI基座 [8] 3D生成技术现状 - 3D生成仍处发展早期阶段,工业界大规模投入仅一年出头,当前可用度约50%相比大语言模型90%的成熟度仍有显著差距 [22] - 技术路线呈现自回归模型与扩散模型结合趋势,前者可提升可控性和记忆能力,后者在推理速度上保持优势 [36][39] - 主要挑战包括数据稀缺(千万量级3D数据vs百亿级图片数据)、工业级CG管线融合度不足、3D表达方式未达最优 [32][43] 行业应用与效率提升 - 传统人工建模成本高昂:游戏角色建模达1.2万元/个需7天,广告建模最低200元/秒需0.5天,而文生3D成本仅0.5元/次耗时约1分钟 [13] - 腾讯混元构建"3D创动引擎"架构,通过草图生3D、纹理换肤生成、动作融合建模和低多边形优化四类技术矩阵实现关键环节30%-40%效率提升 [13][14] - 应用分层明显:轻量小游戏资产已"踮脚可及",腰部游戏可辅助道具生成,3A大作需多轮原型迭代中提效 [31] 开源战略与技术生态 - GitHub Star数超1.2万,Hugging Face下载量超100万,最小开源模型参数仅0.6B支持本地运行 [19][28] - 开源与商业协同发展:开源模型反馈问题促进研发,社区插件可被复用,形成"持续迭代速度"的核心护城河 [28][34] - ComfyUI官方支持实现从草图到完整3D模型的一键生成,年内计划开放更多模型与数据集降低行业门槛 [17][19] 未来发展方向 - 2025年目标实现物体级生成接近人工建模水平,场景类生成具备初步雏形,向原生多模态统一架构演进 [20] - 世界模型构建分阶段推进:先实现局部空间合理性,再扩展至具备物理规律的三维世界,当前已在腾讯地图导航车标等场景落地 [19][42] - 专业工具定位明确:AI不会替代3D设计师而是成为生产力工具,帮助将创意实现效率提升10倍 [46][47]
AI无限生成《我的世界》,玩家动动键盘鼠标自主控制!国产交互式世界模型来了
量子位· 2025-05-13 11:01
核心观点 - 昆仑万维推出的Matrix-Game通过AI技术实现交互式虚拟世界生成,用户可通过简单键鼠指令自由探索和创作高保真虚拟内容[10] - 该技术突破传统手写代码和渲染方式,大幅降低创作门槛并提升效率[11] - Matrix-Game在视觉质量、时间一致性、交互可控性和物理规则理解四大维度全面领先现有开源模型[36] - 空间智能成为AI发展新方向,3D AIGC技术正在重塑虚拟内容创作和交互方式[43][48] 技术实现 数据集构建 - Matrix-Game-MC数据集包含无标签Minecraft视频和带控制信号的可控视频数据[14] - 采用三阶段过滤机制从6000小时数据中筛选出近千小时高质量内容[16][17] - 通过探索代理和程序化模拟生成数千小时可控监督数据[17] 主模型架构 - 基于扩散模型框架,包含图像到世界建模、自回归视频生成和可控交互设计[18][20] - 图像到世界建模以单张图像为起点,结合用户动作输入生成视频内容[20] - 自回归生成以前5帧为上下文确保时间连贯性,采用扰动和分类引导策略缓解误差[23][24][25] - 动作控制模块采用离散/连续token表达,结合多模态Diffusion Transformer架构[27] 性能表现 评测体系 - GameWorld Score首次实现感知质量+控制能力+物理合理性的综合评估[29][30] - 四大核心维度:视觉质量、时间一致性、交互可控性、物理规则理解[31][32][33][34] 对比结果 - 在8大Minecraft场景中全面超越Decart的Oasis和微软的MineWorld[36] - 用户偏好率达96.3%,视觉质量偏好率98.23%[37] - 键盘动作准确率90%+,鼠标视角控制精度达0.97-0.98[39][40] 行业应用 - 可应用于游戏世界搭建、影视/元宇宙内容生产、具身智能训练等领域[41] - 实现低成本高效率生成高保真可交互虚拟环境[42] - 3D AIGC技术成为大模型发展新方向,谷歌DeepMind、腾讯等巨头均已布局[45][46] - 空间智能将重塑人机交互方式,是下一代AI技术的重要赛道[48][49]
单图直出CAD工程文件!CVPR 2025新研究解决AI生成3D模型“不可编辑”痛点|魔芯科技NTU等出品
量子位· 2025-04-14 17:09
核心观点 - 魔芯科技与多所高校联合提出CADCrafter框架,实现从单张图像直接生成可编辑的CAD工程文件,突破传统图生3D技术的局限性 [1][2][16] - 该技术通过参数化CAD指令生成和编译,显著提升模型的可编辑性、表面质量及工业落地实用性 [4][5][29] - 研究已被CVPR 2025接收,团队包括魔芯科技创始人及多国学术机构研究人员 [7][8][9] 技术突破 范式创新 - 首次实现Image-to-CAD范式转变,直接生成参数化CAD指令(包括几何特征指令及参数),而非传统网格模型(Mesh)或3D高斯泼溅(3DGS) [2][13][16] - 支持零件渲染图、3D打印零件照片及日常物体图像输入,输出可编译为STP等工业标准格式的工程文件 [2][3][28] 核心架构 1. **两阶段生成框架** - 结合VAE与Diffusion Transformer:VAE将CAD指令映射至隐空间,DiT模型实现图像引导的隐空间采样 [19][20] 2. **蒸馏策略** - 先训练多视图DiT模型稳定学习映射关系,再通过L_distill损失迁移至单视图模型,提升单图输入效果 [21] 3. **可编译性优化** - 引入DPO损失和代码合理性判别模块,确保生成指令可通过CAD内核编译,成功率显著提高 [22][24][25] 应用优势 工业实用性 - 生成模型表面平面度、棱角细节符合生产要求,支持直接参数化编辑(如调整部件尺寸) [4][15][28] - 实验显示细节还原度优于现有方法,适用于制造维修领域的快速原型设计及零件重建 [26][29][30] 性能对比 - 传统AI生成网格模型存在表面粗糙、边缘不锐利问题,尤其Marching Cubes算法转换时几何质量下降 [14] - CADCrafter参数化模型提供更高可控性,用户可通过指令直接调整几何形状,提升设计效率 [15][16] 研究背景 - 合作机构包括魔芯科技、南洋理工大学、A*STAR、西湖大学等,通讯作者为魔芯科技创始人Tianrun Chen [7][8] - 技术细节详见论文(arXiv:2504.04753),实验采用KOKONI SOTA 3D打印机实物验证 [26][31]
速递|全球首个多模态交互3D大模型来了,GPT-4o都没做到的,它做到了
Z Potentials· 2025-04-14 10:30
多模态AI技术进展 - GPT-4o上线多模态生图功能 支持文本 图像 语音和视频联合训练 实现高度可控的图像生成 在特征保持和上下文理解方面达到新高度[1] - DreamTech推出全球首个多模态交互3D大模型Neural4D 2o 支持文本及图像输入 实现自然语言交互编辑[1] - Neural4D 2o通过多模态transformer encoder和3D DiT decoder联合训练 实现3D生成的上下文一致性 高精准局部编辑 角色ID保持 换装和风格迁移等功能[1] 3D AIGC技术突破 - Neural4D 2o提供MCP协议支持 部署Neural4D Agent(alpha) 帮助用户便捷完成高质量3D内容创作[1] - 实测显示模型在稳定性 上下文一致性 局部编辑和角色ID保持方面表现完善 但交互等待时间仍需2-5分钟 存在服务器排队问题[8] - 该技术将大幅提升3D设计师效率 传统AI生成的3D模型需要导入专业工具长时间修改 而Neural4D 2o通过对话即可实现专业建模能力[8] 公司及产品信息 - DreamTech专注于3D及4D AI技术 致力于提升AIGC创作者和消费者体验 愿景是通过AI技术打造与真实世界无缝对接的4D时空体验 实现AGI[9] - Neural4D 2o产品链接为https://www.neural4d.com/n4d-2o[9]