3D AIGC
搜索文档
DreamTech Unveils Neural4D-2.5: Introducing the "Native 3D" Architecture for High-Fidelity AIGC
TMX Newsfile· 2026-02-09 09:51
San Francisco, California--(Newsfile Corp. - February 8, 2026) - DreamTech has officially announced the launch of Neural4D-2.5, its new generation foundational model for 3D AIGC (Artificial Intelligence Generated Content). By introducing the innovative Native 3D Attribute Grid architecture, DreamTech aims to enhance the quality and accessibility of high-fidelity 3D assets for creators worldwide.Neural4D-2.5 represents a significant architectural shift, moving away from traditional resource-intensive method ...
无需训练的3D生成加速新思路:西湖大学提出Fast3Dcache
量子位· 2025-12-04 13:57
3D AIGC行业技术瓶颈与解决方案 - 在AIGC浪潮中,3D生成模型(如TRELLIS)进化迅速,但“慢”与“计算量大”是制约其大规模应用的最大痛点,生成高质量3D资产往往需要漫长等待 [1] - 为加速3D生成,业界曾尝试引入2D视频生成中的“缓存”技术,但在3D领域直接应用会失败,因为3D结构对误差极为敏感,微小误差可导致模型破洞、面片错位甚至结构崩塌 [1] Fast3Dcache技术核心与原理 - 西湖大学AGI实验室提出的Fast3Dcache是一种无需训练、即插即用的几何感知加速框架,能在大幅提升速度的同时,完美保持甚至提升模型的几何质量 [2] - 其核心洞察源于对3D几何生成过程的解剖,发现体素在扩散模型去噪过程中呈现“三阶段稳定模式”:剧烈震荡期、对数线性衰减期和精细调整期 [4] - 基于此观察,Fast3Dcache设计了两大核心模块:PCSC模块通过早期校准预测“衰减曲线”,动态分配每一步的计算预算;SSC模块通过分析潜空间中特征的速度和加速度,智能决定复用或重新计算哪些特征 [6][7][9] - 这种基于时空动力学的筛选机制,比传统仅看数值相似度的方法更可靠,彻底解决了3D结构断裂的问题 [8] Fast3Dcache性能表现与数据 - 在TRELLIS和DSO框架上的测试显示,Fast3Dcache在保证几何质量的前提下,显著提升了推理吞吐量并减少了计算量 [10] - 具体数据:在TRELLIS框架下,当参数τ=8时,模型提速27.12%,计算量(FLOPs)降低54.83% [10][11] - 该技术具有正交性,可与现有视频/图像加速算法无缝叠加,实现更显著的加速效果:Fast3Dcache + TeaCache推理速度达原来的3.41倍;Fast3Dcache + EasyCache推理速度提升至原来的10.33倍 [11][13] 技术影响与行业意义 - Fast3Dcache的提出打破了“3D加速必损画质”的传统认知,它无需重新训练模型和繁琐调参,以一种优雅的方式释放了3D扩散模型的推理潜能 [19] - 对于急需降低算力成本、提高生成效率的3D内容创作者和开发者而言,该技术是在3D几何生成减少计算冗余方面的一个重要开拓者,为后续工作提供了更多可能性 [19]
首个3D生成解构模型PartCrafter问世,GitHub狂揽2k星标
机器之心· 2025-11-27 12:09
技术突破与核心创新 - 提出PartCrafter模型,开创结构化3D生成新理念,能够从单张2D图像直接生成由多个可独立操作部件构成的复杂3D网格模型 [2] - 模型核心采用组合式潜在空间设计,为每个部件分配独立潜在变量并引入可学习的部件身份嵌入,以强化对部件语义属性和独立身份的感知能力 [15] - 设计局部-全局联合去噪Transformer架构,通过局部分支确保单个部件的几何细节完整合理,通过全局分支协调所有部件的空间关系和整体布局一致性 [16][20] 性能优势与实验结果 - 在物体部件级生成任务上,PartCrafter仅需约34秒即可生成高保真、部件可拆分的3D网格,而对比模型HoloPart需18分钟且依赖耗时的后处理步骤 [23] - 在Objaverse数据集上,PartCrafter的倒角距离为0.1726,F-Score为0.7472,优于HoloPart的0.1916和0.6916 [24] - 在场景级生成任务中,PartCrafter在存在严重遮挡的场景下表现稳定,在3D-Front数据集上的倒角距离为0.1491,F-Score为0.8148,优于MIDI模型的0.1602和0.7931 [26] 数据集构建与行业应用 - 为解决数据瓶颈,团队自主构建了大规模高质量部件级3D数据集,包含约13万个三维对象,其中约10万个拥有精确的多部件标注,并精选出约5万个高质量标签对象,共计超过30万个独立三维部件 [19] - 该技术可直接生成可编辑部件,为游戏、虚拟现实、工业设计等领域快速生成可定制的3D资产提供了全新思路,极大提升了3D内容创作流程的实用性和工作效率 [32][34]
NeurIPS 2025 Spotlight | PhysX-3D:面向真实物理世界的3D资产生成范式
机器之心· 2025-10-11 16:06
研究背景与动机 - 3D资产在游戏、机器人和具身模拟等领域应用广泛,但现有生成方法主要关注几何结构与纹理,忽略了物理属性建模[8] - 现实世界物体具有丰富的物理和语义特性,包括物理尺度、材料、可供性、运动学信息和文本描述,这些属性与经典物理原理结合可推导出动态指标[8] - 物理属性难以测量且标注耗时,导致现有相关数据集数据量难以扩展,存在关键空白[11] PhysXNet数据集 - 提出首个系统性标注的物理基础3D数据集PhysXNet,包含超过26,000个带有丰富注释的3D物体,涵盖五个核心维度:物理尺度、材料、可供性、运动学信息和文本描述[6] - 除了物体层级注释,还对每个零部件进行物理属性标注,包括可供性排名和运动学约束的详细参数[9] - 引入扩展版本PhysXNet-XL,包含超过600万个通过程序化生成并带有物理注释的3D对象[9] - 采用人在回路的标注流程,利用GPT-4o获取基础信息并由人工审核员检查,确保数据质量[13] PhysXGen生成框架 - 提出面向真实物理世界的3D生成框架PhysXGen,实现从图像到真实3D资产的生成[6] - 基于预训练的3D表示空间,将物理属性与几何结构和外观相结合,通过联合优化实现物理上的自洽性[18] - 利用物理属性与预定义3D结构空间之间的相关性,在物理属性生成和外观质量方面均取得显著提升[20] 性能评估与对比 - 在四个评估维度上,PhysXGen相比基于GPT的基线方法取得显著优势:物理尺度提升24%、材料提升64%、运动学提升28%、可供性提升72%[23] - 定量结果显示,PhysXGen在PSNR指标上达到24.53,CD指标为12.7,F-Score为77.3,均优于对比方法[21][24] - 在物理属性评估方面,PhysXGen在绝对尺度误差为6.63,材料误差0.141,可供性误差0.372,运动学参数误差0.479,描述误差0.71,全面优于基线方法[21][24] 行业意义与应用前景 - 该研究填补了现有3D资产与真实世界之间的差距,提出端到端的物理基础3D资产生成范式[27] - 数据集和生成框架将吸引来自嵌入式人工智能、机器人学以及3D视觉等多个研究领域的广泛关注[27] - 为3D空间中对物理建模、理解与推理的需求提供了完整的解决方案,从上游数据标注到下游生成建模构建了完整体系[8][27]
干货超标!腾讯混元3D负责人郭春超:真正的3D AIGC革命,还没开始!
AI科技大本营· 2025-05-16 09:33
腾讯混元大模型家族演进 - 腾讯混元大模型自2023年2月启动研发,从大语言模型向多模态模型全面演进,早期聚焦大语言模型方向并于2023年9月发布基于万亿参数级NLP稀疏大模型的生成式能力 [8] - 2024年5月开源业界首个中文DIT架构图像生成模型实现中文图像生成领域开源突破,同年11月推出3D生成1.0模型成为业内首个同时支持文生3D和图生3D的开源大模型 [8] - 2024年12月混元文生视频模型加入开源行列,经过两年多发展已成长为覆盖文本、语音、图像、3D、视频等多模态能力的全面生成式AI基座 [8] 3D生成技术现状 - 3D生成仍处发展早期阶段,工业界大规模投入仅一年出头,当前可用度约50%相比大语言模型90%的成熟度仍有显著差距 [22] - 技术路线呈现自回归模型与扩散模型结合趋势,前者可提升可控性和记忆能力,后者在推理速度上保持优势 [36][39] - 主要挑战包括数据稀缺(千万量级3D数据vs百亿级图片数据)、工业级CG管线融合度不足、3D表达方式未达最优 [32][43] 行业应用与效率提升 - 传统人工建模成本高昂:游戏角色建模达1.2万元/个需7天,广告建模最低200元/秒需0.5天,而文生3D成本仅0.5元/次耗时约1分钟 [13] - 腾讯混元构建"3D创动引擎"架构,通过草图生3D、纹理换肤生成、动作融合建模和低多边形优化四类技术矩阵实现关键环节30%-40%效率提升 [13][14] - 应用分层明显:轻量小游戏资产已"踮脚可及",腰部游戏可辅助道具生成,3A大作需多轮原型迭代中提效 [31] 开源战略与技术生态 - GitHub Star数超1.2万,Hugging Face下载量超100万,最小开源模型参数仅0.6B支持本地运行 [19][28] - 开源与商业协同发展:开源模型反馈问题促进研发,社区插件可被复用,形成"持续迭代速度"的核心护城河 [28][34] - ComfyUI官方支持实现从草图到完整3D模型的一键生成,年内计划开放更多模型与数据集降低行业门槛 [17][19] 未来发展方向 - 2025年目标实现物体级生成接近人工建模水平,场景类生成具备初步雏形,向原生多模态统一架构演进 [20] - 世界模型构建分阶段推进:先实现局部空间合理性,再扩展至具备物理规律的三维世界,当前已在腾讯地图导航车标等场景落地 [19][42] - 专业工具定位明确:AI不会替代3D设计师而是成为生产力工具,帮助将创意实现效率提升10倍 [46][47]
AI无限生成《我的世界》,玩家动动键盘鼠标自主控制!国产交互式世界模型来了
量子位· 2025-05-13 11:01
核心观点 - 昆仑万维推出的Matrix-Game通过AI技术实现交互式虚拟世界生成,用户可通过简单键鼠指令自由探索和创作高保真虚拟内容[10] - 该技术突破传统手写代码和渲染方式,大幅降低创作门槛并提升效率[11] - Matrix-Game在视觉质量、时间一致性、交互可控性和物理规则理解四大维度全面领先现有开源模型[36] - 空间智能成为AI发展新方向,3D AIGC技术正在重塑虚拟内容创作和交互方式[43][48] 技术实现 数据集构建 - Matrix-Game-MC数据集包含无标签Minecraft视频和带控制信号的可控视频数据[14] - 采用三阶段过滤机制从6000小时数据中筛选出近千小时高质量内容[16][17] - 通过探索代理和程序化模拟生成数千小时可控监督数据[17] 主模型架构 - 基于扩散模型框架,包含图像到世界建模、自回归视频生成和可控交互设计[18][20] - 图像到世界建模以单张图像为起点,结合用户动作输入生成视频内容[20] - 自回归生成以前5帧为上下文确保时间连贯性,采用扰动和分类引导策略缓解误差[23][24][25] - 动作控制模块采用离散/连续token表达,结合多模态Diffusion Transformer架构[27] 性能表现 评测体系 - GameWorld Score首次实现感知质量+控制能力+物理合理性的综合评估[29][30] - 四大核心维度:视觉质量、时间一致性、交互可控性、物理规则理解[31][32][33][34] 对比结果 - 在8大Minecraft场景中全面超越Decart的Oasis和微软的MineWorld[36] - 用户偏好率达96.3%,视觉质量偏好率98.23%[37] - 键盘动作准确率90%+,鼠标视角控制精度达0.97-0.98[39][40] 行业应用 - 可应用于游戏世界搭建、影视/元宇宙内容生产、具身智能训练等领域[41] - 实现低成本高效率生成高保真可交互虚拟环境[42] - 3D AIGC技术成为大模型发展新方向,谷歌DeepMind、腾讯等巨头均已布局[45][46] - 空间智能将重塑人机交互方式,是下一代AI技术的重要赛道[48][49]
腾讯控股(00700)混元3D生成模型全新升级 建模精细度大幅提升
智通财经网· 2025-04-23 14:27
文章核心观点 4月23日腾讯控股发布混元3D生成模型2.5版本新模型,在建模精细度、模型架构等多方面实现升级,还支持新特性并优化功能,且混元积极拥抱开源生态 [1][2] 模型发布信息 - 4月23日腾讯控股混元3D生成模型正式发布2.5版本新模型 [1] 模型升级情况 - 建模精细度大幅提升,实现超高清几何细节建模,表面更平整、边缘更锐利、细节更丰富,有效几何分辨率达到1024,从标清升级到高清画质 [1] - 模型架构全面升级,总参数量从1B提升至10B,有效面片数增加超10倍 [1] 相关功能更新 - 混元3D AI创作引擎全面更新至v2.5模型底座,免费生成额度翻倍至每天20次 [1] - 混元3D生成API正式上线腾讯云,面向企业和开发者开放 [1] - 新版本支持4K高清纹理和细粒度bump凹凸贴图,能模拟物体表面高低起伏视觉效果 [1] - 率先实现多视图输入生成PBR模型,显著提升生成质感和真实感 [1] - 优化骨骼蒙皮系统,支持非标准姿态下的自动骨骼绑定和自动蒙皮权重赋值,大幅提升3D动画生成效率 [1] - 3D生成工作流功能进一步升级,提供文生/图生3D智能减面模型、多视图生3D模型等专业管线模板 [1] 开源生态情况 - 混元3D 1.0、2.0基础模型及基于2.0模型的加速、多视图和轻量级模型均已开源,Github总star数超1.2万,不断丰富3D AIGC社区 [2]
单图直出CAD工程文件!CVPR 2025新研究解决AI生成3D模型“不可编辑”痛点|魔芯科技NTU等出品
量子位· 2025-04-14 17:09
核心观点 - 魔芯科技与多所高校联合提出CADCrafter框架,实现从单张图像直接生成可编辑的CAD工程文件,突破传统图生3D技术的局限性 [1][2][16] - 该技术通过参数化CAD指令生成和编译,显著提升模型的可编辑性、表面质量及工业落地实用性 [4][5][29] - 研究已被CVPR 2025接收,团队包括魔芯科技创始人及多国学术机构研究人员 [7][8][9] 技术突破 范式创新 - 首次实现Image-to-CAD范式转变,直接生成参数化CAD指令(包括几何特征指令及参数),而非传统网格模型(Mesh)或3D高斯泼溅(3DGS) [2][13][16] - 支持零件渲染图、3D打印零件照片及日常物体图像输入,输出可编译为STP等工业标准格式的工程文件 [2][3][28] 核心架构 1. **两阶段生成框架** - 结合VAE与Diffusion Transformer:VAE将CAD指令映射至隐空间,DiT模型实现图像引导的隐空间采样 [19][20] 2. **蒸馏策略** - 先训练多视图DiT模型稳定学习映射关系,再通过L_distill损失迁移至单视图模型,提升单图输入效果 [21] 3. **可编译性优化** - 引入DPO损失和代码合理性判别模块,确保生成指令可通过CAD内核编译,成功率显著提高 [22][24][25] 应用优势 工业实用性 - 生成模型表面平面度、棱角细节符合生产要求,支持直接参数化编辑(如调整部件尺寸) [4][15][28] - 实验显示细节还原度优于现有方法,适用于制造维修领域的快速原型设计及零件重建 [26][29][30] 性能对比 - 传统AI生成网格模型存在表面粗糙、边缘不锐利问题,尤其Marching Cubes算法转换时几何质量下降 [14] - CADCrafter参数化模型提供更高可控性,用户可通过指令直接调整几何形状,提升设计效率 [15][16] 研究背景 - 合作机构包括魔芯科技、南洋理工大学、A*STAR、西湖大学等,通讯作者为魔芯科技创始人Tianrun Chen [7][8] - 技术细节详见论文(arXiv:2504.04753),实验采用KOKONI SOTA 3D打印机实物验证 [26][31]
速递|全球首个多模态交互3D大模型来了,GPT-4o都没做到的,它做到了
Z Potentials· 2025-04-14 10:30
多模态AI技术进展 - GPT-4o上线多模态生图功能 支持文本 图像 语音和视频联合训练 实现高度可控的图像生成 在特征保持和上下文理解方面达到新高度[1] - DreamTech推出全球首个多模态交互3D大模型Neural4D 2o 支持文本及图像输入 实现自然语言交互编辑[1] - Neural4D 2o通过多模态transformer encoder和3D DiT decoder联合训练 实现3D生成的上下文一致性 高精准局部编辑 角色ID保持 换装和风格迁移等功能[1] 3D AIGC技术突破 - Neural4D 2o提供MCP协议支持 部署Neural4D Agent(alpha) 帮助用户便捷完成高质量3D内容创作[1] - 实测显示模型在稳定性 上下文一致性 局部编辑和角色ID保持方面表现完善 但交互等待时间仍需2-5分钟 存在服务器排队问题[8] - 该技术将大幅提升3D设计师效率 传统AI生成的3D模型需要导入专业工具长时间修改 而Neural4D 2o通过对话即可实现专业建模能力[8] 公司及产品信息 - DreamTech专注于3D及4D AI技术 致力于提升AIGC创作者和消费者体验 愿景是通过AI技术打造与真实世界无缝对接的4D时空体验 实现AGI[9] - Neural4D 2o产品链接为https://www.neural4d.com/n4d-2o[9]