3D生成

搜索文档
3D生成补上物理短板!首个系统性标注物理3D数据集上线,还有一个端到端框架
量子位· 2025-07-23 12:10
3D生成技术突破 - 南洋理工大学-商汤联合研究中心S-Lab与上海人工智能实验室合作推出PhysXNet,首个系统性标注的物理基础3D数据集,填补了现有3D生成方法忽略物理属性建模的空白 [1][2][3] - PhysXNet包含超过26K带注释的3D物体,涵盖物理尺度、材料、可供性、运动学信息和文本描述五大核心维度,并推出扩展版PhysXNet-XL,包含600万个程序化生成的3D对象 [3][11][12] - 团队提出PhysXGen框架,通过预训练3D先验实现从图像到真实3D资产的生成,同步融合物理属性与几何结构 [13][26][29] 现有研究局限性 - 当前3D生成研究集中于几何结构与纹理(如Objaverse、ShapeNet数据集),但缺乏对物理属性的建模,难以满足现实世界对物理推理的需求 [6][7][8] - 物理属性标注存在测量难度高、耗时长的问题,导致相关数据集规模受限 [15][17] 数据集与标注创新 - PhysXNet采用人在回路的标注流程,结合GPT-4o获取基础信息并通过人工审核确保质量,标注内容包括部件级物理属性(如运动范围、材料参数) [16][19][20] - 数据集覆盖从室内小物体到大型室外结构,对象平均含5个部件,物理尺寸差异显著 [21][22][23] 生成模型性能 - PhysXGen在物理属性生成上显著优于基线模型(TRELLIS+PhysPre),在物理尺度、材料、运动学和可供性四个维度分别提升24%、64%、28%和72% [33][38] - 模型通过联合优化实现几何外观逼真度与物理自洽性的双重目标 [30] 行业应用前景 - 该技术将推动3D生成从虚拟向物理真实演进,适用于游戏、机器人技术和具身智能等领域 [6][44] - 团队提出端到端生成范式,包括数据集构建(PhysXNet)和生成框架(PhysXGen),为物理3D建模提供完整解决方案 [39][42]
直击CVPR现场:中国玩家展商面前人从众,腾讯40+篇接收论文亮眼
具身智能之心· 2025-06-18 18:41
CVPR 2025核心趋势 - 多模态和3D生成成为论文接收与研讨的热门方向 其中高斯泼溅技术是论文标题出现频率前五的关键词之一 [8][17] - 基础模型讨论深入并延伸至产业落地 具身智能和机器人AI成为独立Workshop板块 [8] - 中国企业参与度创纪录 腾讯、字节等大公司主导展区 但参与主体仍集中于成熟商业化企业 [4][9][32] 技术研究热点 - 多模态以75次出现频率位列论文标题关键词榜首 扩散模型(153次)、大语言模型(129次)紧随其后 [16] - 3D生成领域突破显著 高斯泼溅技术推动神经渲染研究 腾讯Hunyuan 3D 21版本实现几何与纹理双重优化并全面开源 [17][21][23] - 计算机视觉与图形学加速融合 3D重建相关论文数量激增 国内技术跃迁速度加快 [19][20] 企业参与动态 - 腾讯表现突出:40+篇论文入选 覆盖混元大模型团队(多模态推理/3D生成)、优图实验室(DeepFake检测/自监督生成)等方向 [34] - 中国企业赞助力度加大:6家中国机构进入赞助商名单 腾讯与字节跻身白金赞助商行列 投入规模创历史新高 [36][37] - 人才争夺策略升级:腾讯派出20人技术团队现场交流 通过Demo展示、学术活动直接对接顶尖人才 [38][44] 产业应用延伸 - Workshop议题设计呈现双轮驱动:既深化视觉概念等基础研究 又拓展3D场景理解、数字孪生等产业应用场景 [27][30] - 腾讯形成商业反哺技术闭环:2024年研发开支70686亿元 累计研发投入达3403亿元 专利授权超45万件支撑AI持续投入 [46] - AI商业化成效显现:腾讯AI能力已驱动广告与游戏业务增长 微信生态内新AI应用成为重点投入方向 [50]
直击CVPR现场:中国玩家展商面前人从众,腾讯40+篇接收论文亮眼
量子位· 2025-06-17 15:41
CVPR 2025核心趋势 - 多模态与3D生成成为论文接收热门方向 其中高斯泼溅技术为前五高频关键词之一[6][15] - 基础模型讨论深入并延伸至产业落地 具身智能与机器人AI设立独立Workshop板块[6] - 计算机视觉与图形学加速融合 神经渲染推动3D论文数量显著增长[16][17] 中国企业参与表现 - 腾讯、字节等企业展区规模创纪录 技术Demo体验排队现象突出[3][5] - 腾讯40+篇论文被接收 覆盖混元大模型团队、优图实验室等多方向[32] - 蚂蚁、字节、快手分别有21篇、12篇(含4篇Highlight)、12篇论文入选[32] - 中国企业赞助商占比达6/41 腾讯与字节跻身白金赞助商行列[34] 技术突破与开源进展 - 腾讯Hunyuan 3D 2.1版本实现几何与纹理双重优化 达到开源3D模型SOTA水平[21] - 该模型为全链路开源工业级3D生成大模型 支持消费级显卡适配[23] - 多模态领域高频词包括扩散模型(175次)、大语言模型(129次)、文生图(48次)等[14] 产业应用与人才战略 - Workshop议题新增3D捕获重建、数字孪生等方向 聚焦真实世界建模需求[28] - 腾讯研发投入超706亿元(2024年) 全球专利申请公开总数达8.5万件[44] - 腾讯科技类人才占比73% 青云计划提供无上限薪酬与顶尖科学家资源[51][52] - 企业通过顶会展示技术实力 形成商业反哺技术的良性循环[46][48]
3D大模型公司VAST再获数千万美元融资 全球首个AI 3D工作台Tripo Studio:从 “算法领先” 到 “工作流闭环”
智通财经网· 2025-06-11 18:52
融资与公司发展 - VAST完成数千万美元Pre-A+轮融资 由北京市人工智能产业投资基金领投 靖亚资本跟投 [1] - 公司成立于2023年3月 专注于通用3D大模型研发 致力于打造大众级3D内容创作工具 [1] - 累计为全球200万+ 3D创作者 2万+中小开发者及700+大型企业提供服务 生成模型近3000万个 [2] 产品与技术突破 - 发布全球首个AI驱动一站式3D工作台Tripo Studio 内测首周付费率提升2.5倍 ARR突破300万美元 [2] - 即将推出Tripo3.0算法 拥有百亿参数规模 在细节 复杂结构和计算扩展性方面取得突破 [8] - 开发智能部件分割(HoloPart) 贴图魔法笔刷 智能低模生成 万物自动绑骨(UniRig)等核心功能 [5][6][7][8] 商业化应用场景 - 服务腾讯游戏 网易游戏 字节跳动 阿里巴巴 优必选等企业完成概念生成到生产应用全链路 [9] - 与拓竹 纵维立方 创想三维等3D打印机团队合作 为大众创客提供创意空间 [9] - 联合酷家乐 Homestyler等平台将AI生成方案融入建筑及空间设计管线 [10] 行业影响与愿景 - 重新定义AI驱动的3D内容创作流程 从专业管线到大众参与的转变 [3][9] - 推动3D内容从"专业输出"向"创作即玩法"演进 成为用户交互的"交互引擎" [10] - 目标构建覆盖专业级 达人级到大众级的创作者完整梯度 巩固3D生成领域全球领先地位 [1][11]
阶跃星辰×光影焕像联合打造超强3D生成引擎Step1X-3D!还开源全链路训练代码
机器之心· 2025-05-16 10:42
核心观点 - 阶跃星辰与光影焕像联合发布并开源3D大模型Step1X-3D 该模型总参数量达4 8B(几何模块1 3B 纹理模块3 5B) 具备高保真与可控性 可广泛应用于游戏 影视 工业设计等领域 [1] - Step1X-3D通过数据驱动与算法协同优化 建立了包含200万高质量训练样本的数据库 并采用增强型网格-SDF转换技术 使水密几何转换成功率提升20% [4][7] - 模型采用3D原生两阶段架构 解耦几何与纹理表征 几何生成采用混合VAE-DiT架构 纹理生成基于SD-XL模型优化 实现细节生动且多视图一致 [10][15][16] - Step1X-3D在CLIP-Score等核心指标上超越主流3D模型 成为开源社区最具竞争力的3D生成方案 [25] 技术架构 - **几何模块**:采用混合VAE-DiT架构生成水密TSDF表示 通过锐利边缘采样技术精准还原几何细节 参数量1 3B [15] - **纹理模块**:基于SD-XL模型深度定制 利用几何条件引导与多视图同步技术 参数量3 5B [16] - **控制技术**:兼容主流2D生成模型控制方法(如LoRA微调) 支持对称性 表面细节等属性调控 [18][19] 数据与训练 - **数据处理**:从超500万原始数据中筛选出200万高质量样本 并开源800K 3D资产及完整预处理策略 [4] - **训练优化**:采用FLUX MMDiT结构与Rectified flow算法 实现3D表示的直接建模 [13] 应用与性能 - **应用场景**:覆盖游戏娱乐 影视动画 工业制造等领域 提供从创作到落地的全链路支持 [1] - **性能表现**:在CLIP-Score等自动评估中多项指标领先 生成内容与输入语义一致性达行业最高水平 [23][25] 团队背景 - **阶跃星辰**:以构建AGI为目标 规划从单模态到多模态统一的技术路径 [27] - **光影焕像**:专注3D AIGC与空间智能技术 团队含港科大博士及字节 美团等企业人才 [27][28]
3D版DeepSeek卷起开源月:两大基础模型率先SOTA!又是VAST
量子位· 2025-03-28 18:01
3D生成模型技术突破 - VAST公司发布TripoSG和TripoSF两个基础3D生成模型,均刷新开源和闭源领域的SOTA性能[6][7][8] - TripoSG开源1.5B版本模型权重、推理代码及演示Demo,在质量、细节和保真度实现重大突破[14][15][16] - TripoSF采用阶段性开源策略,目前发布VAE预训练模型和推理代码,满血版将在Tripo 3.0开放[16][64] 技术创新亮点 - TripoSG首创将矫正流(RF)Transformer架构应用于3D生成,结合MoE层实现参数容量提升[21][22][24][25] - 开发基于SDFs的高精度VAE架构,引入混合监督训练策略提升几何表示质量[28][30][31] - TripoSF核心创新SparseFlex表示方法,支持1024³高分辨率训练,内存占用降低82%[48][49][54][57] - 构建200万高质量"图像-SDF"训练样本数据集,验证数据质量对性能的关键影响[32][34] 性能表现 - TripoSG在语义一致性上超越现有模型,能处理复杂拓扑结构和精细元素[35][37][43] - TripoSF在标准测试中实现82% Chamfer Distance降低和88% F-score提升[57] - 高分辨率版本(Ours1024)在Toys4k和Dora Benchmark上全面领先竞品[58] 开源战略布局 - 启动持续一个月的开源计划,每周发布新项目[10][13] - 后续将开源三维部件补全模型、绑定生成模型及SIGGRAPH Asia收录的交互式草图模型[66][67] - 此前已开源MV-Adapter多视图生成方案和MIDI单图3D场景创建技术[70][72][74][75] 行业影响 - 公司2024年发表数十篇论文,此前开源项目包括threestudio、Wonder3D等业界知名框架[80] - 被专业艺术工作者认可,成为3D生成领域国产代表企业[81][87] - 技术路线规划明确:从静态生成向动态交互演进,目标2025年底实现零门槛3D创作[83][84][85]
上海隐秘大学,正排队宣布融资
投资界· 2025-01-15 15:46
影眸科技融资与业务发展 - 3D生成大模型公司影眸科技完成数千万美元A轮融资,由美团龙珠、字节跳动领投,红杉中国种子基金及奇绩创坛跟投 [3] - 团队平均年龄24岁,孵化自上海科技大学,核心成员为该校本科生 [3][5] - 公司开发可控3D原生DiT生成框架CLAY与3D服装生成框架DressCode,获ACM SIGGRAPH 2024最佳论文提名 [3] - 2021年推出二次元生成器AI画板应用"WAND",获千万级浏览量,同年完成奇绩创坛天使轮融资 [6] - 2022年4月完成数千万元Pre-A轮融资,红杉中国种子基金领投 [6] - 转向3D生成领域后推出平台Rodin Gen-1,参数超40亿,解决行业薄面与边缘锐度问题 [9] - Rodin Gen-1上线45天实现100万美元年经常性收入(ARR),与Amazon、字节跳动、Unity等达成合作 [9] 上海科技大学创业生态 - 上科大累计孵化40多家科创企业,覆盖生物医药、人工智能、新能源等硬核领域 [3][12] - 技术转移办公室(OTT)2019年成立,2018年至今专利许可合同金额累计超70亿元,衍生企业总估值近70亿元 [12] - 典型案例包括灵秘科技(NeRF技术)、正序生物(基因编辑)、标新生物(生物医药)、飓晟科技(信息科技)、贻如生物(合成生物学)等 [12] - 80%本科生参与实验室科研,10%在本科阶段产出科研成果,本科师生比1:4 [15] - 2018年起每年举办创新创业大会,六届累计服务2500余师生,960位投资人参与,41%获奖项目实现转化 [15] 上科大办学模式与科研实力 - 2013年由上海市政府与中国科学院共建,聚焦新材料、新能源、生命健康等关键领域 [14] - 2023年录取分数线超650分,位列最年轻"双一流"大学 [13] - 教授团队包括2位诺奖得主、39位两院院士、5位美国国家科学院院士 [15] - 学科设置打破传统院系界限,实验室向本科生开放,鼓励交叉研究与早期创业 [15] - 校园位于张江科学城核心区,与国家级大科学设施深度联动 [15]