Workflow
3D生成
icon
搜索文档
直击CVPR现场:中国玩家展商面前人从众,腾讯40+篇接收论文亮眼
具身智能之心· 2025-06-18 18:41
CVPR 2025核心趋势 - 多模态和3D生成成为论文接收与研讨的热门方向 其中高斯泼溅技术是论文标题出现频率前五的关键词之一 [8][17] - 基础模型讨论深入并延伸至产业落地 具身智能和机器人AI成为独立Workshop板块 [8] - 中国企业参与度创纪录 腾讯、字节等大公司主导展区 但参与主体仍集中于成熟商业化企业 [4][9][32] 技术研究热点 - 多模态以75次出现频率位列论文标题关键词榜首 扩散模型(153次)、大语言模型(129次)紧随其后 [16] - 3D生成领域突破显著 高斯泼溅技术推动神经渲染研究 腾讯Hunyuan 3D 21版本实现几何与纹理双重优化并全面开源 [17][21][23] - 计算机视觉与图形学加速融合 3D重建相关论文数量激增 国内技术跃迁速度加快 [19][20] 企业参与动态 - 腾讯表现突出:40+篇论文入选 覆盖混元大模型团队(多模态推理/3D生成)、优图实验室(DeepFake检测/自监督生成)等方向 [34] - 中国企业赞助力度加大:6家中国机构进入赞助商名单 腾讯与字节跻身白金赞助商行列 投入规模创历史新高 [36][37] - 人才争夺策略升级:腾讯派出20人技术团队现场交流 通过Demo展示、学术活动直接对接顶尖人才 [38][44] 产业应用延伸 - Workshop议题设计呈现双轮驱动:既深化视觉概念等基础研究 又拓展3D场景理解、数字孪生等产业应用场景 [27][30] - 腾讯形成商业反哺技术闭环:2024年研发开支70686亿元 累计研发投入达3403亿元 专利授权超45万件支撑AI持续投入 [46] - AI商业化成效显现:腾讯AI能力已驱动广告与游戏业务增长 微信生态内新AI应用成为重点投入方向 [50]
直击CVPR现场:中国玩家展商面前人从众,腾讯40+篇接收论文亮眼
量子位· 2025-06-17 15:41
CVPR 2025核心趋势 - 多模态与3D生成成为论文接收热门方向 其中高斯泼溅技术为前五高频关键词之一[6][15] - 基础模型讨论深入并延伸至产业落地 具身智能与机器人AI设立独立Workshop板块[6] - 计算机视觉与图形学加速融合 神经渲染推动3D论文数量显著增长[16][17] 中国企业参与表现 - 腾讯、字节等企业展区规模创纪录 技术Demo体验排队现象突出[3][5] - 腾讯40+篇论文被接收 覆盖混元大模型团队、优图实验室等多方向[32] - 蚂蚁、字节、快手分别有21篇、12篇(含4篇Highlight)、12篇论文入选[32] - 中国企业赞助商占比达6/41 腾讯与字节跻身白金赞助商行列[34] 技术突破与开源进展 - 腾讯Hunyuan 3D 2.1版本实现几何与纹理双重优化 达到开源3D模型SOTA水平[21] - 该模型为全链路开源工业级3D生成大模型 支持消费级显卡适配[23] - 多模态领域高频词包括扩散模型(175次)、大语言模型(129次)、文生图(48次)等[14] 产业应用与人才战略 - Workshop议题新增3D捕获重建、数字孪生等方向 聚焦真实世界建模需求[28] - 腾讯研发投入超706亿元(2024年) 全球专利申请公开总数达8.5万件[44] - 腾讯科技类人才占比73% 青云计划提供无上限薪酬与顶尖科学家资源[51][52] - 企业通过顶会展示技术实力 形成商业反哺技术的良性循环[46][48]
腾讯开源混元3D 2.1大模型 开发门槛大大降低
广州日报· 2025-06-14 22:17
腾讯混元3D 2.1大模型升级 - 公司发布混元3D 2.1大模型 为首个全链路开源的工业级3D生成大模型 达到行业领先水平 [2] - 混元3D模型在Hugging Face下载量已超过180万 [2] - 新模型生成的3D首饰盒纹理清晰 质感细腻 光影保持一致性 [2] 模型应用场景 - 模型可用于生成游戏角色 电影道具 线上商城产品模型等3D内容 [4] 技术升级亮点 - 相较于混元3D 2.0模型 新模型优化了几何生成质量 [6] - 开放了PBR材质生成大模型 提升3D资产质感和光影表现 告别"塑料感" [6] - PBR技术模拟光线与材质物理交互 提升模型在不同光照环境下的视觉一致性 [8] - 用户盲测显示 混元3D 2.1模型的PBR纹理质感胜出率高达78% [8] 开发者友好特性 - 模型实现全链路开源 包括模型权重 训练代码和数据处理流程 [8] - 开发者可自由进行微调 二次训练或优化 满足定制化需求 [8] - 模型适配消费级显卡 可在个人电脑运行 [8] 模型技术细节 - 优化细节建模 提高网格精度 具备更好的拓扑一致性 [8] - 可生成基础颜色 金属度 法线 粗糙度等贴图 [8] - 支持皮革 木质 金属 陶瓷等多种复杂材质的高质量渲染 [8]
腾讯开源最强3D生成模型,消费级显卡就能跑 | CVPR
量子位· 2025-06-14 00:44
混元3D 2.1模型发布 - 腾讯在CVPR上宣布开源混元3D 2.1模型,支持生成当红潮流形象Labubu和复古青铜器等多样化3D内容 [1][3] - 该模型是首个全链路开源的工业级3D生成大模型,达到闭源级水平且适配消费级显卡 [9] - 模型提供训练代码、模型权重和数据处理流程全链路开源,支持一键部署和开发者自主精调 [9][28] 几何与纹理双重优化 - 混元3D 2.1主打几何与纹理双重优化,几何优化提升形状精度,纹理优化增强表面细节表现 [5][10][11] - 模型支持生成基础颜色、金属度、粗糙度等不同指标的贴图,并能高质量渲染皮革、木质、金属、陶瓷等多种复杂材质 [12] - 在用户盲测中,混元3D 2.1的PBR纹理质感胜出率高达78% [26] 技术架构升级 - 模型采用"几何-纹理解耦"架构,基于DiT几何架构优化细节建模,提升网格精度和形状一致性 [22][23] - 引入PBR纹理生成技术,模拟光线与材质的物理交互,提升模型在不同光照环境下的视觉一致性 [23] - PBR材质兼容主流渲染引擎如Unreal Engine和Unity,便于跨平台复用 [27] 性能表现与市场反馈 - 相比2.0版本,2.1版本在金属质感、光泽度、纹路细腻度等方面有明显提升 [7][14][18] - 模型可生成手办级别的高精度细节和复杂图案 [20] - 自开源以来,混元3D系列在Hugging Face平台下载量已超过180万次 [31] 生态建设 - 腾讯计划通过全面开源与全球开发者、创作者及研究者共同打造3D开源生态 [33] - 公司将于6月15日举办"玩转混元3D 2.1"直播活动,提供项目地址和体验地址 [34]
3D大模型公司VAST再获数千万美元融资 全球首个AI 3D工作台Tripo Studio:从 “算法领先” 到 “工作流闭环”
智通财经网· 2025-06-11 18:52
融资与公司发展 - VAST完成数千万美元Pre-A+轮融资 由北京市人工智能产业投资基金领投 靖亚资本跟投 [1] - 公司成立于2023年3月 专注于通用3D大模型研发 致力于打造大众级3D内容创作工具 [1] - 累计为全球200万+ 3D创作者 2万+中小开发者及700+大型企业提供服务 生成模型近3000万个 [2] 产品与技术突破 - 发布全球首个AI驱动一站式3D工作台Tripo Studio 内测首周付费率提升2.5倍 ARR突破300万美元 [2] - 即将推出Tripo3.0算法 拥有百亿参数规模 在细节 复杂结构和计算扩展性方面取得突破 [8] - 开发智能部件分割(HoloPart) 贴图魔法笔刷 智能低模生成 万物自动绑骨(UniRig)等核心功能 [5][6][7][8] 商业化应用场景 - 服务腾讯游戏 网易游戏 字节跳动 阿里巴巴 优必选等企业完成概念生成到生产应用全链路 [9] - 与拓竹 纵维立方 创想三维等3D打印机团队合作 为大众创客提供创意空间 [9] - 联合酷家乐 Homestyler等平台将AI生成方案融入建筑及空间设计管线 [10] 行业影响与愿景 - 重新定义AI驱动的3D内容创作流程 从专业管线到大众参与的转变 [3][9] - 推动3D内容从"专业输出"向"创作即玩法"演进 成为用户交互的"交互引擎" [10] - 目标构建覆盖专业级 达人级到大众级的创作者完整梯度 巩固3D生成领域全球领先地位 [1][11]
VAST完成数千万美元新融资,他说模型即产品不是真正的产品
暗涌Waves· 2025-06-10 12:57
融资与行业认知 - VAST完成数千万美元Pre-A+轮融资 由北京市人工智能产业投资基金领投 靖亚资本跟投 [1] - 创始人认为行业普遍将AI生成3D视为"模型即产品"的路径是错误的 3D领域目前是PGC生态而非UGC生态 [6][8] - 3D创作者需要的是AI原生工作台而非单纯生成模型 类似程序员使用Cursor而非VS Code [9][10] 产品战略与进化路径 - 发布Tripo Studio一站式3D工作台 提供完整AI工作流 可将模型从80分优化到95分 [10] - 产品进化路径:模型即产品→一站式AI 3D工作台→3D美图秀秀→3D版抖音 [14][16] - 当前重点服务专业消费者(Pro-C) 而非直接面向UGC用户 [12][13] - "3D美图秀秀"将降低创作门槛 让无基础用户零门槛创作可消费内容 [14][15] 行业应用与案例 - 为《燕云十六声》开发"万物太极"玩法 将生成时间从几十秒压缩到几秒 [20] - 3D打印市场潜力巨大 生成技术将潜在用户从几千万扩展到几十亿 [21][22] - 柔性化生产应用场景广泛 包括首饰/鞋服/家居/玩具等多个领域 [22][23] - 可实现小单快返和按需生产(POD)模式 帮助电商平台更好表达用户需求 [23] 竞争格局与差异化 - 面对腾讯/字节等大厂竞争 但已在产品/工程/商业化方面领先 [18] - 大厂采取"先看见再相信"策略 而创业公司是"先相信再看见" [18][27] - 与大厂存在合作关系 而非单纯竞争关系 [19] 用户教育与市场前景 - 00后/05后对3D接受度高 无需额外教育 [24] - 3D内容将先于专用硬件普及 类比网络小说早期发展历程 [26][27] - 预计3-5年内将出现"3D版抖音" 比原先预期的5-10年更乐观 [17] 团队与文化 - 公司办公地点始终围绕清华 吸纳大量清华毕业生 [3] - 创始人保持对3D作为下一种内容形态的坚定信仰 [3][29] - 吸引人才的核心在于共同愿景而非物质条件 [28][29]
对话 VAST 宋亚宸:3D 关乎全人类幸福,也关乎我的
晚点LatePost· 2025-06-10 09:48
公司融资与业务发展 - VAST近期完成数千万美元Pre A+轮融资,由北京市人工智能产业投资基金领投,靖亚资本跟投[4] - 公司成立于2023年3月,首个开源项目Wonder 3D在GitHub上线3个月内获得近4000颗星[4] - 已发布全球首个AI 3D工作台Tripo Studio,将3D建模时间从15小时缩短至6分钟[4] - 产品Tripo Studio上线一周用户付费率增长4倍[18] - 商业化模式较轻,目前拥有3.5万家中小客户和700多家大客户[19] 技术路线与产品规划 - 3D生成采用反向泛化路径:从专业用户→业余用户→创意爱好者→普通消费者[8] - 当前处于第二阶段"3D版Cursor",未来将发展为"3D美图秀秀"和"3D抖音"[9] - 3D内容平台预计需要3-10年发展成熟,一旦爆发可能直接实现[9] - 同时开发大模型和工作台,形成完整3D内容生产闭环[23] - 技术已实现SOTA水平,今明两年重点转向产品化、工程化和商业化[12] 市场前景与行业定位 - 全球游戏市场规模两三千亿美金,仅为3D内容的一种形式[24] - 未来UGC 3D内容市场可能达到当前短视频规模[24] - 3D属于"强交互轻内容"象限,信息密度最高且可实时双向互动[25][26] - 3D是XR、AI游戏、空间智能等领域的基础设施和关键卡点[26] - 行业跑道足够长,公司保持技术领先优势[26] 创始人背景与管理理念 - 创始人具有商汤和MiniMax创业经验,强调"先相信后看见"的认知优势[26] - 公司每年举行战略分享会,保持路线图一致性[14] - 坚持"宁可笨不要蠢"的原则,避免资源浪费和团队信任破坏[42] - 创始人80%时间用于融资和招人,20%时间定战略[48] - 公司愿景是"为世界进文明,为人类造幸福",通过3D技术创造多元体验[50][52] 用户生态与案例 - 用户包括意大利宝爸制作儿童绘本3D模型、委内瑞拉教师用于STEAM教育[21] - 与网易《燕云十六声》合作实现游戏内AI地形改造[22] - 开发者利用3D生成功能创造新型对战游戏玩法[22] - 通过Discord、社交媒体等渠道收集用户反馈[20] - AI创作者具有主人翁意识,愿意尝试未成熟工具并提供建议[20]
速递|破解3D生成取代CAD?SpAItial获1300万美金种子资金,前Synthesia联创集结Meta谷歌豪华技术团队
Z Potentials· 2025-05-28 10:43
行业概况 - 当前AI基础模型领域已广泛存在文本生成逼真图像的技术,但文本生成完整连贯3D在线环境的基础模型仍处于早期阶段[1] - 该领域被称为"万亿美元机遇",潜在应用场景包括电子游戏开发、娱乐产业、建筑可视化及机器人训练等[4] - 行业竞争格局相对温和,主要竞争者包括融资2700万美元的Odyssey和估值超10亿美元的World Labs[3] 公司核心团队与技术 - SpAItial由慕尼黑工业大学AI专家Matthias Niessner创立,其曾联合创办估值21亿美元的Synthesia[1][2] - 技术团队包含谷歌3D远程会议平台开发者Ricardo Martin-Brualla和Meta文本转3D项目主导者David Novotny[2] - 公司致力于实现3D环境的物理交互性,如模拟玻璃破碎等真实物理效果,目标让用户通过文本10分钟内生成可交互电子游戏[6] 融资与商业模式 - 完成1300万美元种子轮融资,领投方为Earlybird Venture Capital,参与方包括Speedinvest和多位天使投资人[2] - 采用基础模型授权模式,计划筛选早期合作伙伴测试API接口,优先考虑营收而非单纯扩张规模[4][5] - 商业策略聚焦高质量人才招募和算力投入,明确避免快速扩张至数百人团队[5] 产品发展路径 - 当前仅发布文本生成3D房间的概念视频,但已规划区分不同质量版本的模型应用场景[2][4] - 长期目标包括取代CAD软件,推动3D生成技术进入新阶段[7] - 差异化定位在于实现"动态3D世界",突破现有平台对第三方内容的限制[3][6]
阶跃星辰×光影焕像联合打造超强3D生成引擎Step1X-3D!还开源全链路训练代码
机器之心· 2025-05-16 10:42
核心观点 - 阶跃星辰与光影焕像联合发布并开源3D大模型Step1X-3D 该模型总参数量达4 8B(几何模块1 3B 纹理模块3 5B) 具备高保真与可控性 可广泛应用于游戏 影视 工业设计等领域 [1] - Step1X-3D通过数据驱动与算法协同优化 建立了包含200万高质量训练样本的数据库 并采用增强型网格-SDF转换技术 使水密几何转换成功率提升20% [4][7] - 模型采用3D原生两阶段架构 解耦几何与纹理表征 几何生成采用混合VAE-DiT架构 纹理生成基于SD-XL模型优化 实现细节生动且多视图一致 [10][15][16] - Step1X-3D在CLIP-Score等核心指标上超越主流3D模型 成为开源社区最具竞争力的3D生成方案 [25] 技术架构 - **几何模块**:采用混合VAE-DiT架构生成水密TSDF表示 通过锐利边缘采样技术精准还原几何细节 参数量1 3B [15] - **纹理模块**:基于SD-XL模型深度定制 利用几何条件引导与多视图同步技术 参数量3 5B [16] - **控制技术**:兼容主流2D生成模型控制方法(如LoRA微调) 支持对称性 表面细节等属性调控 [18][19] 数据与训练 - **数据处理**:从超500万原始数据中筛选出200万高质量样本 并开源800K 3D资产及完整预处理策略 [4] - **训练优化**:采用FLUX MMDiT结构与Rectified flow算法 实现3D表示的直接建模 [13] 应用与性能 - **应用场景**:覆盖游戏娱乐 影视动画 工业制造等领域 提供从创作到落地的全链路支持 [1] - **性能表现**:在CLIP-Score等自动评估中多项指标领先 生成内容与输入语义一致性达行业最高水平 [23][25] 团队背景 - **阶跃星辰**:以构建AGI为目标 规划从单模态到多模态统一的技术路径 [27] - **光影焕像**:专注3D AIGC与空间智能技术 团队含港科大博士及字节 美团等企业人才 [27][28]
深度|具身合成数据的路线之争,谁将率先走出困境?
Z Potentials· 2025-04-08 20:30
具身智能技术路线之争 - 核心观点:具身智能领域存在两条主要技术路线——"视频合成+3D重建"与"端到端3D生成",前者存在模态转换误差累积问题,后者理论效率更高但面临常识欠缺挑战 [1] - 当前机器人高难度动作主要依赖遥控/预设编程,环境感知与推理能力仍是短板 [1] - 合成数据被视为具身智能突破关键,英伟达指出机器人领域缺乏互联网规模数据,室内环境3D合成平台尤为稀缺 [1][6] 具身智能现实挑战 - 智能困境:机器人运动控制能力成熟,但空间理解力不足,难以处理陌生环境中的语义推理 [3][4] - 数据困境:现有数据来源(真实扫描/游戏引擎/开源数据集)存在场景单一、效率低、语义粗糙等问题,缺乏物理一致性(如可承重桌面、可开启门) [6] - 家庭环境多样性导致传统数据采集方式不经济,需依赖合成数据覆盖变体 [8] 技术路线一:视频合成+3D重建 - 代表方案:李飞飞团队BEHAVIOR基准生成mesh壳体但缺乏结构语义 [13],群核科技SpatialLM+SpatialVerse通过LLM理解3D语义但仍存物理精度问题 [16] - Hillbot采用NVIDIA Cosmos生成视频片段,通过Sapien/ManiSkill重建3D场景并赋予物理属性 [21] - 核心缺陷:路径长导致误差累积,生成结果结构精度有限 [11][16] 技术路线二:端到端3D生成 - 主要方法: - 图神经网络(GNN):MIT超图模型优化空间关系,HAISOR结合强化学习优化人机交互布局 [27][29] - 自回归Transformer:ATISS基于房间平面图生成多样化布局,InstructScene实现文本指令到结构图转化 [30][33] - 扩散模型:LEGO-NET迭代优化布局,DiffuScene生成物理合理场景 [31][37] - 程序化生成:Infinigen/ProcTHOR通过规则合成高可控性场景 [35][38] - LLM应用:FlairGPT分解设计任务,SceneTeller实现文本到3D场景直接生成 [36][41] - 核心挑战:生成质量低、常识欠缺(物体重叠/通道阻塞)、程序化生成缺乏设计弹性 [39][40][42] 生境科技模态编码解决方案 - 提出"模态编码"技术,将设计知识(如餐桌靠近厨房)转化为可学习的数学结构 [44] - Sengine SimHub引擎通过空间模态编码+强化学习,实现户型图到3D场景的自动转译,考虑功能/动线/家具逻辑等实际因素 [44][48] - 系统内嵌训练流程提升生成稳定性,使合成数据更贴近真实空间逻辑 [45] 行业技术对比 - 视频合成路线:依赖真实视频的先天常识优势,但信息效率低 [1][39] - 端到端生成路线:理论效率高但需解决常识嵌入问题,代表模型包括ATISS/LEGO-NET/DiffuScene等 [11][31][33] - 未来方向:需构建可嵌入规则的空间数据生成体系,模态编码或成关键突破点 [49][50] 代表性研究 - GNN:HAISOR优化人机交互布局 [29],PlanIT实现高层语义规划 [52] - 扩散模型:DiffuScene生成物理合理场景 [37],LEGO-NET学习人类布局偏好 [52] - 程序化生成:Infinigen提供无限变体高质量数据 [46][52],ProcTHOR支持大规模交互环境 [38][52] - LLM应用:FlairGPT分步骤拆解设计约束 [52],SceneTeller实现语言到空间映射 [41][52]