3D重建

搜索文档
刚刚,CVPR 2025奖项出炉:牛津&Meta博士生王建元获最佳论文,谢赛宁摘年轻研究者奖
机器之心· 2025-06-13 23:45
CVPR 2025大会概况 - 本届CVPR共收到13008份论文投稿,同比增长13%,最终接收2872篇,接收率22.1% [3] - 大会现场参会学者超过9000人,来自70余个国家和地区 [7] - 图像与视频生成领域论文接收数量最多,基于多视角和单图像的3D领域接收率最高 [8] 最佳论文及荣誉提名 - 最佳论文VGGT由牛津大学和Meta AI联合提出,采用纯前馈Transformer架构实现通用3D视觉模型,推理速度达秒级 [14][17] - 荣誉提名论文MegaSaM来自Google DeepMind等机构,提出深度视觉SLAM框架,在动态场景中实现快速准确的相机姿态估计 [27][30] - 另一篇荣誉提名论文Navigation World Models由LeCun团队提出,采用条件扩散Transformer实现最先进视觉导航性能 [33] 3D视觉技术进展 - 3D Student Splatting and Scooping(SSS)改进了3D高斯泼溅技术,在质量和参数效率上优于现有方法 [37][40] - 论文实验数据显示,SSS方法在Mip-NeRF360数据集上PSNR达29.90,LPIPS为0.145,表现最优 [42] 视觉语言模型创新 - Molmo和PixMo论文提出开源视觉语言模型,72B参数模型在多项基准测试中超越Claude 3.5 Sonnet等商业模型 [46] - 该方法创新性地使用PixMo数据集,无需依赖专有VLM合成数据 [46] 学生论文亮点 - 最佳学生论文提出首个基于物理的多视角动态光传播神经逆渲染系统,实现强间接光条件下的3D重建 [55] - 荣誉提名学生论文创新性地利用扩散时间步构建视觉语言,统一多模态理解和生成 [63][66] 行业重要奖项 - 年轻研究者奖授予Hao Su和谢赛宁,两人论文被引量分别超过12万和7.5万 [68][72][74] - Longuet-Higgins奖授予Inception架构和全卷积网络两篇开创性论文,引用量分别达6.7万和4.9万 [76][79][80][83] - Thomas S. Huang纪念奖授予德克萨斯大学Kristen Grauman教授,表彰其在计算机视觉领域的贡献 [86]
李飞飞空间智能独角兽开源底层技术!AI生成3D世界在所有设备流畅运行空间智能的“着色器”来了
量子位· 2025-06-03 12:26
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 李飞飞 空间智能创业公司 World Labs ,开源一项核心技术! Forge渲染器 ,可在桌面端、低功耗移动设备、XR等所有设备上实时、流畅地渲染AI生成的3D世界。 具体来说,Forge是一款 Web端3D高斯泼溅渲染器 ,无缝集成three.js,实现完全动态和可编程的高斯泼溅。 Forge底层为GPU优化设计,其地位相当于传统3D图形领域的基础组件"着色器"。 Forge只需极少的代码即可启动和运行。它支持多个splat对象、多个摄像头以及实时动画/编辑。 World Labs联创、NeRF作者 Ben Mildenhall 称这项技术"让开发者像处理三角形网格一样轻松处理AI生成的3D世界。" 李飞飞表示,"它能做到的事情简直令人难以置信"。 在所有设备上渲染3D AI世界 3D高斯溅射 (3D Gaussian Splatting) 已成为生成式人工智能和3D重建领域的主流方案。 这项技术通过将3D场景和对象表示为微小的高斯形状斑点(又称Spat)的集合,机器学习技术可用于创建可实时渲染的细致逼真的3D内容。 然而,3D高斯溅射(3DGS)是 ...
3D高斯泼溅算法大漏洞:数据投毒让GPU显存暴涨70GB,甚至服务器宕机
量子位· 2025-04-22 13:06
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 随着3D Gaussian Splatting(3DGS)成为新一代高效三维建模技术,它的自适应特性却悄然埋下了安全隐患。在本篇 ICLR 2025 Spotlight 论文中,研究者们提出首个专门针对3DGS的攻击方法——Poison-Splat,通过对输入图像加入扰动,即可显著拖慢训练速度、暴 涨显存占用,甚至导致系统宕机。这一攻击不仅隐蔽、可迁移,还在现实平台中具备可行性,揭示了当前主流3D重建系统中一个未被重视的 安全盲区。 引言:3D视觉的新时代与未设防的后门隐患 过去两年,3D视觉技术经历了飞跃式发展,尤其是由 Kerbi等人在2023年提出的 3D Gaussian Splatting (3DGS) ,以其超高的渲染效率 和拟真度,一跃成为 替代NeRF的3D视觉主力军 。 你是否用过 LumaAI、Spline 或者 Polycam 之类的应用上传图片生成三维模型?它们背后很多就用到了3DGS技术。3D高斯泼溅无需繁重 的神经网络,仅靠一团团显式的、不固定数量的3D高斯点即可构建逼真的三维世界。 但你知道吗?这个看起来高效又灵活的"新王者" ...
美图公司AI视觉领域竞争力升级:七项图像编辑成果出炉
证券日报· 2025-04-09 16:40
文章核心观点 美图公司旗下美图影像研究院联合多所高校的七项研发成果入选顶级学术会议,聚焦图像编辑领域,多项技术已落地应用,公司在核心视觉领域竞争力提升,未来增长潜力值得期待 [2][4] 研发成果入选情况 - 五项研发成果入选IEEE国际计算机视觉与模式识别会议CVPR 2025,投稿超13000篇,录用比例22.1% [2] - 两项研发成果入选国际人工智能促进协会主办的顶级学术会议AAAI 2025,收到12957篇有效投稿,录取率23.4% [2] 研发成果领域分布 - 三项生成式AI技术成果、三项分割技术成果和一项3D重建技术成果 [2] 技术成果落地应用 - 生成式AI技术GlyphMastero落地美图秀秀无痕改字功能 [3] - 生成式AI技术MTADiffusion落地AI素材生成器WHEE [3] - 生成式AI技术StyO落地美图秀秀AI创意和美颜相机AI玩法 [4] - 三项分割领域技术突破应用于电商设计、图像编辑与处理、人像美化等场景 [4] - 3D重建成果EVPGS在新视角生成、增强现实、3D内容生成、虚拟数字人等领域应用需求激增 [4] 公司发展情况 - 基于长期储备的AI能力,深度结合前沿技术,打造多款行业领先的影像与设计AI应用 [4] - 核心视觉领域竞争力持续提升,驱动旗下产品能力迭代,带动用户粘性和付费意愿提升 [4]
深度|具身合成数据的路线之争,谁将率先走出困境?
Z Potentials· 2025-04-08 20:30
具身智能技术路线之争 - 核心观点:具身智能领域存在两条主要技术路线——"视频合成+3D重建"与"端到端3D生成",前者存在模态转换误差累积问题,后者理论效率更高但面临常识欠缺挑战 [1] - 当前机器人高难度动作主要依赖遥控/预设编程,环境感知与推理能力仍是短板 [1] - 合成数据被视为具身智能突破关键,英伟达指出机器人领域缺乏互联网规模数据,室内环境3D合成平台尤为稀缺 [1][6] 具身智能现实挑战 - 智能困境:机器人运动控制能力成熟,但空间理解力不足,难以处理陌生环境中的语义推理 [3][4] - 数据困境:现有数据来源(真实扫描/游戏引擎/开源数据集)存在场景单一、效率低、语义粗糙等问题,缺乏物理一致性(如可承重桌面、可开启门) [6] - 家庭环境多样性导致传统数据采集方式不经济,需依赖合成数据覆盖变体 [8] 技术路线一:视频合成+3D重建 - 代表方案:李飞飞团队BEHAVIOR基准生成mesh壳体但缺乏结构语义 [13],群核科技SpatialLM+SpatialVerse通过LLM理解3D语义但仍存物理精度问题 [16] - Hillbot采用NVIDIA Cosmos生成视频片段,通过Sapien/ManiSkill重建3D场景并赋予物理属性 [21] - 核心缺陷:路径长导致误差累积,生成结果结构精度有限 [11][16] 技术路线二:端到端3D生成 - 主要方法: - 图神经网络(GNN):MIT超图模型优化空间关系,HAISOR结合强化学习优化人机交互布局 [27][29] - 自回归Transformer:ATISS基于房间平面图生成多样化布局,InstructScene实现文本指令到结构图转化 [30][33] - 扩散模型:LEGO-NET迭代优化布局,DiffuScene生成物理合理场景 [31][37] - 程序化生成:Infinigen/ProcTHOR通过规则合成高可控性场景 [35][38] - LLM应用:FlairGPT分解设计任务,SceneTeller实现文本到3D场景直接生成 [36][41] - 核心挑战:生成质量低、常识欠缺(物体重叠/通道阻塞)、程序化生成缺乏设计弹性 [39][40][42] 生境科技模态编码解决方案 - 提出"模态编码"技术,将设计知识(如餐桌靠近厨房)转化为可学习的数学结构 [44] - Sengine SimHub引擎通过空间模态编码+强化学习,实现户型图到3D场景的自动转译,考虑功能/动线/家具逻辑等实际因素 [44][48] - 系统内嵌训练流程提升生成稳定性,使合成数据更贴近真实空间逻辑 [45] 行业技术对比 - 视频合成路线:依赖真实视频的先天常识优势,但信息效率低 [1][39] - 端到端生成路线:理论效率高但需解决常识嵌入问题,代表模型包括ATISS/LEGO-NET/DiffuScene等 [11][31][33] - 未来方向:需构建可嵌入规则的空间数据生成体系,模态编码或成关键突破点 [49][50] 代表性研究 - GNN:HAISOR优化人机交互布局 [29],PlanIT实现高层语义规划 [52] - 扩散模型:DiffuScene生成物理合理场景 [37],LEGO-NET学习人类布局偏好 [52] - 程序化生成:Infinigen提供无限变体高质量数据 [46][52],ProcTHOR支持大规模交互环境 [38][52] - LLM应用:FlairGPT分步骤拆解设计约束 [52],SceneTeller实现语言到空间映射 [41][52]