Workflow
3D场景生成
icon
搜索文档
一句话生成无限逼真3D场景!匹兹堡大学新作直击VLM空间推理软肋丨CVPR'26
量子位· 2026-04-07 13:29
行业背景与问题 - 当前视觉语言大模型在3D空间推理能力上存在明显短板,当物体增多或视角变换时,其认知能力会崩溃[1][2] - 评估VLM空间推理能力的现有数据集存在严重局限:真实数据集成本高昂且无法调整参数,程序生成的3D场景则不够逼真且违反物理规律,行业缺乏一套多样化、可扩展且支持完全自定义的测试基准[2] 解决方案:InfiniBench框架 - 来自匹兹堡大学的研究团队提出了InfiniBench框架,该论文已被计算机视觉顶会CVPR 2026接收[2] - 该框架通过引入大模型智能体进行迭代优化,并结合创新的“基于簇的布局优化策略”,仅需一句自然语言提示词,就能全自动生成理论上无限数量且高度逼真的3D视频基准测试场景[3] - 该框架能完全按照用户意愿精确控制场景的复杂度,为诊断大模型的空间推理失败模式提供了工具,并为未来VLM的空间感知能力训练指明了方向[3] 技术方案核心机制 - 整体管线分为三个核心阶段,彻底分离了“高层语义规划”与“底层物理执行”[7] - **阶段一:大模型智能体迭代生成场景约束**。LLM Agent将自然语言需求翻译成机器可读的约束条件,并具备“自我反思与修正”机制,通过CoT反馈循环和底层布局优化器的错误反馈,不断修正约束直至生成合理规划[8][9] - **阶段二:基于簇的布局优化**。这是超越传统3D生成引擎的核心亮点,通过引入“可移动簇”的概念,将关系紧密的物体打包成一个整体进行移动和碰撞检测,从而能轻松生成高密度、重度杂乱且符合物理规律的场景[11][12][13][14][15][16] - **阶段三:相机轨迹优化**。受机器人导航技术启发,系统将未访问的关键物体视为目标,自动采样无遮挡的最佳视角,并规划无碰撞的导航路径,确保所有相关物体都能被清晰、完整地捕捉[19] 实验结果与性能 - 在物理真实度上表现近乎完美,碰撞数量和越界物体数量均无限逼近于0.0[21] - 在低物体数量场景下,InfiniBench的提示词保真度为0.98,CLIP分数为31.8,真实感分数为0.93,越界物体和碰撞数量均为0.0[22] - 在中等物体数量场景下,保真度为0.95,CLIP分数为31.5,真实感为0.89,越界物体和碰撞数量均为0.0[22] - 在高物体数量场景下,保真度高达0.98,CLIP分数为29.9,真实感为0.81,越界物体为0.1,碰撞数量为0.0[22] 对现有VLM的评估发现 - 利用InfiniBench对顶级VLM进行“极限施压”,揭示了其在空间推理上的关键缺陷[24] - **对视觉杂乱极度敏感**:当场景中的物体数量从5增加到50时,所有VLM的准确率均出现断崖式下跌,且倾向于在视频帧中“重复计数”[25] - **容易被干扰项带偏**:无关物体的增加会导致模型在复杂指代时发生严重的指代混淆[26] - **视角影响巨大**:对于需要宏观空间理解的任务,鸟瞰视角下的模型表现远超第一人称的主观视角[26] 项目价值与行业意义 - InfiniBench颠覆了传统静态评估基准的局限,是一个能通过一句话生成无限逼真3D场景的强大引擎[27] - 它通过精细化、参数化地控制场景复杂度,能够精准剖析大模型在空间推理中的具体失败模式,而不仅仅是依赖粗放的平均准确率指标[27] - 这项工作大幅降低了3D场景生成的专业门槛,并为未来训练具备更强物理常识和空间感知能力的具身智能基座模型,提供了取之不尽的高质量数据源[27]
一张图生成任意场景3D模型,部分遮挡也不怕|IDEA x 光影焕像联合开源
量子位· 2026-01-25 11:34
行业痛点与现有技术局限 - 当前3D生成技术深陷“半开放”窘境,模型能打造精美的样板间,但对真实世界中千变万化的物体与场景表现不稳定[1] - 3D场景数据的采集和标注成本极高,导致现有技术长期受限于数据规模,往往只能处理室内场景和少数家具类物体,无法应对开放世界[4] - 现有技术存在三大局限:场景受限,只能处理客厅、卧室等室内场景,对街道、公园等开放场景束手无策[4];遮挡难题,面对物体互相遮挡时,模型缺乏“遮挡常识”,只能生成残缺、扭曲的3D几何形状[5];泛化不足,对于没见过的物体(如小众手办、特殊工具),模型无法准确重建其3D结构及位姿[6] SceneMaker技术框架与原理 - SceneMaker框架由IDEA研究院与香港科技大学团队联合推出,旨在从任意开放世界图像(室内/室外/合成图等)到带Mesh的3D场景的完整重建[2] - 框架分为三大模块:场景感知,使用DINO-X万物检测模型识别并分割图像中所有物体,再通过深度估计模型得到3D点云[9];三维物体重建,使用解耦的图像去遮挡模型对分割后的物体进行去遮挡,得到完整物体图像后输入Triverse万物重建模型完成3D重建,获得显式几何和纹理信息[9];位姿估计,基于场景图像和点云,估计重建3D物体在场景中的旋转、平移和尺寸等位姿信息,并将所有物体组合得到最终3D场景[9] 核心技术创新 - **解耦的去遮挡模块**:将去遮挡模型从3D重建中解耦,充分利用图像数据集的开放集先验,先对物体图像去遮挡,再进行3D重建,解决了因缺乏3D遮挡数据训练导致的几何残缺问题[11];该模块基于包含三种常见遮挡情况(物体遮挡、图像边角和用户涂抹)的数据集训练,并支持文本指令可控的去遮挡能力,能够控制不可见部分的内容[11][12] - **统一的位姿估计模型**:采用扩散模型为基础,结合全局和局部注意力机制,精准计算物体位姿[16];模型包含四种注意力机制:局部自注意力确保物体内部几何与位姿对齐[17];全局自注意力让所有物体互相参考,避免物体穿透或悬浮等荒谬场景[17];局部交叉注意力在估算旋转时只关注物体本身,不受环境干扰[17];全局交叉注意力在估算位置和尺寸时紧盯整个场景的点云和图像[17];消融实验证明每个注意力模块对模型性能均有提升[17] - **自建大规模开放世界3D场景数据集**:由于缺乏足够规模的开放世界3D场景数据集,团队基于Objaverse 3D物体数据集,自行构建了20万个合成场景数据集用于训练[19];每个场景放置2到5个物体,包含几何、位姿,以及20个不同相机视角下的RGB图像、分割图和深度图,并且完全开源[19] 性能表现与实验结果 - 在可视化和量化对比中,SceneMaker突破现有方案对室内等使用场景的限制,实现从任意开放世界图像到基于物体mesh的3D场景重建,且达到SOTA表现[21] - 在3D-Front数据集上,SceneMaker的CD-ST指标为0.0381,F-Score-S为0.6840,IoU-B为0.7658,均优于对比方案MIDI3D和PartCrafter[24] - 在Open-set场景下,SceneMaker的CD-SJ指标为0.0285,F-Score-S为0.6125,IoU-B为0.7549,同样表现卓越[24] - 在MIDI3D数据集上的量化对比中,SceneMaker的CD-SJ指标为0.051,F-Score-S为0.5642,CD-OJ为0.0963,F-Score-O为0.6544,IoU-B为0.671,优于包括PanoRecon、Total3D、DiffCAD在内的多个现有方案[25] 应用场景与产业价值 - **具身智能**:能从真实场景图像中重建高精度、带位姿信息的3D场景,为机器人提供可交互的数字孪生环境,助力其完成路径规划、物体抓取、场景导航等任务,解决开放世界环境感知与建模的核心痛点[26] - **自动驾驶/无人机**:能将真实道路、城市街区、园区环境的图像转化为高精度3D仿真场景,同时解决物体遮挡导致的模型失真问题,为自动驾驶仿真测试、无人机路径模拟提供高保真的虚拟训练环境[27] - **游戏工业建模**:可实现街道、公园、野外等开放游戏场景的快速3D重建,并能精准还原小众道具的几何形态与空间位姿,帮助游戏厂商提升场景制作效率,丰富游戏内物体的多样性[28]
SIGGRAPH Asia 2025 | 让3D场景生成像「写代码」一样灵活可控
机器之心· 2025-11-14 18:32
文章核心观点 - 生成式AI在3D场景生成领域出现范式转变,从直接输出几何参数转向生成可执行的程序化构建脚本,从而解决现有方法在逻辑一致性和物理合理性上的局限 [2][3] - 布朗大学与加州大学圣地亚哥分校的研究团队提出的Procedural Scene Programs框架,通过“从语言到程序再到场景”的新路径,使AI具备程序化建模能力,输出结果具备高度可编辑性、可复用性与结构可控性 [3][8] - 该框架结合了程序生成语言和自动纠错模块,在人类主观评测和自动评估中均显著优于现有方法,为AI构建3D世界提供了新的逻辑基础 [16][17][20] 研究方法与系统组成 - 系统采用两阶段设计:首先生成可执行构建脚本,再通过程序执行构建完整场景,核心思想是让AI输出生成逻辑而非静态几何 [8] - 系统包含两大关键组件:Procedural Scene Description Language负责定义场景结构与布局的生成逻辑;Program Search纠错模块负责在程序执行后自动检测并修复几何错误 [9] - PSDL语言嵌入在Python中,支持函数、循环、条件与变量绑定,使模型能够通过编写规则定义空间关系,例如“围绕桌子等角放置三把椅子” [10][11] 技术优势与性能表现 - Program Search模块无需反复调用大模型,直接在程序空间中搜索修复方案,平均仅需约7次程序修改即可修复大多数错误 [13][14] - 在70个开放世界场景提示的测试中,PSP在人类主观评测中对DeclBase和Holodeck的偏好率分别达到82.9%和94.3% [16][17] - PSP的生成速度更快,从文本到完整场景平均仅需约38秒,而对比方法DeclBase与Holodeck分别需要40.8秒和约42秒 [16] - 基于多模态LLM的自动化评估方法对PSP的偏好选择率分别为77.1%和90.0%,与人类主观偏好趋势一致 [17][18] 行业意义与应用前景 - 该技术让AI的“想象力”与“编程逻辑”深度融合,既保留了命令式生成的灵活性,又以符号化修正机制弥补了大模型在空间推理上的不足 [20] - 框架为3D内容生成带来了前所未有的可控性与自解释性,在虚拟城市、游戏关卡、具身智能的视觉环境等应用领域具有重要价值 [21]
运动相机全景相机:行业深度解读
2025-06-10 23:26
纪要涉及的行业和公司 - **行业**:运动相机和全景相机行业、智能手机影像设备行业 - **公司**:影石创新(Insta360)、GoPro、大疆、明安公司、索尼、佳明、理光、西安饮食、安霸、索尼、华为、宏景光电、立讯精密、东莞能力 纪要提到的核心观点和论据 市场规模与潜力 - 全球潜在运动用户约 2.5 亿,Vlog 用户约 4.5 亿,目前运动相机和全景相机渗透率仅 2%-3%,未来渗透率提升至 10%-20%将带来千亿级市场规模[1][15] - 若 GoPro 破产,其 2024 年约 250 万台的销量将被 Insta360 和大疆抢占,成为两家公司潜在增长点[27] 行业发展趋势 - 从硬件竞争转向软件功能创新和营销策略优化,AI 自动剪辑、云端存储订阅服务等降低创作门槛,全景相机利用激光雷达或 TOF 传感器生成 3D 场景[1] - 未来个人影像设备发展趋势是技术融合与多功能化,两类设备可能整合为一种多功能、高自由度的影像设备[9] - 智能手机影像设备竞争点转向算法和软件,未来依赖 AI 技术和软件生态完善及差异化创新能力[29] - 运动相机和全景相机目前主要在硬件参数竞争,未来转向以 AI 为核心的智能化功能[30] 主要品牌竞争格局 - 运动相机领域,GoPro、Insta360、大疆是前三大品牌,GoPro 份额下滑,2023 年全球份额约 24%,影石创新为 12%,大疆为 10%[1][20] - 全景相机领域,影石创新占据主导地位,全球消费级市场份额达 67.2%,中国市场高达 86.5%,专业级市场份额 61%[1][20] 公司情况 - **影石创新**:增长速度快,质地优质,产品 X5 兼具全景和运动相机功能;2024 年收入约 55 亿元,预计今年收入增长 50%左右,净利率预计 20%左右,长期估值约 50 倍 PE[1][2][4] - **GoPro**:销量下滑,2024 年出货量降至 243 万台,营收降至 8 亿美元,净利润亏损 4 亿美元,毛利率仅 30%;采取转型订阅服务等措施,但效果有限[1][22] - **大疆**:以专业度和性价比见长,产品线丰富,硬件供应链强大,价格相对较低[4][26] - **明安公司**:市场热度和兴趣度高,预计上市时股价较高开盘,发行价 190 亿,对应去年近 10 亿利润,市盈率 19 倍,行业处于高景气状态,成长潜力大[3] 其他重要但可能被忽略的内容 - 运动相机以第一人称视角拍摄,强调六防技术,对画质和便捷性设计要求高;全景相机以 360 度拍摄为主要特点,可先拍摄后取景,利用图像拼接技术实现双模式录制[5] - 主流运动相机和全景相机产品包括 GoPro 的 Hero 13、大疆的 Action 5 Pro 以及影石创新的 X5,价格通常在 2000 元至 4000 元之间[6] - 运动相机适合极限运动爱好者、内容创作者和短视频用户;全景相机适合 AR/VR 内容制作者以及房地产 VR 看房、教育培训等专业领域应用[7] - 运动相机市场起源于 2004 年,全景相机市场起源于 2015 年[10][12] - GoPro 销量下滑原因是产品创新能力和迭代节奏慢,营销策略传统,主要通过线下经销商渠道销售[21] - 影石创新核心供应商包括安霸芯片、索尼和华为传感器、宏景光电镜头模组,宏景光电占镜头模组份额约 73%[33]
一个md文件收获超400 star,这份综述分四大范式全面解析了3D场景生成
机器之心· 2025-06-10 16:41
3D场景生成技术综述 核心观点 - 南洋理工大学S-Lab系统梳理300+篇论文,将3D场景生成方法划分为四大技术范式:程序化生成、基于神经网络的3D表示生成、图像驱动生成、视频驱动生成 [2] - 领域自2021年起进入爆发期,主要驱动力为扩散模型、NeRF、3D Gaussians等新技术涌现 [4] - 当前技术面临生成能力不均衡、3D表征缺陷、数据瓶颈、评估标准缺失四大挑战 [16] - 未来发展方向聚焦高保真生成、物理约束引入、交互式场景、感知-生成一体化四大方向 [12][18] 技术路线分类 程序化生成 - 通过预定义规则/LLM先验自动构建复杂环境(如城市、地形),具备空间一致性优势 [8] - 细分方法包括基于规则生成(地形)、约束优化生成(室内)、LLM辅助生成(布局控制) [8] 神经网络3D表示生成 - 直接生成场景图/参数或3D表征(点云/NeRF/3D高斯),具备强三维理解能力 [8] 图像驱动生成 - 基于2D图像生成模型重建3D结构,包括整体生成(全景图)和迭代生成(图像序列) [9][14] 视频驱动生成 - 融合时空一致性,分为一阶段(端到端)和两阶段(时空分离控制)方法 [9][15] 性能评估维度 - 七大关键指标:真实感、多样性、视角一致性、语义一致性、效率、可控性、物理真实性 [7] - 不同方法在可控性/真实性/效率/一致性之间存在显著权衡关系 [7] 下游应用领域 - 覆盖3D场景编辑、人-场景交互、具身智能、机器人、自动驾驶等关键场景 [2] 未来技术突破方向 - 高保真生成需协调几何/纹理/光照/多视角一致性,提升材质建模与细节捕捉能力 [12] - 物理约束引入需结合可微分物理模拟器,保障物体移动/摆放符合真实规律 [18] - 交互式场景需实现动态响应能力,理解物体可用性/因果关系/多智能体逻辑 [18] - 感知-生成一体化需构建统一架构,双向增强场景理解与生成准确性 [18]