Workflow
VGGT
icon
搜索文档
顶级四校联手打造OmniVGGT:全模态视觉几何Transformer!
自动驾驶之心· 2025-11-17 08:05
核心观点 - 提出OmniVGGT框架,旨在解决现有3D基础模型无法灵活利用多种辅助几何信息(如深度、相机参数)的问题 [5][6] - 该框架通过两个核心创新(GeoAdapter和随机多模态融合策略)实现在训练和推理时能利用任意数量的辅助模态,且不影响纯RGB输入的性能 [7][9][10] - 实验表明,该模型在单目/多视图深度估计、相机位姿估计、3D重建及机器人操作任务上均达到顶尖水平,展示了强大的性能与实用性 [7][29][48] 技术背景与问题定义 - 当前主流3D基础模型(如VGGT)主要依赖RGB图像,无法有效利用实际应用中广泛存在的辅助信息(如RGB-D数据、激光雷达点云、相机参数) [5] - 现有方法要么只能使用一种辅助信息,要么最多处理两种,缺乏对不同应用场景的灵活适配能力,造成“信息浪费” [5][9] 核心技术:OmniVGGT框架 - **基础架构**:基于VGGT改进,使用DINO骨干网络提取空间令牌,并通过交替注意力机制处理多视图信息 [13][14] - **GeoAdapter(几何适配器)**:包含相机适配器和深度适配器,采用零初始化卷积等技术将不同几何信息轻量且稳定地注入基础模型,计算开销极小 [10][15][16] - **随机多模态融合策略**:在训练时随机采样模态子集,使模型能适应测试时任意数量和组合的模态输入,增强鲁棒性 [10][22][23] - **端到端处理**:输入图像集及任意数量的辅助信息,通过网络直接输出深度图、相机位姿和3D点云图 [12] 实验性能评估 - **单视图深度估计**:在Sintel数据集上,仅使用RGB输入时,其绝对相对误差(Abs Rel)为0.558,优于基线VGGT的0.722;当使用100%深度信息时,Abs Rel显著降低至0.106 [30][36] - **多视图深度估计**:在ETH3D数据集上,结合深度信息后,相对误差(rel)仅为0.5,准确率(δ<1.25)达到98.7% [36][40] - **相机位姿估计**:在CO3Dv2数据集上,结合相机参数输入时,AUC@30°达到93.4%,远超对比方法Pow3R的82.2%,且推理速度仅需0.2秒,快30倍以上 [39][42] - **3D重建**:在7-Scenes数据集上,结合相机与深度信息后,重建精度(Acc)提升至0.036,比纯RGB输入(0.104)提升约64.4% [43][47] - **机器人操作任务**:集成到视觉-语言-动作模型后,在CALVIN数据集上,使用RGB-D输入的任务平均连续完成数(Avg Len)达4.08,优于基线 [48][51] 架构有效性验证 - 消融实验证明,完整的OmniVGGT设计(零卷积处理相机信息、直接相加处理深度信息)性能最优,替代方案(如直接替换令牌或单层适配器)均导致性能下降 [49][52] - 该设计确保了在引入辅助信息时不破坏原有特征空间,纯RGB输入性能仍优于基线 [30][52] 行业应用与前景 - 该技术解决了3D视觉模型在多样化真实场景(如VR/AR、自动驾驶、机器人)中的输入适配性问题,实现了“全能辅助” [5][53] - 模型高效且实用,计算开销小,易于集成到现有系统(如VLA模型)以提升下游任务(如机器人操作)性能 [7][53] - 展现了在多模态融合领域的潜力,为未来扩展到更复杂动态场景奠定了基础 [54]
港科广&清华联合提出Spatial Forcing:隐式空间对齐,超越主流2D/3D VLA模型性能
具身智能之心· 2025-10-19 00:03
文章核心观点 - 提出一种名为Spatial Forcing (SF)的新方法 该方法无需依赖显式的3D传感器输入 而是通过隐式空间对齐策略 使视觉-语言-动作模型在训练过程中自发形成空间感知能力 从而显著提升机器人在真实物理世界中的操作性能 [2][10][16] 技术背景与现有范式局限 - 当前主流的视觉-语言-动作模型大多仅依赖2D视觉数据 缺乏对真实3D空间的深层理解 难以应对复杂的物理世界操控任务 [2] - 现有3D VLA模型尝试通过深度相机或激光雷达引入显式3D信息 但面临传感器数据质量低 不同机器人传感器类型和安装方式差异大 以及无法利用现有纯2D大规模机器人数据集等限制 [2][8] - 另一种方法是使用深度估计网络从2D图像中估计3D信息 但效果受限于离线深度估计器的性能 导致训练结果非最优 [9] Spatial Forcing方法论 - 方法核心是通过将VLA骨干网络的中间层视觉特征 对齐到外部3D基础模型生成的强大3D几何表征 使模型隐式获得空间理解能力 [10][16] - 具体流程包括:使用预训练的3D基础模型提取像素级空间表征 取出VLA模型的视觉token并通过MLP投影 计算与3D表征的余弦相似度作为空间对齐损失 并与动作生成损失共同优化模型 [16] - 实验发现 在VLA骨干网络中较深但非最深的注意力层施加空间对齐监督 能最有效地提升模型动作表现 [16] - 在推理阶段 该方法不会带来额外的结构或计算开销 模型运行方式与普通VLA完全一致 具备高实用性与可扩展性 [16] 实验验证与性能提升 - 深度探测实验表明 在纯2D图像数据上预训练的传统VLA模型 其视觉特征无法生成有意义的深度结构 缺乏准确的空间感知 [11][13] - 在LIBERO仿真环境中 该方法超越了主流2D和3D VLA模型 平均任务成功率达到了98.5% 优于GeoVLA的97.7%和3D-CAVLA的98.1% [18] - 在真实机器人环境的双臂和单臂操作任务中 该方法显著提高了任务成功率 [14][18] - 该方法展现出卓越的训练效率和数据利用效率 训练效率提升高达3.8倍 数据利用效率提升高达5.9倍 [14] 技术优势总结 - 该方法的核心优势在于让机器人无需看3D也能懂3D 解决了显式3D方法对特定传感器的依赖问题 并能够充分利用现有的大规模2D机器人数据集 [2][10]
机器人感知大升级,轻量化注入几何先验,成功率提升31%
36氪· 2025-09-28 20:09
技术突破 - 提出Evo-0轻量化方法 通过隐式注入3D几何先验增强视觉语言动作模型的空间理解能力 无需显式深度输入或额外传感器 [2] - 利用视觉几何基础模型VGGT从多视角RGB图像提取3D结构信息 包含深度上下文和跨视图空间对应关系等几何信息 [2][3] - 引入cross-attention融合模块 将ViT提取的2D视觉token作为query VGGT输出的3D token作为key/value 实现2D-3D表征融合 [3] 性能表现 - 在rlbench仿真实验中 Evo-0在5个需要精细操作的任务上平均成功率超过基线pi0 15% 超过openvla-oft 31% [2] - 真机实验中在5个空间感知要求高的任务上平均成功率提升28.88% 其中插孔任务达到66.67% 透明物抓取任务达到65.00% [8][10][11] - 仅用15k步训练的Evo-0已超过20k步训练的π0 显示更高训练效率 [6] 鲁棒性优势 - 在5类干扰条件下均表现相对鲁棒 包括未见干扰物体 背景颜色变化 目标位置位移 目标高度变化和相机角度变化 [12] - 在存在未见干扰物体时 拾取正确率100% 整体正确率70% 显著高于基线的60%和20% [12][15] - 相机视角向上偏移10度时正确率60% 向下偏移10度时40% 均优于基线的40%和30% [15] 应用价值 - 方法以插件形式增强VLA模型空间建模能力 训练高效且部署灵活 为通用机器人策略提供新路径 [16] - 绕过深度估计误差与传感器需求 降低部署难度和精度噪声问题 [1][16] - 在密集抓取 置物架放置及透明物体操作等对空间精度容忍度极低的任务中展现精准操控能力 [8][10]
厦门大学曹刘娟团队FastVGGT:四倍速度提升,打破VGGT推理瓶颈并降低累积误差!
具身智能之心· 2025-09-10 14:18
核心观点 - 提出FastVGGT方法 通过分析VGGT模型推理效率瓶颈并引入token merging技术 在保持3D重建精度的同时实现最高4倍加速 显著提升大规模3D视觉任务实用性[5][26] 主要贡献 - 系统分析VGGT推理速度瓶颈 首次将token merging引入前向3D模型[5] - 基于工程优化使VGGT在单GPU(80G VRAM)处理能力从300张提升至1000张输入图像[5] - 在1000张图像推理任务中实现4倍加速 同时降低累积误差[5] 瓶颈分析 - 推理效率问题: Global Attention计算量随帧数增加占据主要时间消耗 时间复杂度保持O(n²d)量级[6] - 累积误差问题: 全局注意力机制在跨帧关联时放大细微错误 导致预测结果漂移和重建稳定性下降[6] 冗余观察 - 全局注意力存在大量冗余 同一Block下不同token注意力图几乎重合 出现token collapse现象[7] - 全局退化反映场景一致性 但带来计算冗余 为优化提供空间[7] 方法设计 - Token划分采用三种策略: 参考系约束(第一帧作为destination token) 关键token保留(特异性最高token) 基于区域采样(确保采样均匀性)[11] - Token Merging通过计算余弦相似度将source token合并到最相似destination token[12][13] - Token Unmerging机制恢复输入token数量 保证密集3D重建输出完整性[15] 实验结果 点云重建性能 - ScanNet-50数据集: 1000帧输入下推理时间从724.6秒降至180.7秒 加速4倍 Chamfer Distance从0.471改善至0.425[18][19] - 7Scenes数据集: Stride 3设置下推理时间从76.7秒降至28.0秒 Normal Consistency从0.611提升至0.617[21] - NRGBD数据集: Stride 3设置下推理时间从136.1秒降至53.1秒 Normal Consistency从0.727提升至0.730[21] 相机位姿估计 - 1000帧输入时ATE从0.196降至0.164 ARE从4.636降至3.860[23][24] - RPE-rot从0.997降至0.667 RPE-trans从0.039降至0.029[24] - 有效缓解长序列推理过程中的误差累积问题[23] 结论 - FastVGGT作为training-free加速方法 在ScanNet-50 7Scenes NRGBD等数据集验证实用性[26] - 在保持VGGT精确度的同时实现最高4倍推理加速 适用于大规模3D视觉系统[26]
刚刚,CVPR 2025奖项出炉:牛津&Meta博士生王建元获最佳论文,谢赛宁摘年轻研究者奖
机器之心· 2025-06-13 23:45
CVPR 2025大会概况 - 本届CVPR共收到13008份论文投稿,同比增长13%,最终接收2872篇,接收率22.1% [3] - 大会现场参会学者超过9000人,来自70余个国家和地区 [7] - 图像与视频生成领域论文接收数量最多,基于多视角和单图像的3D领域接收率最高 [8] 最佳论文及荣誉提名 - 最佳论文VGGT由牛津大学和Meta AI联合提出,采用纯前馈Transformer架构实现通用3D视觉模型,推理速度达秒级 [14][17] - 荣誉提名论文MegaSaM来自Google DeepMind等机构,提出深度视觉SLAM框架,在动态场景中实现快速准确的相机姿态估计 [27][30] - 另一篇荣誉提名论文Navigation World Models由LeCun团队提出,采用条件扩散Transformer实现最先进视觉导航性能 [33] 3D视觉技术进展 - 3D Student Splatting and Scooping(SSS)改进了3D高斯泼溅技术,在质量和参数效率上优于现有方法 [37][40] - 论文实验数据显示,SSS方法在Mip-NeRF360数据集上PSNR达29.90,LPIPS为0.145,表现最优 [42] 视觉语言模型创新 - Molmo和PixMo论文提出开源视觉语言模型,72B参数模型在多项基准测试中超越Claude 3.5 Sonnet等商业模型 [46] - 该方法创新性地使用PixMo数据集,无需依赖专有VLM合成数据 [46] 学生论文亮点 - 最佳学生论文提出首个基于物理的多视角动态光传播神经逆渲染系统,实现强间接光条件下的3D重建 [55] - 荣誉提名学生论文创新性地利用扩散时间步构建视觉语言,统一多模态理解和生成 [63][66] 行业重要奖项 - 年轻研究者奖授予Hao Su和谢赛宁,两人论文被引量分别超过12万和7.5万 [68][72][74] - Longuet-Higgins奖授予Inception架构和全卷积网络两篇开创性论文,引用量分别达6.7万和4.9万 [76][79][80][83] - Thomas S. Huang纪念奖授予德克萨斯大学Kristen Grauman教授,表彰其在计算机视觉领域的贡献 [86]