图像与视觉

搜索文档
放榜了!ICCV 2025最新汇总(自驾/具身/3D视觉/LLM/CV等)
自动驾驶之心· 2025-06-28 21:34
自动驾驶技术研究 - DriveArena: 可控生成式自动驾驶仿真平台 支持自定义场景生成和闭环测试 [4] - Epona: 基于自回归扩散世界模型的自动驾驶系统 可预测复杂交通场景演变 [4] - SynthDrive: 高保真传感器仿真流水线 实现真实-仿真-真实数据闭环 [4] - StableDepth: 场景一致的单目深度估计模型 支持尺度不变性深度预测 [4] - U-ViLAR: 基于可微分关联的视觉定位系统 集成不确定性感知模块 [4] 3D重建与场景生成 - DiST-4D: 解耦时空扩散模型 结合度量深度生成4D驾驶场景 [4] - GaussianProperty: 通过LMMs整合物理属性的3D高斯模型 支持材质属性编辑 [4] - GS-Occ3D: 基于高斯泼墨的纯视觉占用重建框架 实现自动驾驶场景三维重构 [5] - Curve-Aware Gaussian Splatting: 参数化曲线重建技术 提升3D几何结构精度 [6] 多模态感知与决策 - CoopTrack: 端到端协同序列感知框架 优化多智能体协作效率 [4] - ETA: 基于大模型的双轨自动驾驶系统 通过前瞻性思维提升决策效率 [5] - CARP: 粗到细的视觉运动策略学习 实现分层动作预测 [5] - Detect Anything 3D: 开放词汇3D检测系统 支持野外场景任意物体识别 [5] 生成式模型应用 - TaxaDiffusion: 渐进式训练扩散模型 实现细粒度生物物种生成 [8] - Hi3DGen: 图像到3D几何生成框架 通过法向桥接保持高保真度 [5] - Aether: 几何感知的统一世界建模 集成物理规律与语义理解 [4] 机器人操作与导航 - A0: 分层 affordance 感知模型 支持通用机器人操作任务 [4] - MoMa-Kitchen: 超10万样本的移动操作基准 针对最后米导航场景 [4] - OVA-Fields: 弱监督开放词汇 affordance 场 用于机器人部件检测 [5] 视觉基础模型 - ReME: 无训练开放词汇分割框架 基于数据中心的约束解除技术 [5] - StruMamba3D: 自监督点云表征学习 探索结构Mamba架构优势 [5] - G2D: 梯度引导的多模态蒸馏 提升跨模态学习效果 [9]
ICCV 2025不完全汇总(具身/自驾/3D视觉/LLM/CV等)
具身智能之心· 2025-06-27 17:41
具身智能相关 - GaussianProperty通过LMMs将物理属性整合到3D高斯模型中 [4] - Aether提出几何感知的统一世界建模方法 [4] - A0模型构建了分层架构实现通用机器人操作 [4] - PASG框架实现机器人操作中的几何基元自动提取与语义锚定 [4] - MoMa-Kitchen提供超过10万样本的移动操作导航基准数据集 [4] - OVA-Fields开发弱监督开放词汇affordance场用于机器人部件检测 [4] 自动驾驶相关 - ETA采用双模型架构提升自动驾驶系统效率 [4] - DriveArena构建可控生成式自动驾驶仿真平台 [4] - Epona开发自回归扩散世界模型用于自动驾驶 [4] - SynthDrive建立高保真传感器仿真与驾驶数据合成管线 [4] - StableDepth实现场景一致的单目深度估计 [4] - CoopTrack探索协同序列感知的端到端学习 [4] - U-ViLAR通过可微分关联实现不确定性感知的视觉定位 [4] 3D视觉与点云 - StruMamba3D探索结构Mamba模型用于点云自监督学习 [6] - DiST-4D开发解耦时空扩散模型用于4D驾驶场景生成 [6] - InvRGB+L实现复杂场景的统一颜色与LiDAR反射率建模 [6] - GS-Occ3D利用高斯泼溅扩展纯视觉占据重建规模 [6] - Detect Anything 3D实现野外环境3D物体检测 [6] - PanSt3R保证多视角全景分割一致性 [6] 大模型与生成技术 - 图知识检索与推理方法增强MLLMs处理未知领域能力 [8] - TaxaDiffusion开发渐进式训练扩散模型实现细粒度物种生成 [10] - G2D通过梯度引导蒸馏提升多模态学习效果 [13] - CL-Splats实现高斯泼溅的持续本地优化学习 [13]