视觉思维链
搜索文档
CVPR 2026 Workshop征稿|从感知到推理,ViSCALE 2.0 邀你重塑计算机视觉的 System 2
机器之心· 2026-02-13 12:19
研讨会核心信息 - 第二届计算机视觉推理扩展研讨会(ViSCALE 2026)将于2026年6月在美国举办,由来自清华大学、普林斯顿大学、加州大学圣克鲁兹分校、新加坡国立大学等全球顶尖机构的学者联合举办 [2] - 研讨会旨在汇聚全球顶尖学者,共同探索如何让视觉模型通过计算扩展突破现有模型的能力瓶颈 [2] - 研讨会将采用线上线下混合模式,于2026年6月3日或4日举行,会期为半天 [9] 研讨会核心观点与研究方向 - 研讨会认为计算机视觉正站在新范式的路口,其发展路径是从单纯的像素感知,到构建符合物理规律的世界模型;从平面的模式识别,到复杂的空间推理 [2] - 研讨会关注的重点是深度推理,旨在探索模型如何在测试时动态分配计算资源,实现从“看懂画面”到“模拟世界”的跃迁,而非上一代模型的“直觉反应” [5] - 核心研究方向包括:利用测试时计算扩展提升视频生成的物理一致性与长时序因果推理能力;突破2D限制,让模型在3D空间中具备类似人类的导航与操作直觉;发展视觉思维链,让视觉模型学会反思、自我修正与多步推理;探索测试时计算量与视觉推理性能之间的扩展规律 [6] 研讨会征稿详情 - 研讨会寻求能打破现有视觉模型天花板的原创性研究,鼓励新颖观点和创意思路,接受多种类型投稿 [7] - 征稿分为两个方向:Track 1为正式论文,属于存档类型,篇幅限制为8页(不含参考文献);Track 2为扩展摘要,属于非存档类型,篇幅限制不超过4页(不含参考文献) [9] - 投稿需使用CVPR 2026 Author Kit格式,截止日期为2026年3月10日,录用通知将于2026年3月18日发出 [9] - 具体征稿议题包括但不限于:测试时计算扩展的理论基础与高效算法、世界模型/视频生成/复杂决策中的推理扩展、具身智能与自动驾驶中的长时序空间推理、统一模型中的推理扩展问题、视觉思维链与模型可解释性、推理扩展带来的安全性/鲁棒性与幻觉问题 [9]
端到端基础模型!VCoT-Grasp: 视觉思维链增强的机器人抓取检测大模型
具身智能之心· 2025-10-19 21:50
技术方法与创新 - 提出VCoT-Grasp模型,一种端到端的语言驱动抓取基础模型,通过引入视觉思维链(Visual Chain-of-Thought)推理来增强视觉理解能力 [2][5][7] - 模型采用两阶段推理:第一阶段根据指令预测目标物品的边界框(bounding box),第二阶段将边界框图像、原图像和指令共同输入,解码出最终抓取动作 [7] - 模型架构基于PaliGemma-3B视觉语言模型,在预测动作时,采用离散化token形式的动作头(LM Head)性能最优,平均抓取成功率可达69.16% [7][8][12] 数据集构建 - 为训练模型构建了高质量数据集VCoT-GraspSet,该数据集在Grasp Anything基础上通过开集检测模型YOLO-World进行优化 [9] - 数据集包含167K张合成图像和1.36M抓取标签,以及400张实机采集数据和1200个手动标注的抓取标签 [9][10] 性能表现 - 在数据集测试中,VCoT-Grasp模型(使用LM Head)在已见物体上的抓取成功率为83.60%,在未见物体上为58.98%,平均成功率为69.16%,显著优于对比方法 [11][12] - 实机测试显示,VCoT-Grasp在15种已见物体上的整体抓取成功率为0.71(71%),优于GR-ConvNet+CLIP的0.55和RT-Grasp的0.53 [12] - 模型在面对背景变化和干扰物时表现出强鲁棒性,在原始场景、背景变化和存在干扰物的场景下,抓取成功次数分别为19/25、21/25和16/25 [16]