Visual Large Language Model (LVLM)
搜索文档
空间智能再进化!Spatial-SSRL帮助LVLM更好读懂空间
机器之心· 2025-11-30 14:00
本文第一作者为刘禹宏,上海交通大学人工智能专业本科四年级学生,相关研究工作于上海人工智能实验 室科研实习期间完成。通讯作者为王佳琦、臧宇航,在该研究工作完成期间,均担任上海人工智能实验室 研究员。 近年来,视觉大语言模型(LVLM)的空间智能受到了广泛关注,高水平的空间理解能力对于自动驾驶、具 身智能等领域发展有着重要意义。然而,当前的LVLM在空间理解方面仍显著落后于人类。 近期,来自上海人工智能实验室、上海交通大学、香港中文大学等机构的研究团队提出了名为Spatial-SSRL (Self-Supervised Reinforcement Learning) 的全新自监督RL范式,无需任何外界标注,旨在提升LVLM空间理 解能力。实验证明,该范式在 Qwen2.5-VL(3B&7B) 和最新的 Qwen3-VL(4B) 架构下都成功地提升了模型的 空间理解能力,同时保留了原有的通用视觉能力。 目前Spatial-SSRL的Huggingface model&dataset总下载量已经突破1k,欢迎大家下载和使用! 论文链接: https://arxiv.org/pdf/2510.27606 仓库链接: h ...