Visual Large Language Model (LVLM) - 财报，业绩电话会，研报，新闻 - Reportify

Visual Large Language Model (LVLM)

搜索文档

空间智能再进化！Spatial-SSRL帮助LVLM更好读懂空间

机器之心· 2025-11-30 14:00

本文第一作者为刘禹宏，上海交通大学人工智能专业本科四年级学生，相关研究工作于上海人工智能实验室科研实习期间完成。通讯作者为王佳琦、臧宇航，在该研究工作完成期间，均担任上海人工智能实验室研究员。近年来，视觉大语言模型（LVLM）的空间智能受到了广泛关注，高水平的空间理解能力对于自动驾驶、具身智能等领域发展有着重要意义。然而，当前的LVLM在空间理解方面仍显著落后于人类。近期，来自上海人工智能实验室、上海交通大学、香港中文大学等机构的研究团队提出了名为Spatial-SSRL (Self-Supervised Reinforcement Learning) 的全新自监督RL范式，无需任何外界标注，旨在提升LVLM空间理解能力。实验证明，该范式在 Qwen2.5-VL(3B&7B) 和最新的 Qwen3-VL(4B) 架构下都成功地提升了模型的空间理解能力，同时保留了原有的通用视觉能力。目前Spatial-SSRL的Huggingface model&dataset总下载量已经突破1k，欢迎大家下载和使用！论文链接： https://arxiv.org/pdf/2510.27606 仓库链接： h ...

Visual Large Language Model (LVLM)

Self-Supervised Reinforcement Learning

Artificial Intelligence

Visual Large Language Model (LVLM)

Self-Supervised Reinforcement Learning

Artificial Intelligence