多模态大语言模型(MLLMs)的空间智能挑战 - 当前最先进的MLLMs在广泛视觉-语言任务中取得显著成功,但仍缺乏真正的空间智能,甚至在儿童能轻易完成的任务上出错,例如数方块或识别物体左侧最近邻近物体[2] - 在李飞飞提出的VSIBench评估基准中,超过70%的记录错误源于模型对空间现象的推理错误,而非视觉识别或语言解析能力不足[5] - 近期研究尝试通过提供专门构建的空间数据集来提升模型性能,但这些数据集通常仅涵盖现实世界空间任务的子集,可能导致模型过度特化,难以培养更基础且可泛化的空间智能[5] 几何问题作为空间智能代理任务的原理 - 几何将数个世纪的数学研究浓缩为对空间现象的形式化描述,学习求解几何问题能迫使模型内化欧几里得几何公理等先验知识,并提供更强的跨领域泛化能力[8] - 解决几何问题所需的能力,包括识别形状与构型、推断空间关系、计算几何元素以及执行多步逻辑推理,同样是空间感知任务所必需[10] - 教育心理学领域有大量证据表明几何问题求解与空间智力密切相关,可作为空间能力的指标,并且本文通过实验发现这种关系可推广至多模态大模型[10] Euclid30K几何数据集的构建 - 为解决缺乏多样化几何问题大规模高质量训练数据集的问题,研究团队从现有开源数据集与K12教程中标注了一个包含29,695个几何问题的Euclid30K数据集[12] - Euclid30K数据集中包含18,577个平面几何问题和11,118个立体几何问题,其中新收集的立体几何问题有3,996个,新收集的图像有3,792张[13] - 所有题目与答案都通过GPT-4o与DeepSeek-V3.1 API混合清洗,确保答案被重规范化为可被MathVerify正确识别的格式[12] 几何训练对模型性能的提升效果 - 仅使用常规GRPO对模型进行训练后,经过几何问题训练的模型在VSI Bench、Super CLEVR、Omni3D Bench和MindCube四个基准上的性能都出现了一定程度增长[15] - 因果消融研究表明,在Euclid30K上训练的模型相比在同等大小Clevr-CoGenT数据集上微调的模型整体准确率显著更高,验证了性能提升明确归因于几何任务[17] - 具体而言,Qwen2.5VL-72B模型在Euclid30K上训练后整体准确率达到37.5%,高于在Clevr-CoGenT上训练的33.2%和基础版的32.3%[19]
欧几里得的礼物:通过几何代理任务增强视觉-语言模型中的空间感知和推理能力
机器之心·2025-10-17 10:11