AI能看懂图像却算不好距离,上交时间-空间智能基准难倒9大顶尖多模态模型
量子位·2025-04-15 11:54
STI-Bench团队 投稿 量子位 | 公众号 QbitAI 多模态大语言模型(MLLM)在具身智能和自动驾驶"端到端"方案中的应用日益增多,但它们真的准备好理解复杂的物理世界了吗? 上海交通大学联合中国地质大学、南洋理工大学、智源研究院以及斯坦福大学的研究团队推出首个多模态大模型(MLLM)时空智能评测基准 STI-Bench(Spatial-Temporal Intelligence Benchmark),向当前最先进的多模态大语言模型发起了关于精确空间时间理解的严峻挑战。 结果显示,即便是Gemini-2.5-Pro、GPT-4o、Claude-3.7-Sonnet、Qwen 2.5 VL等当前最强的多模态大模型,在需要定量分析真实世界空 间关系和动态变化的任务上,表现并不尽人意。 从语义理解到时空智能 MLLM在视觉语言理解上成就斐然,并被寄望于成为具身智能和自动驾驶的"端到端"解决方案。但这要求模型超越传统的语义理解,具备精准 的时空智能。 试想AI应用场景中的需求: 自动驾驶: 需知晓与前车的精确距离(米)、行人过马路的速度(米/秒)、安全过弯的车速限制等。 机器人操作: 需判断目标物体的尺寸位 ...