Claude Opus 4.7
搜索文档
CVPR 2026|LLM会写3D视觉代码吗?清华联合智源用GeoCodeBench给出答案
机器之心· 2026-06-06 14:30
GeoCodeBench基准测试的构建与目的 - 清华大学智能产业研究院(AIR)联合北京智源研究院(BAAI)、北京大学、南京大学等机构构建了首个面向3D几何计算机视觉的PhD级编码基准GeoCodeBench,旨在评测大语言模型能否真正“读懂论文、理解几何并写出正确代码”[4] - 该基准从2025年CV顶会论文和官方仓库中构建任务,形成了47个仓库、100个问题实例,专门考察从论文到代码(paper-to-code)的研究级实现能力[4][12] - 构建过程采用了自动化构建与专家在环(expert-in-the-loop)结合的方式,由3D视觉研究专家人工筛选最能代表核心几何和算法逻辑的函数,并为每道题目配备高覆盖、包含边缘情况(edge cases)的单元测试[14][15] 基准测试的核心发现与模型表现 - 在论文原始评测中,即使当时表现最强的GPT-5,整体通过率也只有**36.6%**[5][30] - 根据最新评测,新一代前沿模型中Claude Opus 4.7取得**49.4%**的整体通过率位列第一,Gemini 3.1 Pro为**49.1%**,GPT-5.5为**46.6%**[5][31][32] - 基准测试揭示了当前大模型的核心短板:模型在通用3D几何知识题上表现尚可,但在需要严格遵循论文设定的研究级实现任务时,成功率明显下滑,表明“会做3D几何题,不等于会写3D论文代码”[16][17][36] 基准测试的设计与方法学 - GeoCodeBench将任务拆分为两类进行评测:一类是**通用3D能力**,主要考察几何变换、基础光学与力学公式;另一类是**研究能力**,更关注模型能否按照论文逻辑实现新模块、处理论文特定的几何耦合与系统逻辑[22][25] - 评分采用执行式评测,模型补全挖空的函数后,系统直接运行高覆盖单元测试,以通过率作为最终得分,比拼的是代码能否真正执行而不仅仅是“看起来像”[27] - 输入设计上,模型会获得结构化的论文内容、挖空后的代码骨架以及统一执行模板,但研究发现给模型更多论文内容(如整篇论文)不一定更有帮助,多数模型在“只给到Method章节”时表现最好[44] 模型错误分析与能力差距 - 模型失败的主要错误类型是**功能逻辑错误**,而非语法或导入错误,这意味着模型生成的代码表面正确,但实现的并非论文要求的几何逻辑[45][46] - 案例分析显示,模型可能具备较强的通用几何知识,但在基于论文内容完成细粒度、过程化的研究代码实现时仍存在明显短板,例如将双向互投影误写为单向投影[40][41] - 研究还观察到一个有趣现象:**创造性正确**,即不同模型为同一问题实现了互异但数学等价的代码路径,并都通过了测试[33] 基准测试的长期价值与行业意义 - GeoCodeBench的价值不仅在于提供了一个新评测集,更在于它清楚揭示了从通用编码走向可信赖的科学编码,尤其是在3D几何视觉这样的高门槛领域,中间还存在巨大鸿沟[48][49] - 该基准被设计为可持续扩展,随着新的3D视觉论文出现,新任务可通过相同流程并入,使其有潜力成为未来自动化研究智能体甚至“自动3D视觉科学家”的基础设施[50][51] - 这项工作首次系统性地评估了大模型在3D几何视觉这一专业领域的代码生成能力,为衡量和推动AI在科学研究辅助方面的发展提供了重要工具[10]