UniPat AI开源SWE-Vision:五百行代码打造SOTA视觉智能体!
机器之心·2026-03-16 09:31

文章核心观点 - UniPat AI公司构建了一个名为SWE-Vision的极简视觉智能体框架,该框架通过让多模态大模型编写并执行Python代码来处理和验证自身的视觉判断,从而在多个主流视觉基准测试中达到了当前最优水平[1][5][9] 多模态大模型的视觉能力短板 - 尽管多模态大模型的代码能力在过去一年进步惊人,已可比肩资深工程师,但在基础视觉任务(如计量、计数和空间关系判断)上表现并不可靠,经常出错[3] - 模型在视觉理解上的典型问题是“看见了,却无法精确处理”,例如阅读柱状图时只能感知“大约75%”而无法精确计算比值,或在复杂场景中计数时逐一清点出错[3][7] SWE-Vision框架的极简设计 - 该框架的核心设计理念是极简化,工具层仅保留execute_code(执行代码)和finish(输出答案)两个通用工具,而非提供一堆专用视觉API[11][12] - 控制层实现了一个标准的智能体循环,模型根据问题决定是否调用工具,并可在开启推理模式时进行最多100轮迭代[13] - 执行层采用Docker容器中持久化的Jupyter内核,使得变量、导入库和图像对象等状态能在多次代码调用间保留,支持跨步骤的连续实验[14][22] 系统工作流程与关键特性 - 工作流程类似会看图的数据科学家:模型接收用户问题和图片后,先思考是否需要计算/验证,如需则调用execute_code在Notebook环境中用PIL/NumPy等进行分析,代码执行结果(数值/报错/可视化图)回流给模型,模型迭代直至调用finish给出最终答案[17][18] - 关键特性包括:有状态的执行环境、Docker沙箱保障安全与复现性、支持图像输入与输出以实现自我验证、以及采用OpenAI function calling标准接口保证兼容性[22][25] 性能表现与基准测试结果 - 在五个主流视觉基准测试中,SWE-Vision均提升了前沿大语言模型的表现并取得了最先进的结果[9] - 具体得分如下:在BabyVision上达到64.4,在MathVision上达到94.0,在Zero-Bench-Sub上达到50.1,在OmniSpatial上达到69.0,在CharXiv-RQ上达到82.5[9] - 提升幅度最大的往往是基础感知和精确处理任务(如计数、颜色识别),而非最复杂的高阶推理任务[34] 设计有效性的原因与行业启示 - 极简设计之所以更强,是因为工具数量少、决策清晰,且工具语义与模型已有的强大代码能力高度一致,这为前沿多模态模型的视觉能力提供了一个有效的测试时扩展方向[26][27][32] - 该框架表明,对于视觉任务,测试时扩展不一定仅靠“多想几段文字”,也可以靠“多写几行代码”来实现更精细的分析[35] - 其价值在于允许模型像一个真正的科学家一样,先做实验再下结论,实现了“先结构化分析、再程序化测量、最后数值验证”的思维与行动闭环[20][24] 未来发展方向 - 要彻底释放“工具增强视觉”的潜力,行业需要更多深度交织的视觉-编程监督微调/强化学习数据与环境,以训练视觉智能体模型[37][38] - 具体的关键方向包括:让模型学会判断何时需要代码辅助、在多步推理中主动验证中间结果、在代码方案无效时进行失败恢复,以及实现“观察”与“计算”的原生深度融合[39][40]

UniPat AI开源SWE-Vision:五百行代码打造SOTA视觉智能体! - Reportify