代码增强视觉 - 财报，业绩电话会，研报，新闻

代码增强视觉

搜索文档

量子位· 2026-03-16 15:14

文章核心观点 - 多模态大模型的代码能力进步显著，但在基础视觉任务上存在精度短板，常出现计量、计数和空间关系判断错误 [1][2] - 技术团队UniPat AI构建了名为SWE-Vision的极简视觉智能体框架，通过让模型编写并执行Python代码来验证其视觉判断，从而系统性提升视觉任务的精度和可靠性 [1][3] - 在五个主流视觉基准测试中，SWE-Vision均达到了当前最优水平，显著改进了GPT-5.2-xhigh和Seed-2.0-Pro等前沿模型的表现 [5] SWE-Vision框架的设计与原理 - **框架定位**：SWE-Vision是一个“极简视觉智能体”框架，其核心不是强迫模型每题写代码，而是为模型提供一个随时可用且熟悉的“视觉工具库” [6][12] - **三层架构**： - **工具层**：仅保留两个通用工具——`execute_code`（在持久化Jupyter环境中执行Python）和`finish`（输出最终答案）[7][8] - **控制层**：实现一个标准的智能体循环，组织消息、调用工具接口、处理执行结果并决定下一步行动 [9] - **执行层**：在Docker容器中启动持久化的Jupyter内核，允许变量、导入的库和图像对象在多次代码调用间保留，确保安全隔离和可复现性 [11][16] - **关键特性**：该框架支持有状态的执行环境、图像输入/输出以及OpenAI function calling标准接口，使模型能够像数据科学家一样进行多步实验和验证 [16][17] SWE-Vision的工作流程与优势 - **工作流程**：用户提供问题和图片后，模型先判断是否需要计算或验证；如需则调用`execute_code`在Notebook中使用PIL、NumPy等库进行分析；代码执行的输出（数值、报错或可视化图）回流给模型；模型迭代此过程直至调用`finish`给出最终答案 [13][15] - **核心优势**：其关键在于“有状态的Notebook”，这使得模型能进行跨多次调用的分步工作，如读图、裁剪、统计、画辅助线等，将多轮工具调用转化为同一会话中的连续实验，从而能处理复杂的多步骤视觉任务 [18] - **能力体现**：框架使模型能够“验证自己的视觉判断”，通过结构化分析、程序化测量和数值验证的闭环，替代传统模型依赖的直觉式观察，显著提升了结果的可信度与可解释性 [19] 性能表现与实验发现 - **基准测试成绩**：在五个视觉基准测试中，SWE-Vision均取得最先进结果，具体为：BabyVision上达到64.4，MathVision上达到94.0，Zero-Bench-Sub上达到50.1，OmniSpatial上达到69.0，CharXiv-RQ上达到82.5 [5] - **提升效果**：在对比实验中，SWE-Vision为GPT-5.2和Seed-2.0等前沿视觉语言模型带来了显著的系统性提升 [22][23] - **反直觉发现**：提升幅度最大的往往不是高阶推理任务，而是最基础的感知和精确处理能力，如BabyVision中的计数、颜色识别和空间关系判断 [28] 设计理念与行业启示 - **极简设计的力量**：SWE-Vision的有效性源于其极简和通用性，它没有为特定视觉任务发明专用工具接口，而是提供了一个通用框架，让模型自行决定何时及如何使用代码工具，这带来了更好的泛化性 [20][21] - **关键成功因素**：工具数量少、决策边界清晰、工具语义与模型现有能力高度一致、支持多轮迭代和状态积累、中间结果可被再次观察，且不绑定特定基准测试的手工策略 [25] - **新方向的揭示**：研究结果表明，对于视觉任务，测试时扩展（test-time scaling）不一定仅依靠“多想几段文字”，也可以通过“多写几行代码”来实现更精细的观察和处理 [29] 未来发展方向 - **数据与环境需求**：要彻底释放“工具增强视觉”的潜力，需要深度交织的视觉-编程监督微调/强化学习数据与交互式环境，使模型能学习感知、行动和反思的完整轨迹 [31] - **具体关键方向**：包括教会模型判断何时需要代码辅助、在多步推理中主动验证中间结果、在代码方案无效时进行失败恢复，以及实现“观察”与“计算”的原生深度融合 [32] - **社区贡献**：SWE-Vision的开源代码和全部实验数据已在GitHub发布，旨在推动编程辅助的精确视觉理解这一方向的共同探索 [32]

视觉智能体

多模态大模型

代码增强视觉

Artificial Intelligence

Artificial Intelligence

SWE-Vision

BabyVision

UniPat AI开源SWE-Vision：五百行代码打造SOTA视觉智能体！

机器之心· 2026-03-16 09:31

文章核心观点 - UniPat AI公司构建了一个名为SWE-Vision的极简视觉智能体框架，该框架通过让多模态大模型编写并执行Python代码来处理和验证自身的视觉判断，从而在多个主流视觉基准测试中达到了当前最优水平[1][5][9] 多模态大模型的视觉能力短板 - 尽管多模态大模型的代码能力在过去一年进步惊人，已可比肩资深工程师，但在基础视觉任务（如计量、计数和空间关系判断）上表现并不可靠，经常出错[3] - 模型在视觉理解上的典型问题是“看见了，却无法精确处理”，例如阅读柱状图时只能感知“大约75%”而无法精确计算比值，或在复杂场景中计数时逐一清点出错[3][7] SWE-Vision框架的极简设计 - 该框架的核心设计理念是极简化，工具层仅保留`execute_code`（执行代码）和`finish`（输出答案）两个通用工具，而非提供一堆专用视觉API[11][12] - 控制层实现了一个标准的智能体循环，模型根据问题决定是否调用工具，并可在开启推理模式时进行最多100轮迭代[13] - 执行层采用Docker容器中持久化的Jupyter内核，使得变量、导入库和图像对象等状态能在多次代码调用间保留，支持跨步骤的连续实验[14][22] 系统工作流程与关键特性 - 工作流程类似会看图的数据科学家：模型接收用户问题和图片后，先思考是否需要计算/验证，如需则调用`execute_code`在Notebook环境中用PIL/NumPy等进行分析，代码执行结果（数值/报错/可视化图）回流给模型，模型迭代直至调用`finish`给出最终答案[17][18] - 关键特性包括：有状态的执行环境、Docker沙箱保障安全与复现性、支持图像输入与输出以实现自我验证、以及采用OpenAI function calling标准接口保证兼容性[22][25] 性能表现与基准测试结果 - 在五个主流视觉基准测试中，SWE-Vision均提升了前沿大语言模型的表现并取得了最先进的结果[9] - 具体得分如下：在BabyVision上达到64.4，在MathVision上达到94.0，在Zero-Bench-Sub上达到50.1，在OmniSpatial上达到69.0，在CharXiv-RQ上达到82.5[9] - 提升幅度最大的往往是基础感知和精确处理任务（如计数、颜色识别），而非最复杂的高阶推理任务[34] 设计有效性的原因与行业启示 - 极简设计之所以更强，是因为工具数量少、决策清晰，且工具语义与模型已有的强大代码能力高度一致，这为前沿多模态模型的视觉能力提供了一个有效的测试时扩展方向[26][27][32] - 该框架表明，对于视觉任务，测试时扩展不一定仅靠“多想几段文字”，也可以靠“多写几行代码”来实现更精细的分析[35] - 其价值在于允许模型像一个真正的科学家一样，先做实验再下结论，实现了“先结构化分析、再程序化测量、最后数值验证”的思维与行动闭环[20][24] 未来发展方向 - 要彻底释放“工具增强视觉”的潜力，行业需要更多深度交织的视觉-编程监督微调/强化学习数据与环境，以训练视觉智能体模型[37][38] - 具体的关键方向包括：让模型学会判断何时需要代码辅助、在多步推理中主动验证中间结果、在代码方案无效时进行失败恢复，以及实现“观察”与“计算”的原生深度融合[39][40]

多模态大模型

视觉智能体

代码增强视觉

Artificial Intelligence

Artificial Intelligence

SWE-Vision

BabyVision