Agentic Vision
搜索文档
Gemini 3「开眼」像素级操控,谷歌回应DeepSeek-OCR2
36氪· 2026-01-28 19:33
核心观点 - Google DeepMind为Gemini 3 Flash模型推出了名为“Agentic Vision”(智能体视觉)的新能力,该技术通过让模型主动编写并执行Python代码来操纵和分析图像,将视觉理解从被动的“猜测”转变为主动的“深度调查”[1][3][5] 技术原理与架构 - 新能力引入“思考-行动-观察”的闭环流程:模型首先分析用户查询和图像并制定计划,然后生成并执行Python代码来主动操纵图像,最后将变换后的图像追加回上下文窗口以进行更准确的最终推理[3][7][11] - 核心创新在于利用代码执行作为视觉推理工具,将被动的视觉理解转化为主动的智能体过程[5] 性能提升 - Agentic Vision能力使Gemini 3 Flash在各类视觉基准测试中实现了**5%到10%**的性能跨越[6] - 在建筑计划验证平台PlanCheckSolver.com的实际应用中,通过启用该功能迭代检查高分辨率输入,将准确率提高了**5%**[10] 具体应用场景 - **缩放与检查**:模型被训练为在检测到细粒度细节时进行隐式缩放,通过生成代码裁剪和分析图像特定部分来确认是否符合复杂规范,例如检查建筑图纸[10] - **图像标注**:模型可以通过执行代码直接在图像上绘制边界框和标签来辅助推理,例如精确计数图像中的物体数量,确保答案基于像素级理解[13] - **视觉数学与绘图**:模型能够解析高密度表格数据,并编写Python代码执行计算和生成可视化图表,用可验证的代码执行取代概率性猜测,避免多步视觉算术中的幻觉问题[15][16] 产品发布与获取 - Agentic Vision功能已通过Google AI Studio和Vertex AI中的Gemini API提供[18] - 该功能也开始在Gemini应用中推出,用户可通过从模型下拉菜单中选择“Thinking”来访问[18] 技术发展背景与行业竞争 - 该技术的发布与DeepSeek公司发布DeepSeek-OCR2的时间点高度接近,引发行业关于视觉AI技术路线竞争的讨论[21] - 技术路线呈现差异化:DeepSeek-OCR2侧重于通过改进视觉编码器模拟人类的逻辑化阅读注意力机制,而谷歌的Agentic Vision则强调通过代码执行实现与环境的主动交互和验证[22] - 竞争焦点在于重新定义机器视觉,是追求极致的感知能力,还是实现全能的交互与验证能力[23] 未来发展方向 - 谷歌计划在未来更新中,使目前需要显式提示引导的功能(如旋转图像、执行视觉数学)完全隐式化[20] - 公司正在探索为Gemini模型集成更多工具,包括网络和反向图像搜索,以进一步确立其对世界的理解[20] - 计划将此Agentic Vision功能扩展到Gemini 3 Flash以外的其他模型尺寸[20]