Workflow
GPT-4o连验证码都解不了??SOTA模型成功率仅40%
量子位·2025-06-04 13:21

MetaAgentX团队 投稿 量子位 | 公众号 QbitAI 当前最强多模态Agent连验证码都解不了? 实测结果显示:人类平均成功率达 93.3% ,SOTA多模态模型平均仅 5%-40% 不等。 连 GPT-4o 都被难住了。 验证码是现阶段Agent部署的一大瓶颈 在真实网页场景中部署多模态Agent,你是否也被人机验证(CAPTCHA)卡住过? 项目团队发现,不少大型Benchmarks(包括AgentBench、VisualWebArena等)在构建过程中都 刻意跳过了含验证码的网页 ,仿佛这道拦 路虎根本不存在。 但现实很骨感: 验证码从不是"特例",而是任何实际任务中不可回避的存在 ,尤其在电商、登录、票务等高价值网页中更是常见。 于是,Open CaptchaWorld这个测试平台以及Benchmark应运而生:一个针对多模态大模型Agent的CAPTCHA解题平台与评估基准——专 为视觉-语言-动作交互任务设计。 无论是OpenAI的o3、Anthropic的Claude‑3.7-sonnet、还是Gemini‑2.5-pro,这些最新的多模态大模型Agent尽管在静态感知任务(如图文 ...