GPT-4o连验证码都解不了？？SOTA模型成功率仅40%

多模态Agent验证码能力研究核心观点 - 当前最先进的多模态Agent在验证码解题任务中表现远逊于人类，人类平均成功率93.3%，而SOTA模型仅5%-40% [2][3] - 验证码是Agent实际部署的关键瓶颈，但主流评估基准（如AgentBench、VisualWebArena）刻意回避含验证码的网页场景 [4][7] - Open CaptchaWorld平台填补研究空白，提供20类225个真实交互式验证码，系统性评估Agent的视觉-语言-动作协同能力 [5][6][9] 平台设计特点 - 多样性覆盖：包含点击顺序、滑块对齐、图像选择等20类商用级验证码，模拟电商/票务等高价值场景 [9] - 交互真实性：所有验证码部署于网页环境，要求Agent通过截图观察、点击拖动等动作完成端到端操作 [11] - 新评估指标：提出CAPTCHA Reasoning Depth量化解题复杂度，补充传统静态图像分类评估的不足 [11] 模型性能分析 - 成功率对比：OpenAI-o3以40%成功率领先，但远低于人类的93.3%，GPT-4o等模型表现更差 [11][3] - 行为缺陷：Agent普遍存在"过度分解任务"现象，如序列点击任务中拆解为十余步操作，效率低下且易出错 [24][25] - 成本效率：OpenAI-o3成本最高但性价比低，Gemini2.5-Pro和GPT-4.1在25%成功率下成本更优 [28][29][30] 数据集构建方法 - 四阶段流程：图像素材构建→验证码生成→推理深度估计→标准注释生成，确保多样性与交互真实性 [14][15][17][19][20] - 视觉多样性：通过调整目标位置、观察角度等参数生成泛化性强的样本 [16] - 语言指令配套：结合自然语言描述与网页前端组件实现真实交互逻辑 [18] 行业启示 - 评估盲区突破：揭示现有Benchmark忽略验证码的局限性，推动真实场景测试标准 [4][7][33] - 技术优化方向：需提升Agent在动态交互中的抽象与规划能力，平衡性能与成本效率 [25][31] - 未来挑战：验证码设计需随Agent能力进化同步更新，形成技术对抗循环 [34]