Workflow
人机验证(CAPTCHA)
icon
搜索文档
GPT-4o连验证码都解不了??SOTA模型成功率仅40%
量子位· 2025-06-04 13:21
多模态Agent验证码能力研究 核心观点 - 当前最先进的多模态Agent在验证码解题任务中表现远逊于人类,人类平均成功率93.3%,而SOTA模型仅5%-40% [2][3] - 验证码是Agent实际部署的关键瓶颈,但主流评估基准(如AgentBench、VisualWebArena)刻意回避含验证码的网页场景 [4][7] - Open CaptchaWorld平台填补研究空白,提供20类225个真实交互式验证码,系统性评估Agent的视觉-语言-动作协同能力 [5][6][9] 平台设计特点 - **多样性覆盖**:包含点击顺序、滑块对齐、图像选择等20类商用级验证码,模拟电商/票务等高价值场景 [9] - **交互真实性**:所有验证码部署于网页环境,要求Agent通过截图观察、点击拖动等动作完成端到端操作 [11] - **新评估指标**:提出CAPTCHA Reasoning Depth量化解题复杂度,补充传统静态图像分类评估的不足 [11] 模型性能分析 - **成功率对比**:OpenAI-o3以40%成功率领先,但远低于人类的93.3%,GPT-4o等模型表现更差 [11][3] - **行为缺陷**:Agent普遍存在"过度分解任务"现象,如序列点击任务中拆解为十余步操作,效率低下且易出错 [24][25] - **成本效率**:OpenAI-o3成本最高但性价比低,Gemini2.5-Pro和GPT-4.1在25%成功率下成本更优 [28][29][30] 数据集构建方法 - **四阶段流程**:图像素材构建→验证码生成→推理深度估计→标准注释生成,确保多样性与交互真实性 [14][15][17][19][20] - **视觉多样性**:通过调整目标位置、观察角度等参数生成泛化性强的样本 [16] - **语言指令配套**:结合自然语言描述与网页前端组件实现真实交互逻辑 [18] 行业启示 - **评估盲区突破**:揭示现有Benchmark忽略验证码的局限性,推动真实场景测试标准 [4][7][33] - **技术优化方向**:需提升Agent在动态交互中的抽象与规划能力,平衡性能与成本效率 [25][31] - **未来挑战**:验证码设计需随Agent能力进化同步更新,形成技术对抗循环 [34]