Claude Opus4.1
搜索文档
新型「验证码」诞生?这张图让 ChatGPT、Claude、Gemini 都翻了车
36氪· 2025-10-27 18:21
光学错觉作为AI检测器的概念 - 一种基于网格的光学错觉图片,其中心形图案需通过退后观察或眯眼才能被人类视觉系统感知 [1] - 该概念认为人类大脑的生物特性与AI的计算特性存在显著差异,因此可作为一种“AI检测器” [2] - 这种现象源于人类视觉系统的侧抑制机制,会在网格交叉点产生虚幻的暗色斑点或形状感知 [3] 主要AI模型在测试中的表现 - 测试在社交媒体引发广泛关注,获得近50万浏览量,网友对多款主流大模型进行了测试 [5] - GPT-5 Pro、GPT-5和Claude Opus 4.1在初始测试中均未能正确识别隐藏的心形图案 [5][6] - 谷歌Gemini在被直接询问是否看到心形时,给出了否定的回答 [8] - Grok模型在测试中要么无法识别图案,要么错误地识别出单词“JESUS” [9][10] 影响AI识别结果的关键因素 - 提示词的有效性对结果有显著影响,有用户在直接提示“Find the hidden shape”后,GPT-5 Pro给出了正确答案 [12] - 要求模型“看完整个图片”或先让图像模糊化(模拟眯眼效果)等特定指令,能帮助ChatGPT和Claude等模型最终识别出心形 [17][19] - 有测试通过录屏证实,GPT-5 Pro在思考近4分钟后能正确识别出熊猫图片,表明其识别能力与思考时间和具体任务相关 [15] 关于测试有效性与潜在应用的讨论 - 有观点质疑该测试的有效性,认为其并非严谨的基准测试,而是社交媒体上的随机想法 [21] - 类似的动态视觉测试(如暂停后字母或宝剑消失的视频)也被用于考验AI模型(如Gemini),并引发了关于其作为新型验证码以检测机器人的讨论 [22][23]
新型「验证码」诞生?这张图让 ChatGPT、Claude、Gemini 都翻了车
机器之心· 2025-10-27 16:44
文章核心观点 - 一种基于网格的光学错觉现象被用作区分人类视觉系统与人工智能图像识别能力的测试工具 [2][4] - 该测试在社交媒体上获得近50万浏览量,引发大量用户对不同主流大模型进行测试,结果显示多数AI模型在无提示情况下识别失败 [4][6] - 部分AI模型在获得特定提示词或指令后能够正确识别出隐藏形状,表明提示工程对AI性能有关键影响 [14][19] 光学错觉原理与AI测试背景 - 测试图案是一种典型的网格光学错觉,类似于赫尔曼网格错觉,其原理源于人类视觉系统的侧抑制机制 [4] - 人类大脑因生物特性容易受错觉影响而产生虚幻感知,而AI依赖计算和算法,这种差异使其成为有效的“AI检测器” [4] 主流AI模型测试表现 - GPT-5 Pro在无提示情况下思考10多分钟后错误识别为倾斜的方形(菱形),GPT-5错误识别为熊猫,Claude Opus 4.1直接表示未发现隐藏图像 [6][7] - 谷歌Gemini在被直接询问是否看到心形时干脆回复“没有” [9] - Grok模型在测试中要么识别失败,要么错误识别为单词“JESUS” [10][12] 成功识别案例与关键因素 - 有用户通过直接上传图片并输入“Find the hidden shape”提示词,使GPT-5 Pro成功识别出心形 [14] - 通过要求AI模型观察整个图片而非聚焦局部元素,或指示其“模糊图像”模拟人眼眯眼动作,可显著提高识别准确率 [19][21] - 有录屏证据表明GPT-5 Pro的成功识别未依赖网络搜索功能 [17] 其他相关视觉测试案例 - 存在类似动态视觉测试,如晃动字母“tldraw”的视频在暂停时字母消失,以及左右移动的宝剑视频在暂停时消失 [24][25] - 在这些动态测试中,谷歌Gemini模型也出现识别失败的情况 [26]
中航证券:政策护航+应用提速 AI有望加速释放新质生产力
智通财经网· 2025-09-01 09:59
政策支持与行业规划 - 国务院印发《深入实施"人工智能+"行动的意见》明确科学技术、产业发展、消费提质等六大深度融合领域并提出强化八大基础支撑能力为行业发展划定战略主线[1] - 国家发改委设定2027、2030、2035三个阶段性目标形成清晰的中长期发展路线并强调未来一到两年是人工智能应用加速落地的关键窗口期[1] - 人工智能测评服务体系已落地覆盖企业超60家累计服务100余次推动标准化、体系化的产业测评建设[1] 技术迭代与突破 - Claude Opus4.1在代理、编码和推理能力全面升级显著强化长期与复杂任务处理能力[2] - 智谱AI发布GLM-4.5V在图像、视频、文档理解等视觉推理任务上实现同级开源VLM最佳性能[2] - xAI推出Grok Code Fast1主打快速编程与低成本推理缓存命中率超90%突出实用与经济性[2] - OpenAI推出GPT-Realtime与Realtime API在语音质量、指令遵循和低延迟方面取得突破已在语音代理场景中应用[2] 应用落地与产业化 - 大模型的多维度升级将加快向教育、影视等场景渗透应用落地与产业化进程提速[1][3] - 短期政策落地与标准化测评体系推动行业进入规范化、可持续发展轨道中长期技术升级加速场景渗透[1][3] - 人工智能产业处于政策、技术、应用的多重共振阶段[1][3] 投资主线与标的 - 大模型开发与AI Agent能力提供商重点关注昆仑万维(300418.SZ)、科大讯飞(002230.SZ)[3] - AI落地场景应用重点关注焦点科技(002315.SZ)、奥飞娱乐(002292.SZ)、值得买、上海电影、恺英网络、中文在线、万兴科技[3]
OpenAI发布其最强大的AI模型GPT-5
证券时报网· 2025-08-08 08:23
产品发布 - OpenAI发布最强大AI模型GPT-5 结合o系列模型推理能力与GPT系列快速响应能力 [1] - GPT-5对所有ChatGPT用户开放 免费用户可使用 付费用户(Plus/Pro/Team)获更高额度或无限使用权限 [1] 技术性能 - GPT-5在SWE-bench Verified编码基准测试中准确率达74.9% 略高于Anthropic Claude Opus4.1 [1] - 模型幻觉问题显著改善 HealthBench Hard Hallucinations测试错误信息率仅1.6% 远低于GPT-4o的15.8% [1] - 引入新安全训练模式"安全补全" 使模型在安全范围内提供最有帮助答案 [1] 商业整合 - 微软将GPT-5整合至Microsoft365Copilot、Copilot、GitHub Copilot及Azure AI Foundry等产品 [1] - 整合后为企业与消费者提供GPT-5体验服务 [1]