可废止推理 - 财报，业绩电话会，研报，新闻 - Reportify

可废止推理

搜索文档

“我没错”GPT-4o嘴硬翻车，AI在黑天鹅事件面前集体宕机

36氪· 2025-07-16 19:19

人工智能模型推理能力研究 - 顶尖视觉语言模型（如GPT-4o和Gemini 1.5 Pro）在处理意外事件时的推理能力显著落后于人类，差距最高达32% [2] - 当前AI评估方式存在根本性问题，主要围绕"常规模式"构建，而现实世界充满"黑天鹅事件" [4] - 人类依赖溯因推理和可废止推理处理意外事件，这两种能力对自动驾驶等领域的AI决策至关重要 [4][5] 黑天鹅套件基准测试 - 研究团队构建了包含1655个非常规场景视频的"BlackSwanSuite"基准测试，涵盖交通事故、儿童失误等场景 [8] - 测试包含三大核心任务："预测者"（预测事件发展）、"侦探"（溯因推理）、"报告者"（可废止推理），共计超过15000个问题 [11][12] 模型性能表现 - 在"侦探"任务中，表现最好的GPT-4o准确率比人类低24.9% [14] - 在"报告者"任务中，GPT-4o与人类的差距达32%，显示AI难以根据新证据修正初始判断 [15][16] - 开源模型（如LLaVA-Video、VILA-1.5）表现普遍低于闭源模型，多项选择题准确率最高落后人类25% [13][14] 模型缺陷案例分析 - AI模型对非常规场景（如垃圾车掉树、枕头触发装饰物掉落）表现出僵化思维，拒绝修正错误初始判断 [18][19][20] - 模型依赖训练数据的统计模式而非因果关系理解，导致对偏离常规的场景处理能力不足 [21][22] 问题根源实验 - 当直接提供人类撰写的视频描述时，模型推理准确率提升10%，表明基础感知能力是当前AI的核心短板之一 [24][25][26]

可废止推理

可废止推理