Workflow
可废止推理
icon
搜索文档
“我没错”GPT-4o嘴硬翻车,AI在黑天鹅事件面前集体宕机
36氪· 2025-07-16 19:19
人工智能模型推理能力研究 - 顶尖视觉语言模型(如GPT-4o和Gemini 1.5 Pro)在处理意外事件时的推理能力显著落后于人类,差距最高达32% [2] - 当前AI评估方式存在根本性问题,主要围绕"常规模式"构建,而现实世界充满"黑天鹅事件" [4] - 人类依赖溯因推理和可废止推理处理意外事件,这两种能力对自动驾驶等领域的AI决策至关重要 [4][5] 黑天鹅套件基准测试 - 研究团队构建了包含1655个非常规场景视频的"BlackSwanSuite"基准测试,涵盖交通事故、儿童失误等场景 [8] - 测试包含三大核心任务:"预测者"(预测事件发展)、"侦探"(溯因推理)、"报告者"(可废止推理),共计超过15000个问题 [11][12] 模型性能表现 - 在"侦探"任务中,表现最好的GPT-4o准确率比人类低24.9% [14] - 在"报告者"任务中,GPT-4o与人类的差距达32%,显示AI难以根据新证据修正初始判断 [15][16] - 开源模型(如LLaVA-Video、VILA-1.5)表现普遍低于闭源模型,多项选择题准确率最高落后人类25% [13][14] 模型缺陷案例分析 - AI模型对非常规场景(如垃圾车掉树、枕头触发装饰物掉落)表现出僵化思维,拒绝修正错误初始判断 [18][19][20] - 模型依赖训练数据的统计模式而非因果关系理解,导致对偏离常规的场景处理能力不足 [21][22] 问题根源实验 - 当直接提供人类撰写的视频描述时,模型推理准确率提升10%,表明基础感知能力是当前AI的核心短板之一 [24][25][26]