OpenAI 3万亿美元测试,AI首战44个行业人类专家
36氪·2025-09-26 17:47

AI发展新阶段 - AI发展进入新阶段,关注点从通用人工智能转向超级人工智能,后者旨在全面超越人类智能 [1] - OpenAI研究路线图的下一个重点是推理,未来5年目标是打造能自动发现新想法、自动化研究工作的AI系统 [1] GDPval评估体系 - OpenAI推出全新评估体系GDPval,旨在基于真实工作任务审视AI进步轨迹,而非凭空臆测 [2] - 该评估体系覆盖9大行业、44种职业,涉及每年共计3万亿美元经济价值的真实工作任务 [12] - 任务集包含1,320个高度专业化任务,源于法律意见书、工程图纸等真实工作产出,其中220项为金标任务子集并已开源 [14] - 每项任务平均经历5轮专家评审,确保高度贴近实际工作场景、可由专业人士独立完成且具备明确评估标准 [16] - 与传统评估不同,GDPval要求模型处理完整参考材料与工作背景,输出形式包括文档、PPT、图表、电子表格甚至多媒体内容 [17] 模型性能表现 - 在220项金标任务盲测中,Claude Opus 4.1表现最佳,在接近一半的任务上产出与人类专家相当或更好 [7][21] - 从GPT-4o到GPT-5,模型在GDPval任务上的平均表现几乎翻倍,呈现线性进步趋势 [8][22] - 顶尖模型完成GDPval任务的速度和成本平均是人类的1%,约快100倍且便宜100倍 [24] - GPT-5在准确性方面领先,尤其擅长定位专业知识点,而Claude Opus 4.1在美学表现方面最强 [21] 评估方法与优化 - 评估依赖平均拥有14年从业经验的资深专家作为评分员,来自Meta、微软、高盛等顶尖机构 [29][30] - 专家在盲评中判断AI生成结果“优于”、“相当于”或“劣于”人类结果,并制定了详细评分标准 [32] - OpenAI开发了与人类专家评估一致性达66%的自动评分器,但因其局限性未取代人类打分员 [32][34] - 通过增量训练、扩大模型规模、增加推理步骤等方法,可实质性提升模型在GDPval上的性能 [26] 经济影响与未来展望 - GDPval被视为“后人类经济时代”的第一套会计体系,标志着AI产出开始计入GDP [19][20] - 评估表明AI能承接重复性强、结构清晰的任务,为人类腾出时间专注创造性工作 [35] - 当AI以补充而非替代人类的方式运作时,将为经济增长释放巨大潜力 [36]