文章核心观点 - OpenAI发布名为GDPval的新基准测试,旨在评估AI模型在经济价值工作上与行业专家的表现差距,这是其开发通用人工智能(AGI)的关键环节[1] - 测试结果显示,GPT-5和竞争对手Anthropic的Claude Opus 4.1模型已接近行业专家的工作质量,但AI目前仅涵盖人类实际工作中的有限任务[1] - OpenAI认为GDPval的进展具有重要意义,表明AI可以帮助从业者节省时间以专注于更有价值的工作,并且模型能力提升迅速[3] GDPval基准测试概述 - GDPval基于美国GDP贡献最大的九个行业,包括医疗、金融、制造业和政府等领域,覆盖了44种职业[1] - 测试方法为邀请资深专业人士对比AI生成的报告与其他专业人士的成果,并挑选出更优者,例如要求投行人员为特定行业制作竞争格局分析并与AI报告对比[2] - 测试将AI模型在全部44个职业中对抗人类报告的"胜率"进行平均计算[2] 模型测试结果 - GPT-5-high(高算力版本)在40.6%的情况下被评为优于或与行业专家持平[2] - Anthropic的Claude Opus 4.1模型在49%的任务中被评为不输于行业专家,表现超过了OpenAI的模型[2] - OpenAI解释Claude得分更高的部分原因是其倾向于生成更美观的图表,而非纯粹性能更优[2] 测试局限性与未来计划 - GDPval-v0仅测试提交研究报告这一项内容,而大多数职业的工作远不止于此[2] - OpenAI承认测试的局限性,并计划在未来开发更全面的测试,涵盖更多行业和交互式工作流程[2] 行业影响与趋势展望 - 测试结果表明从业者可以利用AI模型节省时间,从而专注于更有意义的工作[3] - 约15个月前发布的GPT-4o模型得分仅为13.7%,而GPT-5的成绩几乎提高了三倍,预计这一趋势还会继续[3]
OpenAI测试称GPT-5媲美专家
36氪·2025-09-26 09:27