OpenAI测试称GPT-5媲美专家

文章核心观点 - OpenAI发布名为GDPval的新基准测试，旨在评估AI模型在经济价值工作上与行业专家的表现差距，这是其开发通用人工智能（AGI）的关键环节[1] - 测试结果显示，GPT-5和竞争对手Anthropic的Claude Opus 4.1模型已接近行业专家的工作质量，但AI目前仅涵盖人类实际工作中的有限任务[1] - OpenAI认为GDPval的进展具有重要意义，表明AI可以帮助从业者节省时间以专注于更有价值的工作，并且模型能力提升迅速[3] GDPval基准测试概述 - GDPval基于美国GDP贡献最大的九个行业，包括医疗、金融、制造业和政府等领域，覆盖了44种职业[1] - 测试方法为邀请资深专业人士对比AI生成的报告与其他专业人士的成果，并挑选出更优者，例如要求投行人员为特定行业制作竞争格局分析并与AI报告对比[2] - 测试将AI模型在全部44个职业中对抗人类报告的"胜率"进行平均计算[2] 模型测试结果 - GPT-5-high（高算力版本）在40.6%的情况下被评为优于或与行业专家持平[2] - Anthropic的Claude Opus 4.1模型在49%的任务中被评为不输于行业专家，表现超过了OpenAI的模型[2] - OpenAI解释Claude得分更高的部分原因是其倾向于生成更美观的图表，而非纯粹性能更优[2] 测试局限性与未来计划 - GDPval-v0仅测试提交研究报告这一项内容，而大多数职业的工作远不止于此[2] - OpenAI承认测试的局限性，并计划在未来开发更全面的测试，涵盖更多行业和交互式工作流程[2] 行业影响与趋势展望 - 测试结果表明从业者可以利用AI模型节省时间，从而专注于更有意义的工作[3] - 约15个月前发布的GPT-4o模型得分仅为13.7%，而GPT-5的成绩几乎提高了三倍，预计这一趋势还会继续[3]