OpenAI测试称GPT-5媲美专家
36氪·2025-09-26 09:27
OpenAI表示,其GPT-5模型以及竞争对手Anthropic公司的Claude Opus 4.1"已经接近行业专 家的工作质量"。 当地时间周四(9月25日),人工智能(AI)研究公司OpenAI发布了一项新的基准测试,用于比较其AI 模型与各行业专业人士的工作表现。 这项测试名为GDPval,是一次初步尝试,旨在评估OpenAI的系统距离在经济价值工作上超越人类有多 近。而经济价值工作是OpenAI开发通用人工智能(AGI)的关键环节。 OpenAI周四表示,其GPT-5模型以及竞争对手Anthropic公司的Claude Opus 4.1"已经接近行业专家的工 作质量"。 例如,某项任务要求投行人员为"最后一公里配送行业"制作竞争格局分析,并与AI生成的报 告进行对比。OpenAI随后将AI模型在全部44个职业中对抗人类报告的"胜率"进行平均计 算。 结果显示,GPT-5-high(高算力版本GPT-5)在40.6%的情况下被评为优于或与行业专家持平。 而Anthropic的Claude Opus 4.1模型则在49%的任务中被评为不输于行业专家,这一表现超过了OpenAI的 模型。 OpenAI对此 ...