GDPval
搜索文档
OpenAI研究大模型对GDP贡献,三大行业已能代替人类,并自曝不敌Claude
机器之心· 2025-09-27 14:13
GDPval评估方法 - OpenAI推出名为GDPval的新评估方法 用于跟踪模型在具有经济价值的现实世界任务上的表现[1] - 该方法以国内生产总值(GDP)作为关键经济指标 从对GDP贡献最大的行业中的关键职业中提取任务[3] - GDPval是首个版本 涵盖从对美国GDP贡献最大的9个行业中甄选出的44个职业 如软件开发人员 律师 注册护士和机械工程师等[16] 评估结果与模型表现 - 在GDPval黄金数据集的220项任务中 前沿模型已接近行业专家的工作质量[3][4] - Claude Opus 4.1是该数据集中表现最佳的模型 在49%的任务中被评为优于或与行业专家相当[9] - GPT-5在准确性方面更为出色 从2024年春季的GPT-4o到2025年夏季的GPT-5 性能提高了一倍多[9][10] - 前沿模型完成GDPval任务的速度比行业专家快约100倍 成本也低100倍[13] - AI在政府部门 零售和批发上的能力已经达到或超越人类水平[7] 评估体系设计 - GDPval全套评估包含1320项专业任务 黄金开源评估包含220项任务[18] - 每项任务均由平均拥有超过14年相关领域从业经验的专业人士设计并审核[18] - 每项任务基于真实工作成果 如法律摘要 工程蓝图 客户支持对话或护理计划 经过至少5轮审查[18] - 任务附带参考文件和上下文 预期交付成果涵盖文档 幻灯片 图表 电子表格和多媒体[19] 评估方法 - 通过专家评分员在盲评下比较AI和人类的交付成果 给出"更好" "相当"或"更差"的排名[21] - 任务编写者制定详细评分标准确保一致性和透明度[21] - OpenAI开发了"自动评分员"作为辅助工具 但目前可靠性不如专家评分员[21] 未来发展与影响 - OpenAI计划继续扩展GDPval 涵盖更多职业 行业和任务类型 提高交互性[22] - 模型能够比专家更快 更低成本地完成重复性 明确规定的任务[21] - 人工智能可以处理日常任务 让人们将更多时间投入到创造性和判断性较强的工作中[21] - 人工智能补充工人可以转化为显著的经济增长[21]
AI Isn't Taking Your Job Yet—But It Might Soon, OpenAI Data Suggests
Yahoo Finance· 2025-09-26 23:20
GDP-评估基准与研究对象 - OpenAI发布GDP-评估基准,旨在定性评估AI执行实际工作的能力,其评估对象是真实的工作成果而非假设性问题[1] - 研究聚焦于至少60%工作任务基于计算机的职业,即“以数字化为主”的岗位[1] - 研究范围涵盖专业服务、金融保险、信息技术、医疗管理、白领制造业及销售或房地产管理等多个行业[1] AI影响的工作类型与暴露程度 - AI影响最大的工作类型与大型语言模型擅长的数字化、知识密集型活动高度重叠[2] - 研究明确排除了建筑、维修、农业等需要体力劳动的领域,突显第一波颠覆性影响将冲击白领及办公室工作[2] - 先前研究显示高达80%的美国劳动者至少10%的任务可能受LLMs影响,约19%的劳动者至少50%的任务可能受影响[3] - 受影响最显著的工作为白领、知识密集型岗位,尤其是在法律、写作、分析和客户互动领域[3] AI发展轨迹与未来影响 - AI技术发展轨迹显示,按照当前速度,AI可能在2027年前在各个领域达到人类专家水平[4] - 此进展已接近通用人工智能标准,意味着目前被认为不适合或过于专业而无法自动化的工作可能很快被机器替代[4] 高风险行业与职业分析 - 软件开发行业在数据集中代表最大的工资池,且特别容易受到AI影响[5] - 法律和会计工作因其对文件和结构化推理的高度依赖,以及金融分析师和客户服务代表,均属于高风险职业[5] - 内容生产角色,如编辑、记者和其他媒体工作者,因AI在语言和多媒体生成能力上的进步而面临巨大压力[5]