GPT-5争议、开源追赶、能力飞跃：Epoch AI年终报告揭示AI能力加速

文章核心观点 AI模型能力正在以前所未有的速度提升，全球前沿模型的进步速度自2024年4月起几乎翻倍[19][23] 在此背景下，中国开源模型正以惊人速度追赶，但与全球顶尖水平仍存在约七个月的差距[8] 同时，AI推理成本正以指数级速度下降，前沿能力正快速向消费级硬件普及[29][30] 中国模型的追赶与现状 - 在专家级数学基准测试FrontierMath中，中国模型的最高分仍落后全球前沿水平约七个月[8] 两年前，开源模型与闭源前沿模型的差距按“年”计算，如今已不足一年[8] - 在FrontierMath包含的350道问题中，中国开源模型在极难的第4层（50道题）表现欠佳，绝大多数模型几乎未能得分[1] 唯一取得非零分的中国模型是DeepSeek-V3.2 (Thinking)，正确回答了1道题，准确率约2%[1][8] - DeepSeek通过多头潜在注意力（MLA）、混合专家（MoE）架构创新以及多标记预测等技术，在仅用十分之一算力的情况下，达到了与Meta Llama 3相当的预训练水平[9] 其推理模型R1在性能上媲美OpenAI的o1，但开发成本仅为后者的一小部分[9] - 评测中使用了第三方API，这可能轻微影响模型得分，意味着中国模型的实际能力可能比公开评测显示的更强[9] 全球前沿模型的竞争格局 - GPT-5于2025年发布，相比GPT-4在多项基准测试上实现了显著飞跃，例如MATH提升+37%，HumanEval提升+67%，Mock AIME 24-25提升+84%[12] 但其市场“震撼感”减弱，主要因模型发布节奏加快，从GPT-4到GPT-5仅用了一年[11][41] - 在FrontierMath评测中，Gemini 3 Pro在Tier 1-3题库上准确率为38%，但因API错误导致10道题失分；在Tier 4超难题中准确率为19%，有3道题受API错误影响[12] API稳定性已成为前沿模型表现的重要约束[12] - xAI的Grok 4遭遇严重的网络和超时问题，在Tier 4的48道问题中，有8道（16%）无法正常评分[12] - OpenAI 2024年50亿美元的算力预算中，约45亿美元（90%）用于基础研究、实验性训练和未发布模型，仅约4亿美元用于GPT-4.5的最终训练[13][33] 这表明打造顶尖模型的核心成本在于研发探索，而非最终训练[13][34] AI模型能力的加速趋势 - 根据Epoch AI能力指数（ECI）分析，自2024年4月起，顶尖模型在各类基准测试中的进步速度几乎是此前两年的两倍[19] 断点前的年度能力增幅约为8.2分/年，断点后增至约15.3分/年，加速比例约1.86倍[23] - 这一加速与推理模型（如OpenAI的o1、DeepSeek R1）的崛起以及前沿实验室加大强化学习投入同步发生[21] AI发展模式正转变为通过预训练、推理计算和强化学习的多重策略来提升能力[21] - 任何前沿AI能力，从出现到广泛可用的时间窗口已不到一年[10] 2025年AI关键趋势总结 - 推理成本暴跌：从2023年4月至2025年3月，在相同性能水平下，推理成本呈指数下降，最慢任务成本下降9倍/年，中速任务下降40倍/年，最快任务下降900倍/年[29] 成本下降受市场竞争加剧和效率提升驱动[29] - 消费级硬件与前沿模型差距缩短：单个消费级GPU（如RTX 4090）上运行的最佳开源模型，与绝对前沿模型的差距已压缩至约7个月[30] - 英伟达算力存量高速增长：自2020年以来，全球已安装的英伟达AI算力每年增长约2.3倍，每10个月翻一番[38] - DeepSeek实现低成本高性能：通过MLA、MoE架构创新和多标记预测三项关键技术，其开源预训练模型所需算力仅为Llama 3的十分之一，达到了当时最佳性能[47] - 推理模型扩展空间或受限：强化学习在推理训练中的算力增长可能无法长期维持，或在1-2年内触及算力基础设施的极限[51] - 国家级AI项目潜力：分析指出，类似曼哈顿计划规模的美国国家级AI项目，其训练规模可能达到比GPT-4大约10,000倍[53] - AI价值来源：AI对社会的影响更可能通过各行业广泛自动化以分散、渐进模式显现，而非仅依赖科研加速带来的短期突破[54] - 单次查询能耗较低：估算显示，GPT-4o一次查询的平均能耗低于点亮一只灯泡五分钟[44]