文章核心观点 AI模型能力正在以前所未有的速度提升,全球前沿模型的进步速度自2024年4月起几乎翻倍[19][23] 在此背景下,中国开源模型正以惊人速度追赶,但与全球顶尖水平仍存在约七个月的差距[8] 同时,AI推理成本正以指数级速度下降,前沿能力正快速向消费级硬件普及[29][30] 中国模型的追赶与现状 - 在专家级数学基准测试FrontierMath中,中国模型的最高分仍落后全球前沿水平约七个月[8] 两年前,开源模型与闭源前沿模型的差距按“年”计算,如今已不足一年[8] - 在FrontierMath包含的350道问题中,中国开源模型在极难的第4层(50道题)表现欠佳,绝大多数模型几乎未能得分[1] 唯一取得非零分的中国模型是DeepSeek-V3.2 (Thinking),正确回答了1道题,准确率约2%[1][8] - DeepSeek通过多头潜在注意力(MLA)、混合专家(MoE)架构创新以及多标记预测等技术,在仅用十分之一算力的情况下,达到了与Meta Llama 3相当的预训练水平[9] 其推理模型R1在性能上媲美OpenAI的o1,但开发成本仅为后者的一小部分[9] - 评测中使用了第三方API,这可能轻微影响模型得分,意味着中国模型的实际能力可能比公开评测显示的更强[9] 全球前沿模型的竞争格局 - GPT-5于2025年发布,相比GPT-4在多项基准测试上实现了显著飞跃,例如MATH提升+37%,HumanEval提升+67%,Mock AIME 24-25提升+84%[12] 但其市场“震撼感”减弱,主要因模型发布节奏加快,从GPT-4到GPT-5仅用了一年[11][41] - 在FrontierMath评测中,Gemini 3 Pro在Tier 1-3题库上准确率为38%,但因API错误导致10道题失分;在Tier 4超难题中准确率为19%,有3道题受API错误影响[12] API稳定性已成为前沿模型表现的重要约束[12] - xAI的Grok 4遭遇严重的网络和超时问题,在Tier 4的48道问题中,有8道(16%)无法正常评分[12] - OpenAI 2024年50亿美元的算力预算中,约45亿美元(90%)用于基础研究、实验性训练和未发布模型,仅约4亿美元用于GPT-4.5的最终训练[13][33] 这表明打造顶尖模型的核心成本在于研发探索,而非最终训练[13][34] AI模型能力的加速趋势 - 根据Epoch AI能力指数(ECI)分析,自2024年4月起,顶尖模型在各类基准测试中的进步速度几乎是此前两年的两倍[19] 断点前的年度能力增幅约为8.2分/年,断点后增至约15.3分/年,加速比例约1.86倍[23] - 这一加速与推理模型(如OpenAI的o1、DeepSeek R1)的崛起以及前沿实验室加大强化学习投入同步发生[21] AI发展模式正转变为通过预训练、推理计算和强化学习的多重策略来提升能力[21] - 任何前沿AI能力,从出现到广泛可用的时间窗口已不到一年[10] 2025年AI关键趋势总结 - 推理成本暴跌:从2023年4月至2025年3月,在相同性能水平下,推理成本呈指数下降,最慢任务成本下降9倍/年,中速任务下降40倍/年,最快任务下降900倍/年[29] 成本下降受市场竞争加剧和效率提升驱动[29] - 消费级硬件与前沿模型差距缩短:单个消费级GPU(如RTX 4090)上运行的最佳开源模型,与绝对前沿模型的差距已压缩至约7个月[30] - 英伟达算力存量高速增长:自2020年以来,全球已安装的英伟达AI算力每年增长约2.3倍,每10个月翻一番[38] - DeepSeek实现低成本高性能:通过MLA、MoE架构创新和多标记预测三项关键技术,其开源预训练模型所需算力仅为Llama 3的十分之一,达到了当时最佳性能[47] - 推理模型扩展空间或受限:强化学习在推理训练中的算力增长可能无法长期维持,或在1-2年内触及算力基础设施的极限[51] - 国家级AI项目潜力:分析指出,类似曼哈顿计划规模的美国国家级AI项目,其训练规模可能达到比GPT-4大约10,000倍[53] - AI价值来源:AI对社会的影响更可能通过各行业广泛自动化以分散、渐进模式显现,而非仅依赖科研加速带来的短期突破[54] - 单次查询能耗较低:估算显示,GPT-4o一次查询的平均能耗低于点亮一只灯泡五分钟[44]
GPT-5争议、开源追赶、能力飞跃:Epoch AI年终报告揭示AI能力加速
36氪·2025-12-25 11:36