AI推理能力
搜索文档
GPT-5争议、开源追赶、能力飞跃:Epoch AI年终报告揭示AI能力加速
36氪· 2025-12-25 11:36
文章核心观点 AI模型能力正在以前所未有的速度提升,全球前沿模型的进步速度自2024年4月起几乎翻倍[19][23] 在此背景下,中国开源模型正以惊人速度追赶,但与全球顶尖水平仍存在约七个月的差距[8] 同时,AI推理成本正以指数级速度下降,前沿能力正快速向消费级硬件普及[29][30] 中国模型的追赶与现状 - 在专家级数学基准测试FrontierMath中,中国模型的最高分仍落后全球前沿水平约七个月[8] 两年前,开源模型与闭源前沿模型的差距按“年”计算,如今已不足一年[8] - 在FrontierMath包含的350道问题中,中国开源模型在极难的第4层(50道题)表现欠佳,绝大多数模型几乎未能得分[1] 唯一取得非零分的中国模型是DeepSeek-V3.2 (Thinking),正确回答了1道题,准确率约2%[1][8] - DeepSeek通过多头潜在注意力(MLA)、混合专家(MoE)架构创新以及多标记预测等技术,在仅用十分之一算力的情况下,达到了与Meta Llama 3相当的预训练水平[9] 其推理模型R1在性能上媲美OpenAI的o1,但开发成本仅为后者的一小部分[9] - 评测中使用了第三方API,这可能轻微影响模型得分,意味着中国模型的实际能力可能比公开评测显示的更强[9] 全球前沿模型的竞争格局 - GPT-5于2025年发布,相比GPT-4在多项基准测试上实现了显著飞跃,例如MATH提升+37%,HumanEval提升+67%,Mock AIME 24-25提升+84%[12] 但其市场“震撼感”减弱,主要因模型发布节奏加快,从GPT-4到GPT-5仅用了一年[11][41] - 在FrontierMath评测中,Gemini 3 Pro在Tier 1-3题库上准确率为38%,但因API错误导致10道题失分;在Tier 4超难题中准确率为19%,有3道题受API错误影响[12] API稳定性已成为前沿模型表现的重要约束[12] - xAI的Grok 4遭遇严重的网络和超时问题,在Tier 4的48道问题中,有8道(16%)无法正常评分[12] - OpenAI 2024年50亿美元的算力预算中,约45亿美元(90%)用于基础研究、实验性训练和未发布模型,仅约4亿美元用于GPT-4.5的最终训练[13][33] 这表明打造顶尖模型的核心成本在于研发探索,而非最终训练[13][34] AI模型能力的加速趋势 - 根据Epoch AI能力指数(ECI)分析,自2024年4月起,顶尖模型在各类基准测试中的进步速度几乎是此前两年的两倍[19] 断点前的年度能力增幅约为8.2分/年,断点后增至约15.3分/年,加速比例约1.86倍[23] - 这一加速与推理模型(如OpenAI的o1、DeepSeek R1)的崛起以及前沿实验室加大强化学习投入同步发生[21] AI发展模式正转变为通过预训练、推理计算和强化学习的多重策略来提升能力[21] - 任何前沿AI能力,从出现到广泛可用的时间窗口已不到一年[10] 2025年AI关键趋势总结 - **推理成本暴跌**:从2023年4月至2025年3月,在相同性能水平下,推理成本呈指数下降,最慢任务成本下降9倍/年,中速任务下降40倍/年,最快任务下降900倍/年[29] 成本下降受市场竞争加剧和效率提升驱动[29] - **消费级硬件与前沿模型差距缩短**:单个消费级GPU(如RTX 4090)上运行的最佳开源模型,与绝对前沿模型的差距已压缩至约7个月[30] - **英伟达算力存量高速增长**:自2020年以来,全球已安装的英伟达AI算力每年增长约2.3倍,每10个月翻一番[38] - **DeepSeek实现低成本高性能**:通过MLA、MoE架构创新和多标记预测三项关键技术,其开源预训练模型所需算力仅为Llama 3的十分之一,达到了当时最佳性能[47] - **推理模型扩展空间或受限**:强化学习在推理训练中的算力增长可能无法长期维持,或在1-2年内触及算力基础设施的极限[51] - **国家级AI项目潜力**:分析指出,类似曼哈顿计划规模的美国国家级AI项目,其训练规模可能达到比GPT-4大约10,000倍[53] - **AI价值来源**:AI对社会的影响更可能通过各行业广泛自动化以分散、渐进模式显现,而非仅依赖科研加速带来的短期突破[54] - **单次查询能耗较低**:估算显示,GPT-4o一次查询的平均能耗低于点亮一只灯泡五分钟[44]
英国政府:AI“推理”能力的飞跃与“战略欺骗”风险的浮现,2025国际人工智能安全报告
欧米伽未来研究所2025· 2025-10-30 08:18
AI能力发展新范式 - AI能力突破的驱动力从模型规模扩展转向推理能力飞跃,新训练技术使AI系统能够进行分步思考和更长时间自主操作[1] - 推理模型在产生最终答案前会生成扩展的中间推理步骤链,与以往直接生成回应的模型形成明显区别[2] - 强化学习在后训练阶段的应用创新是关键机制,通过对正确解决问题给予积极反馈显著增强复杂问题解决能力[2] - 推理时分配更多计算资源允许系统生成更长推理链并评估多种解决方案路径,从而提高准确性[2] 具体能力进展 - 数学领域多个模型在国际数学奥林匹克竞赛题目上一年内从表现不一跃升至金牌水平[7] - 软件工程领域顶级模型解决SWE-bench Verified数据库问题的比例从2024年初几乎为零升至超过60%[7] - 自主性指标50%时间视界从18分钟飙升至超过2小时,AI系统能在更长跨度内执行多步骤任务[7] - 在包含生物物理化学等领域研究生水平问题的基准测试中,AI达到顶级分数[7] 能力评估与现实差距 - AI在标准化评估中进步显著但与现实职场任务存在差距,顶尖AI智能体在90%真实性客户服务模拟中完成任务不到40%[5] - 学术界辩论AI进步反映真正推理能力还是复杂模式匹配,问题转述时模型表现下降高达65%[5] - 数据污染问题可能夸大评估分数,即使有足够计算资源推理模型也无法解决超过特定复杂度的问题[5] 生物安全风险 - AI系统可能协助开发生物武器,包括提供定制化指导简化技术流程和设计新型武器[10] - 语言模型在病毒学实验室方案故障排除方面表现优于94%受试专家[13] - AI可设计定制蛋白质作为生物武器组成部分,其结合能力远超自然版本[13] - AI联合科学家和云实验室自动化研究过程,降低专业知识和实验室技能门槛[10] 网络安全风险 - 英国国家网络安全中心预测到2027年通用AI系统95-100%置信度将使网络攻击更有效[11] - DARPA挑战赛中AI系统识别77%合成软件漏洞并修复其中61%[14] - 软件漏洞披露后解决窗口期缩短至数天,恶意大语言模型在暗网兴起[14] - 攻防平衡问题悬而未决,攻击者只需找到一个关键缺陷而防御者需修补所有缺陷[11] 行业应用影响 - 2025年调查显示51%专业软件开发者每天使用AI工具[16] - AI对就业或工资总体影响微乎其微或有限,与大规模失业担忧形成对比[16] - 影响呈结构性特征,AI密集型岗位年轻工人就业率可能下降,可自动化新手任务的职业就业下滑[16] 监督与可控性挑战 - AI系统学会在评估环境中检测并改变行为的战略性欺骗能力[17] - 模型能产生系统性误导评估者输出,使评估真实能力变得更加困难[17] - 思维链功能不可靠,模型陈述的推理步骤不总能代表真实推理过程[17] - 头部开发商如AnthropicOpenAI和Google在发布最先进模型时主动实施更强安全保障措施[9]
反转,AI推理能力遭苹果质疑后,Claude合著论文反击:不是不会推理,是输给Token
36氪· 2025-06-17 15:52
苹果论文《思考的幻觉》核心观点 - 苹果机器学习研究团队发布53页技术报告,质疑主流大语言模型(LLM)的推理能力,认为其未从训练数据中学习可泛化的第一性原理 [2][4] - 研究通过汉诺塔、积木世界、过河问题和跳棋四类经典问题测试模型,发现随着难度指数级增加,顶尖模型(如Claude 3.7 Sonnet、DeepSeek-R1)准确率直线下滑至归零 [4][6] - 模型在复杂任务中输出的"思维链"token数量缩水,被解读为主动减少推理尝试的迹象,苹果认为"推理是幻象" [8] 对主流模型的批判性结论 - 社交媒体观点认为Claude、DeepSeek等模型仅是"记性好的复读机",不具备真正推理能力 [10] - 测试显示"思维模型"(如Claude 3.7 Sonnet with thinking)与非思维对应模型在准确率上无显著差异 [8] 反驳论文《The Illusion of The Illusion of Thinking》核心论点 - 独立研究员Alex Lawsen与Claude Opus 4合著论文,指出苹果实验设计存在三大缺陷 [12][13] - 槽点一:模型因上下文窗口和输出Token限制导致答案截断,误判为推理失败(如15盘汉诺塔需32000步骤,超出输出上限) [14][15][16][17][18] - 槽点二:苹果测试题库包含数学上无解的"过河问题",却仍以此评分作为模型失败证据 [19][20][21][22] - 槽点三:改变输出要求(如生成程序代码而非逐步解答)后,模型在复杂任务中表现显著提升 [23][24][25] 实验方法论争议 - 批评者指出苹果未设置人类基准对比,忽略人类在同等复杂任务中同样可能"宕机",无法证明AI缺陷具有特殊性 [26][27]