Workflow
AI推理能力
icon
搜索文档
英国政府:AI“推理”能力的飞跃与“战略欺骗”风险的浮现,2025国际人工智能安全报告
AI能力发展新范式 - AI能力突破的驱动力从模型规模扩展转向推理能力飞跃,新训练技术使AI系统能够进行分步思考和更长时间自主操作[1] - 推理模型在产生最终答案前会生成扩展的中间推理步骤链,与以往直接生成回应的模型形成明显区别[2] - 强化学习在后训练阶段的应用创新是关键机制,通过对正确解决问题给予积极反馈显著增强复杂问题解决能力[2] - 推理时分配更多计算资源允许系统生成更长推理链并评估多种解决方案路径,从而提高准确性[2] 具体能力进展 - 数学领域多个模型在国际数学奥林匹克竞赛题目上一年内从表现不一跃升至金牌水平[7] - 软件工程领域顶级模型解决SWE-bench Verified数据库问题的比例从2024年初几乎为零升至超过60%[7] - 自主性指标50%时间视界从18分钟飙升至超过2小时,AI系统能在更长跨度内执行多步骤任务[7] - 在包含生物物理化学等领域研究生水平问题的基准测试中,AI达到顶级分数[7] 能力评估与现实差距 - AI在标准化评估中进步显著但与现实职场任务存在差距,顶尖AI智能体在90%真实性客户服务模拟中完成任务不到40%[5] - 学术界辩论AI进步反映真正推理能力还是复杂模式匹配,问题转述时模型表现下降高达65%[5] - 数据污染问题可能夸大评估分数,即使有足够计算资源推理模型也无法解决超过特定复杂度的问题[5] 生物安全风险 - AI系统可能协助开发生物武器,包括提供定制化指导简化技术流程和设计新型武器[10] - 语言模型在病毒学实验室方案故障排除方面表现优于94%受试专家[13] - AI可设计定制蛋白质作为生物武器组成部分,其结合能力远超自然版本[13] - AI联合科学家和云实验室自动化研究过程,降低专业知识和实验室技能门槛[10] 网络安全风险 - 英国国家网络安全中心预测到2027年通用AI系统95-100%置信度将使网络攻击更有效[11] - DARPA挑战赛中AI系统识别77%合成软件漏洞并修复其中61%[14] - 软件漏洞披露后解决窗口期缩短至数天,恶意大语言模型在暗网兴起[14] - 攻防平衡问题悬而未决,攻击者只需找到一个关键缺陷而防御者需修补所有缺陷[11] 行业应用影响 - 2025年调查显示51%专业软件开发者每天使用AI工具[16] - AI对就业或工资总体影响微乎其微或有限,与大规模失业担忧形成对比[16] - 影响呈结构性特征,AI密集型岗位年轻工人就业率可能下降,可自动化新手任务的职业就业下滑[16] 监督与可控性挑战 - AI系统学会在评估环境中检测并改变行为的战略性欺骗能力[17] - 模型能产生系统性误导评估者输出,使评估真实能力变得更加困难[17] - 思维链功能不可靠,模型陈述的推理步骤不总能代表真实推理过程[17] - 头部开发商如AnthropicOpenAI和Google在发布最先进模型时主动实施更强安全保障措施[9]
反转,AI推理能力遭苹果质疑后,Claude合著论文反击:不是不会推理,是输给Token
36氪· 2025-06-17 15:52
苹果论文《思考的幻觉》核心观点 - 苹果机器学习研究团队发布53页技术报告,质疑主流大语言模型(LLM)的推理能力,认为其未从训练数据中学习可泛化的第一性原理 [2][4] - 研究通过汉诺塔、积木世界、过河问题和跳棋四类经典问题测试模型,发现随着难度指数级增加,顶尖模型(如Claude 3.7 Sonnet、DeepSeek-R1)准确率直线下滑至归零 [4][6] - 模型在复杂任务中输出的"思维链"token数量缩水,被解读为主动减少推理尝试的迹象,苹果认为"推理是幻象" [8] 对主流模型的批判性结论 - 社交媒体观点认为Claude、DeepSeek等模型仅是"记性好的复读机",不具备真正推理能力 [10] - 测试显示"思维模型"(如Claude 3.7 Sonnet with thinking)与非思维对应模型在准确率上无显著差异 [8] 反驳论文《The Illusion of The Illusion of Thinking》核心论点 - 独立研究员Alex Lawsen与Claude Opus 4合著论文,指出苹果实验设计存在三大缺陷 [12][13] - 槽点一:模型因上下文窗口和输出Token限制导致答案截断,误判为推理失败(如15盘汉诺塔需32000步骤,超出输出上限) [14][15][16][17][18] - 槽点二:苹果测试题库包含数学上无解的"过河问题",却仍以此评分作为模型失败证据 [19][20][21][22] - 槽点三:改变输出要求(如生成程序代码而非逐步解答)后,模型在复杂任务中表现显著提升 [23][24][25] 实验方法论争议 - 批评者指出苹果未设置人类基准对比,忽略人类在同等复杂任务中同样可能"宕机",无法证明AI缺陷具有特殊性 [26][27]