Workflow
神经语言(Neuralese)
icon
搜索文档
别只盯着7小时编码,Anthropic爆料:AI小目标是先帮你拿诺奖
36氪· 2025-05-26 19:06
5月23日凌晨,OpenAI的强劲对手Anthropic发布了其最新升级的大模型Claude 4,号称是目前最强的编程模型,甚至能实现长达7小时的 持续编码。那么,Claude 4究竟是如何"思考"的?Anthropic又是如何实现技术突破的? 知名科技播客主持人德瓦克什·帕特尔就此采访了Anthropic的两位研究员:肖尔托·道格拉斯与特伦顿·布里肯。其中,道格拉斯专注于强 化学习(RL)的扩展问题,布里肯则聚焦于大语言模型的涌现能力、安全对齐以及可解释性等前沿领域。 在这场对话中,三人围绕过去一年AI研究的重大进展、新一代强化学习范式的潜力、如何理解模型的"思考过程",以及国家应如何应对 AGI带来的变革展开了深入探讨。 知名科技播客主持人德瓦克什·帕特尔 以下为此次访谈精华内容: 01 AI将首先帮助科学家获得诺贝尔奖 然后才是普利策奖 问:过去一年AI研究最大的变化是什么? 道格拉斯:应该是强化学习(RL)终于在大语言模型上的应用取得了实质性突破。我们现在拥有了一种算法,在合适的反馈机制下,可 以实现"专家级人类表现"和高度稳定性。目前,这一成果主要在竞技编程和数学任务中得到了验证。你可以将任务分为两 ...