Workflow
Neuralese
icon
搜索文档
Claude 4 核心成员访谈:提升 Agent 独立工作能力,强化模型长程任务能力是关键
Founder Park· 2025-05-28 21:13
「2025 年最大的变化,是强化学习在大语言模型训练上终于开始奏效了。」 这是 Anthropic 的两位研究员,Sholto Douglas(专注于强化学习)和 Trenton Bricken(研究机制可解释 性)对于今年模型趋势变化的总结。 Gemini 2.5 Pro 和 Claude Opus 4 的发布也变相证明了这个判断。 在 Dwarkesh Podcast 这期两个半小时的采访中,两位研究员对于 RLVR(可验证奖励的强化学习)、模 型的自我意识、以及 Claude 一直专注的「模型可解释性」做了深入的讨论。 尤其是模型以及 Agent 之后的发展方向,比如人类驾驭多个 Agent 的可能性、以及现阶段应该提高模型 的底线,而不是去追究极致。还有 AI 白领在未来两年的可能性,毕竟「Agent 操作电脑」并不难,只 要环境具备。 他们还夸奖了 DeepSeek 在模型研发上的「品味」,颇有种「惺惺相惜」的感觉。 两个半小时的采访,我们还摘录了 Sholto Douglas 在另外一期播客的部分回答,聊得很深入而且很透 彻。 TLDR: 2025 年最大的变化是强化学习技术在语言模型上真正奏效了 ...
别只盯着7小时编码,Anthropic爆料:AI小目标是先帮你拿诺奖
36氪· 2025-05-26 19:06
5月23日凌晨,OpenAI的强劲对手Anthropic发布了其最新升级的大模型Claude 4,号称是目前最强的编程模型,甚至能实现长达7小时的 持续编码。那么,Claude 4究竟是如何"思考"的?Anthropic又是如何实现技术突破的? 知名科技播客主持人德瓦克什·帕特尔就此采访了Anthropic的两位研究员:肖尔托·道格拉斯与特伦顿·布里肯。其中,道格拉斯专注于强 化学习(RL)的扩展问题,布里肯则聚焦于大语言模型的涌现能力、安全对齐以及可解释性等前沿领域。 在这场对话中,三人围绕过去一年AI研究的重大进展、新一代强化学习范式的潜力、如何理解模型的"思考过程",以及国家应如何应对 AGI带来的变革展开了深入探讨。 知名科技播客主持人德瓦克什·帕特尔 以下为此次访谈精华内容: 01 AI将首先帮助科学家获得诺贝尔奖 然后才是普利策奖 问:过去一年AI研究最大的变化是什么? 道格拉斯:应该是强化学习(RL)终于在大语言模型上的应用取得了实质性突破。我们现在拥有了一种算法,在合适的反馈机制下,可 以实现"专家级人类表现"和高度稳定性。目前,这一成果主要在竞技编程和数学任务中得到了验证。你可以将任务分为两 ...