Workflow
强化学习
icon
搜索文档
让LLM扔块石头,它居然造了个投石机
量子位· 2025-10-22 23:27
BesiegeField团队 投稿 量子位 | 公众号 QbitAI 让LLM扔块石头,结果它发明了投石机? 大模型接到任务:"造一个能把石头扔远的结构。" 谁成想,它真的开始动手造了,在一个真实的物理仿真世界里,一边搭零件,一边看效果,一边修改。 最后,它造的投石机,把石头扔了出去。 这就是来自港中大(深圳)、港中大的研究团队(Wenqian Zhang, Weiyang Liu, Zhen Liu)带来的最新研究—— 《Agentic Design of Compositional Machines》 。 他们推出了一个叫 BesiegeField 的新平台,它就像一个给大模型的"机械工程师训练场",专门测试AI能不能像人一样,从零开始设计并造出 能动的、有功能的复杂机器。 这还没完。 BesiegeField支持上百次的并行实验 ,一旦引入 强化学习(Reinforcement Learning) ,大模型就能 "自我进化" :从反馈 中调整策略,逐步学会结构设计的物理逻辑,最终学会如何 "造出能动的结构" 。 说白了,就是把机械结构限定在"用标准零件组装"这个范围里。每个零件(比如支架、关节)都有标准 ...
OpenAI要让AI替代“初级投行员工”
虎嗅· 2025-10-22 21:24
项目概况与人员构成 - 人工智能公司OpenAI正在进行一项代号为"Mercury"的秘密项目,旨在训练AI模型掌握金融建模等核心技能 [1] - 项目已招募超过100名具有华尔街背景的前投资银行员工,参与者来自摩根大通、摩根士丹利、高盛集团等顶尖金融机构 [1][2] - 参与者阵容还包括来自Brookfield Corp、Mubadala Investment Co、Evercore Inc和KKR & Co等知名投资机构的人才,以及哈佛大学和麻省理工学院的在读MBA学生 [2] 项目运作模式与薪酬 - 项目以合同工形式运作,参与者时薪为150美元,并获得了其帮助创建的AI的早期使用权 [1] - 参与者被要求每周提交一个金融模型,任务包括用简单语言编写提示,并在微软Excel程序中构建模型 [2] - 项目申请流程自动化程度高,包括与AI聊天机器人进行的约20分钟面试、财务报表知识测试及建模能力测试,几乎没有人为干预 [3] 训练目标与行业背景 - 项目目标是"教导"AI像一名初级银行家一样工作,处理如构建复杂的并购模型、根据要求反复修改PPT演示文稿等任务 [1][4] - 训练重点在于让AI学会投行对细节的极致追求,例如模型或演示文稿中美元符号对齐等微小格式错误 [5] - 生成式AI目前被视为"聪明但粗心的分析师",能迅速产出看似合理的模型但往往会出错或出现"幻觉" [5] 对金融行业的影响 - 项目直接目标是让AI替代初级员工的工作,引发对投资银行传统学徒制模式未来的深刻质疑 [6] - 华尔街数十年来依赖于金字塔结构,初级分析师通过处理基础工作学习技能,最优秀者晋升为高级银行家 [6] - 行业分析师项目流动率一直很高,许多人在工作两年后便选择离开,投身于创业或其他行业 [6] OpenAI的商业化战略 - 项目是OpenAI将强大AI技术转化为实用商业工具战略重心的体现,目标服务于金融、咨询、法律等各行业 [1][7] - 作为全球估值最高的初创公司之一,OpenAI尚未实现盈利,将AI能力应用于特定行业、解决具体业务痛点被视为实现收入增长和长期发展的关键路径 [7] - OpenAI的雄心不止于通用的聊天机器人,而是要打造能够深度嵌入企业工作流程的专业级AI工具 [7]
智源开源EditScore:为图像编辑解锁在线强化学习的无限可能
机器之心· 2025-10-22 11:30
随着多模态大模型的不断演进,指令引导的图像编辑(Instruction-guided Image Editing)技术取得了显著进展。然而,现有模型在遵循复杂、精细的文本指令方面 仍面临巨大挑战,往往需要用户进行多次尝试和手动筛选,难以实现稳定、高质量的「一步到位」式编辑。 强化学习(RL)为模型实现自我演进、提升指令遵循能力提供了一条极具潜力的路径。但其在图像编辑领域的应用,长期以来受限于一个核心瓶颈: 缺乏一个能 够精确评估编辑质量并提供高保真度反馈的奖励模型(Reward Model)。 没有可靠的「奖励信号」,模型便无法有效判断自身生成结果的优劣,从而难以实现高 效的自我优化。 为攻克这一难题, 北京智源人工智能研究院 VectorSpace Lab 团队 近日发布了全新的高保真奖励模型系列—— EditScore 。该工作直面上述挑战,旨在 为指令引 导的图像编辑任务提供精确、可靠的奖励信号,从而为强化学习在 AIGC 领域的深入应用铺平道路,真正解锁其强大潜力。 EditScore 是智源在成功推出统一图像生成模型 OmniGen 系列之后,对更通用、更可控的生成式 AI 的又一重要探索。为了促进 ...
大佬开炮:智能体都在装样子,强化学习很糟糕,AGI 十年也出不来
自动驾驶之心· 2025-10-22 08:03
编译 | 泽南、杨文 来源 | 机器之心 原文链接: Andrej Karpathy 开炮:智能体都在装样子 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 Andrej Karpathy(安德烈・卡帕斯)是人工智能领域里大家耳熟能详的学者,他 2016 年博士毕业于斯坦福大学(师从李飞飞),随后成为 OpenAI 的创始成员,后 又加入特斯拉任人工智能总监。在短暂重返 OpenAI 之后,他现在是 AI 教育公司 Eureka Labs 的创始人。 在与知名播客主持人 Dwarkesh Patel 的采访中,Andrej 针对目前 AI 领域人们最关心的一系列问题发表了意见,他解释了为什么强化学习很糟糕,为什么模型崩溃 会阻止 LLM 像人类一样学习,为什么 AGI 会融入约 2% GDP 增长,为什么自动驾驶需要这么长时间才能实现,以及他所看到的教育的未来。 该视频上架不到半天,已经有了超过 130 万播放量。 时间戳: AI 会给世界带来每年 2% 的 GDP ...
o1 核心作者 Jason Wei:理解 2025 年 AI 进展的三种关键思路
Founder Park· 2025-10-21 21:49
智能商品化 - AI发展分为两个阶段:推动前沿阶段(研究人员努力解锁新能力)和商品化阶段(能力被规模化与降本)[11] - 在MMLU基准测试中,达到特定性能水平所需的成本呈现每年下降趋势[11] - 自适应计算时代允许根据任务难度调整计算量,从而持续降低智能成本,无需持续扩大模型规模[13] - 自适应计算的技术突破源于o1模型,证明在测试阶段投入更多计算资源可提升模型在基准测试上的表现[13] - 信息检索效率经历了四个时代的演变:前互联网时代(耗时数小时)、互联网时代(耗时数分钟)、聊天机器人时代(效率提升)和智能Agent时代(耗时几分钟甚至几小时),获取公共信息的时间急剧缩短[16][17] - 例如,回答“1983年釜山有多少对夫妇结婚”这一问题,在智能Agent时代仅需几分钟,而在前互联网时代可能需要飞到韩国并翻阅大量书籍[16] - OpenAI的BrowseComp基准测试显示,人类平均需要两个多小时解决的复杂问题,Deep Research模型可解决约一半[17] - 智能商品化将带来领域民主化,例如编程和个人健康等领域因知识门槛降低而更加开放[20] - 公共信息成本降低使得私有信息(如非市场挂牌的房屋信息)的相对价值提升[20] - 最终信息获取将变得无摩擦,形成高度个性化的信息流,而非公共互联网[20] - 任何公开可用的信息都能立刻获取,形成即时知识[22] 验证者定律 - 验证者定律的核心是:训练AI解决特定任务的能力,与验证该任务完成情况的难易程度成正比[14][26] - 任何可解决且易于验证的任务,最终都会被AI攻克[3][26] - 验证的不对称性指对于某些任务,验证解决方案比找到解决方案更容易[21] - 例如,解数独困难但验证容易,编写Twitter代码困难但验证容易,而设计饮食方案则生成容易验证困难[23][28] - 可通过提供特权信息(如答案或测试用例)来改变任务的验证不对称性,增加验证的容易度[26] - 任务的可验证性体现在五个方面:客观性(有明确对错标准)、验证速度(检查快慢)、可批量验证(一次性检查大量方案)、低噪音(验证结果稳定)和连续反馈(能给出具体质量分数)[29] - DeepMind的AlphaDev项目是利用验证不对称性的绝佳例子,通过进化式搜索算法(生成候选方案、自动评估打分、迭代优化)解决高度可验证的任务[31][32][33][34] - AlphaDev的成功在于其专注于解决单一具体问题,避开了深度学习中的泛化难题[35] - 验证者定律的启示是,首先被自动化的将是那些非常容易验证的任务[38] - 未来重要的领域包括发明衡量事物的方法,为难以衡量的领域(如创造力)设计快速、客观、可扩展的评估体系,从而利用AI进行大规模优化[38] 智能的锯齿状边缘 - 智能的边缘是锯齿状的,意味着AI在不同任务上的能力水平和进步速度因任务特性而异,发展不均衡[14][37][42] - “快速起飞”的假说(即AI在某一领域超越人类后智能会爆炸式增长)可能过于简单化,更现实的场景是自我改进能力存在一个“光谱”,而非二元突破[39][41][42] - 自我改进的速度应按每个具体任务来考量,各项任务会有不同的改进速度[42][44] - 例如,AI在复杂数学题、编程竞赛等“高峰”任务表现出色,但在判断9.11与9.9大小或处理特林吉特语等“低谷”任务上表现不佳[42] - 预测AI改进速度的几个窍门包括:AI擅长数字任务(因迭代速度快,扩展计算资源容易)[47]、对人类越容易的任务AI往往也觉得越容易[47]、AI可能完成人类因生理限制无法完成的任务(如分析1000万张乳腺癌图像)[47]、数据越充足AI表现越好(如语言模型在不同语言中的数学表现与数据量正相关)[47]、存在明确客观评估指标的任务可通过强化学习生成假数据实现自我训练[47] - 基于上述标准,可预测不同任务的自动化时间点:翻译(前50种语言)和调试基础代码已完成,竞赛数学在2024年完成,AI研究可能到2027年,化学研究更晚,拍电影可能在2029年,预测股市不确定,翻译特林吉特语可能性低,修水管和理发等非数字任务AI短期内难搞定,带女朋友约会让她开心AI永远搞不定[48][50] - 启示是AI影响最大的是那些符合数字任务、对人类不难且数据丰富的领域(如软件开发将极大加速),而另一些领域(如理发)可能保持不变[50]
OpenAI元老Karpathy 泼了盆冷水:智能体离“能干活”,还差十年
36氪· 2025-10-21 20:42
智能体发展时间框架 - 智能体距离真正成熟还需要十年时间,而非明年爆发 [2] - 当前智能体如Claude、Codex尚不成熟,缺乏多模态能力、持续学习能力和完整认知结构,无法胜任实际工作 [2] - 智能体发展的核心瓶颈在于认知组件不完整,需要系统性工程突破而非单纯计算力提升 [2] AI训练范式与架构革新 - 强化学习存在根本缺陷,其试错学习机制与人类学习方式背道而驰 [11] - 未来AI的关键方向是去知识化,保留核心算法让模型具备自我成长能力 [4] - 需要重建认知结构,当前Transformer仅相当于大脑皮层,缺乏情绪、空间记忆等关键组件 [4] - 真正的智能体需要突破上下文窗口限制,构建长期记忆系统 [4] - 未来认知核心可能仅需十亿参数,关键在于从低质量数据中提取高质量认知结构 [34][35][36] 代码生成能力现状 - 大语言模型在代码生成上存在显著认知缺陷,远未达到自动化AI工程程度 [6] - 模型在结构化、精细化工程设计上表现无力,容易产生幻觉 [7] - LLM训练于常规代码,倾向于防御性编程,无法理解用户架构意图 [7] - 模型有效应用场景包括语言翻译、非关键任务编程和自动补全加速 [9] - 当前LLM编程工具是连续演化的结果,而非突破性革命 [10] AGI落地路径与经济影响 - AGI定义为能完成任何经济价值任务且不逊于人类的系统,但首先应用于数字知识型工作 [38] - AGI将渐进式嵌入经济,不会瞬间颠覆世界,预计占GDP的2% [39][50] - 未来工作模式将是80%由Agent执行加20%人类监督的滑动式自主性 [40] - 代码是LLM最理想的落地沙盒,因其高度结构化、基础设施完备且经济回报明确 [42][43][44] - 部署路径从最结构化任务开始,逐步向上下游迁移,最终重构工作定义 [48][49] 人类学习机制与AI启示 - 人类学习通过思考、发问和讨论构建结构性理解,而非简单预测下一个token [22] - 模型存在悄无声息的崩溃现象,缺乏认知多样性,丧失探索能力 [26] - 做梦可能是进化出的反过拟合机制,通过随机游走维持认知灵活性 [28][29] - 人类记忆差是学习能力的前提,迫使抽象和模式提取,而模型记忆过多缺乏抽象 [32] - 未来AI需要构建梦境机制维持高熵状态,避免陷入死亡回路 [30][31] 自动驾驶技术挑战 - 自动驾驶是不能出错的AI任务,需要将错误概率压到接近零,而非功能完善80%就能上线 [59] - 当前最大障碍是常识推理,涉及社会理解而不仅是计算机视觉任务 [60] - 大语言模型是概率引擎而非保障引擎,不能承诺永远不出错 [61] - 自动驾驶需要全社会协同系统,包括监管、基础设施和伦理判断 [61] - 落地过程将是缓慢、渐进、区域化的系统替代,从高速公路物流开始扩展 [62][63] 智能演化与文化传承 - 人类智能是极端罕见的生物现象,智能不是演化必然终点 [51][52] - 人类独特性在于通过语言、模仿和教育跨代复制知识,绕开基因瓶颈 [53][54][56] - AI训练是为了让其成为文化的下一个节点,扩展文明操作系统 [57][58] - 文化复制可在一天内完成更新,相比基因演化的百万年是一大捷径 [55]
清华、快手提出AttnRL:让大模型用「注意力」探索
机器之心· 2025-10-21 17:32
文章核心观点 - 强化学习是推动机器获得推理与语言能力的关键驱动力 [2] - 过程监督强化学习通过监督推理过程而非仅看结果来提升模型推理能力,但存在探索效率低和训练成本高的问题 [3][7] - 清华与快手研究团队提出的AttnRL框架,通过引入注意力机制作为探索指南针,显著提升了过程监督强化学习的效率与性能 [4][9] 过程监督强化学习的现实困境 - 传统结果监督方法对所有token赋予相同奖励,忽略推理过程中的细粒度质量 [7] - 传统过程监督方法在分支位置选择和采样策略上效率低下,导致训练成本高昂 [7] - 具体瓶颈包括分支策略粗糙、采样效率低下以及训练流程冗余 [10] AttnRL框架的核心创新:注意力引导探索 - 关键洞察是模型推理过程中注意力得分高的步骤对应关键的思考时刻,如规划、自我验证或转折点 [12] - 提出基于注意力的树分支策略,通过计算前向上下文影响力分数,仅在影响后续推理程度最高的关键位置建立分支 [13] - 实验证明破坏高注意力步骤会显著降低模型解题准确率,验证了其作为关键节点的有效性 [17] AttnRL的自适应采样机制 - 引入难度感知探索,根据FCI分数过滤简单问题,对困难问题扩展更多推理树进行探索 [22] - 采用动态批次调整,根据有效样本数动态调整批次大小,确保所有样本的梯度均有贡献 [22] - 设计一步离策略训练流程,将初始采样与蒙特卡洛采样交错执行,每步训练只需生成一次样本,大幅降低采样成本 [23] 实验结果:性能与效率双赢 - 在六个数学推理基准上,AttnRL对1.5B和7B基座模型均实现稳定提升,平均准确率分别达到57.2%和68.7% [27][28] - 相比DeepScaleR-Preview-1.5B需要1750步和24K上下文,AttnRL仅需500步和8K上下文即实现更优结果 [28] - 基于注意力的分支方法在全对比例、全错比例、有效比例等统计上全面优于熵分支方法 [29] - 自适应采样确保每批次样本均有效,AttnRL在500步训练中生成56亿有效token,性能达57.2,优于GRPO和TreeRL等方法 [32] 未来展望 - AttnRL将注意力分数首次用于过程监督强化学习的探索决策,为提升大模型可解释性和强化学习研究开辟了新方向 [34] - 该方法表明效率与智能并非对立,可通过更高效的探索实现共赢 [34]
Embedding黑箱成为历史!这个新框架让模型“先解释,再学Embedding”
量子位· 2025-10-21 17:05
UIUC团队 投稿 量子位 | 公众号 QbitAI 让模型先解释,再学Embedding! 来自UIUC、ANU、港科大、UW、TAMU等多所高校的研究人员,最新推出 可解释的生成式Embedding框架——GRACE 。 过去几年,文本表征 (Text Embedding) 模型经历了从BERT到E5、GTE、LLM2Vec,Qwen-Embedding等不断演进的浪潮。这些模型 将文本映射为向量空间,用于语义检索、聚类、问答匹配等任务。 简单来说, GRACE不再是"把文本压成向量",而是"让模型先解释,再学Embedding" —— 模型首先生成每个文本的"推理说明(rationale)",然后再将这些rationale编码成Embedding。奖励信号会鼓励模型产生更有逻辑、更语义 一致的推理。 方法总览:生成、表征、优化三位一体 概括而言,GRACE包含三个关键模块: 然而,大多数方法有一个共同缺陷: 它们把大语言模型当成"哑巴编码器"使用—— 输入文本,输出向量,却无法告诉我们为什么这两个文本相似 。 这种 "对比学习+池化" 的做法虽然有效,但本质上抛弃了大语言模型 (LLM) 的推理与生成能 ...
马斯克亲自点名Karpathy迎战Grok 5,别神话LLM,AGI还要等十年
36氪· 2025-10-21 10:21
AGI发展时间表与现状评估 - 行业专家预测实现通用人工智能仍需约10年时间 [1][3][12] - 该时间线相对于当前市场炒作氛围显得保守,但相对于怀疑论者仍属乐观预期 [17] - 专家认为比旧金山同行对AGI时间线的预测悲观5-10倍 [17] AGI实现路径的技术挑战 - 强化学习方法存在信号稀疏问题,仅通过二元对错信号进行学习效率低下 [21][23] - 模型崩塌现象阻碍大语言模型实现人类式学习能力 [2] - 系统集成与安全防护构成重大技术障碍,包括越狱和投毒等风险 [17] - 环境与评估体系匮乏,需要大量多样化高质量环境集作为训练基础 [25] 大语言模型发展现状与趋势 - 行业正处于LLM炒作的"幻灭低谷期",但将进入生产力缓慢提升的"启蒙斜坡"阶段 [7][9] - 模型发展呈现"先大后小"趋势:先扩大规模承载能力,再通过架构优化实现小型化 [29] - 智能体时代将从2025年开始,未来10年都将处于"智能体时代" [15][17] 新型学习范式探索 - 系统提示学习作为强化学习替代方案,通过编辑操作而非梯度下降实现优化 [26] - 新范式可使LLM自动生成系统提示,形成强大的新型学习机制 [26] - 记忆功能等特性已成为新学习范式的早期部署样本 [27] 人机协作模式演进 - 倡导"协作式中间态"而非全自动编程,避免产生代码沼泽和安全风险 [32] - AI编程助手应定位为"天才实习生",需保持防御性、谨慎多疑的工作态度 [32][36] - 当前工具尚未充分优化人机协作流程,用户体验存在巨大改进空间 [33] 行业应用与自动化前景 - 工作自动化程度取决于输入输出标准化、错误代价和决策频率等因素 [34] - 放射科等领域呈现人机互补模式,模型作为第二读片者提升整体质量 [34] - AGI预计将融入过去约2.5个世纪以来每年约2%的GDP增长趋势 [2]
Karpathy泼冷水:AGI要等10年,根本没有「智能体元年」
36氪· 2025-10-21 10:15
AGI发展时间线 - 行业普遍鼓吹的“智能体元年”存在过度预测,更准确的描述应为“智能体的十年”[3][4] - 当前智能体仍处于非常初期的阶段,需要大约十年的持续研究工作才能让其真正可用[4][5] - 基于在AI行业约15年的经验和个人直觉,预测AGI的到来还需要10年时间[5][6][7] AI技术架构演进 - 预测未来10年AI的核心架构仍可能基于Transformer,但形态会有所演化[8] - 根据“时间平移不变性”,10年后仍将使用前向后向传播和梯度下降来训练巨大的神经网络,但所有组件都会变得更大[9][10] - 算法改进仅能将误差减半,进一步提升必须依靠更大的数据、更强的计算力和更优的软件系统,算法、数据、硬件与系统的进步缺一不可[12] 智能体现状与挑战 - 当前智能体存在智能不足、多模态能力弱、无法自主操作电脑等主要问题[4] - 智能体在认知上存在缺陷,缺乏持续学习能力,这些基础性问题的解决约需十年[5] - 在编码任务中,“手写+自动补全”是目前最佳选择,智能体擅长样板代码但处理“智力密集型代码”能力不足[13][15][16][17][18][20] 强化学习与模型训练 - 强化学习虽不完美,但相比过去仅模仿人的方法,仍是目前最优解[21][22] - 强化学习过程会产生大量噪声,且大语言模型充当评委时易被对抗性样本欺骗,存在泛化能力不足的问题[23][24] - 未来可能需要引入“元学习”或合成数据机制来改进模型评估,但目前尚无实验室在大规模通用环境下成功实现[26][27] 人工智能与人类学习对比 - 当前大模型仅通过预测下一个词学习,缺乏人类通过反思、讨论整合知识的“思考”过程[28] - 人类“不擅长记忆”是进化优势,迫使其学习可泛化模式,未来AI应减少机械记忆,更多依靠思考与探索[28][30] - 真正的智能不在于记忆更多,而在于理解与泛化,需要构建大模型压缩记忆工作,重点发展认知部分[30] AI对社会与工作的影响 - 通用人工智能被定义为能够以人类或更好的表现完成任何有经济价值任务的系统,但已从最初定义中移除了物理性任务[31] - 放射科医生和呼叫中心等工作未被完全自动化,因其涉及复杂工作场景,理想状态是AI完成80%工作量,人类监督完成剩余20%[32][33][34] - 更看重AI与人类的互补关系,而非替代关系,现实中许多工作比呼叫中心员工的工作复杂得多[35][36] 超级智能与社会自动化 - 超级智能被视为社会自动化进程的自然延伸,将出现越来越多从事数字工作和体力工作的自主实体[37] - AI驱动的自动化会显得“非常陌生和奇怪”,当世界在计算机集群上运行时,人类可能逐渐失去对正在发生的事情的控制和理解[37] - 从工业革命开始,递归式自我改进和智能爆炸已持续数百年,我们处于“智能爆炸”中已有几十年[37][38]