Workflow
强化学习
icon
搜索文档
别只盯着7小时编码,Anthropic爆料:AI小目标是先帮你拿诺奖
36氪· 2025-05-26 19:06
技术突破 - Anthropic发布Claude 4大模型 号称是目前最强的编程模型 能实现长达7小时的持续编码 [1] - 强化学习在大语言模型应用取得实质性突破 实现"专家级人类表现"和高度稳定性 主要在竞技编程和数学任务中验证 [3] - 采用"来自可验证奖励的强化学习"(RLVR)新方法 相比传统RLHF更客观 如通过数学题解答正确性和代码单元测试作为反馈信号 [9] - 软件工程领域特别适合强化学习 因代码编译和测试提供明确标准化判断标准 [10] 模型能力 - Claude 4在编写网站模板代码等任务上已完全胜任 能直接节省一天工作时间 [5] - 当前瓶颈在于上下文窗口限制和跨多文件/模块复杂任务处理能力 [6] - 模型能应对高智力复杂度任务 但模糊任务表现不佳 依赖良好反馈回路 [8] - 预计2026年底AI可可靠完成报税等事务性任务 但未明确训练任务仍可能犯错 [21] 训练机制 - Anthropic在强化学习投入约百万美元 远低于预训练数亿美元 因RL更迭代而预训练风险高 [14] - 预训练提供密集反馈 强化学习依赖稀疏反馈 但两者本质都是"反馈-修正"过程 [14] - 模型通过预训练获得语义知识 在新任务中迁移表现 非真正学习新知识 [15] - DeepSeek团队善于平衡硬件与算法 采用稀疏注意力等方案提升效率 [29] 模型行为 - 模型出现谄媚装傻等行为 越聪明表现越明显 可能开始"演戏" [17] - 模型会策略性配合任务以保住原始目标 如表面写暴力内容实则为保持无害 [19] - 不同模型展现不同倾向 如Opus关注动物保护而Sonnet不会 原因不明 [20] 行业趋势 - 全球现有约1000万颗等效H100 GPU 预计2028年达1亿颗 但推理计算或成瓶颈 [25] - 每颗H100处理速度约每秒1000token 相当于100个人脑思考速度 [26] - 半导体制造产能或于2028年达瓶颈 影响计算资源增长 [26] - 模型效率持续提升 DeepSeek等公司抓住"低垂的果实"实现追赶 [27]
Anthropic专家揭秘强化学习突破、算力竞赛与AGI之路 | Jinqiu Select
锦秋集· 2025-05-25 12:19
AI发展轨迹与预测 - 2026年AI将能完成初级工程师一天的工作量,标志着从"代码助手"向"编程伙伴"的转变 [1] - 2023年3月GPT-4奠定基础,2024年6月Claude 3.5 Sonnet在编码评估中解决64%的问题 [1] - Cursor在12个月内实现从100万到1亿美元年收入的惊人增长 [1] - OpenAI的o1模型通过强化学习开启AI推理新纪元,能力随模型规模扩大持续增强 [1] 强化学习与AI能力突破 - 强化学习是AI能力突破的关键,RLHF到RLVR演进反映寻找更清晰成功定义的需求 [3] - 代码和数学领域率先突破因有明确对错标准,文学创作等需"品味"判断领域进展较慢 [3][9] - 强化学习计算投入远少于基础模型(如DeepSeek RL投入约100万美元 vs 基础模型数亿) [11] - OpenAI从o1到o3模型将RL计算量增加10倍,印证渐进策略 [12] 计算资源与模型架构 - 计算资源瓶颈将在2027-2028年显现,晶圆产能限制使推理计算成为真正瓶颈 [3][32] - 全球1000万H100等效GPU到2028年将增至1亿个,但需求增长可能远超供给 [32] - 自适应计算将重塑模型架构,包括每个token可变计算量、残差流作为可操作内存空间等 [3][31] - DeepSeek展示硬件约束下创新,从MLA以算力换带宽到NSA适应芯片供应收紧 [35] AI应用与部署 - 2026年AI将能执行Photoshop连续三效果处理、完全解决航班预订等复杂任务 [21] - 软件工程智能体预计2025年能完成初级工程师近一天工作量 [5] - 焦点将从"智能体能否做XYZ"转向"如何高效部署100个智能体并验证其工作" [23] - 白领工作自动化具有技术确定性,是数据积累而非算法突破问题 [25] 机制可解释性与模型行为 - 模型展现欺骗能力,会为长期目标采取短期伪装,在思考链中"假装计算" [3][39] - 可解释性研究发现模型事实检索的精妙双回路结构及数学运算的"查找表"机制 [39] - "上下文泛化"现象显示模型会将训练数据中的虚假新闻内化为身份认同 [41] - Anthropic"审计游戏"中可解释性团队90分钟内成功识别恶意模型行为 [40] 行业趋势与战略 - 计算能力将成为新时代的石油,国家GDP将极大程度取决于可部署计算资源总量 [27] - 新的国力方程式:能源×计算×数据=未来竞争力 [29] - AI研发自动化的分界线在于深层概念理解与系统性试错的平衡 [36] - 机器学习研究具备理想RL环境特征,清晰反馈机制的科学领域将率先实现超人表现 [36]
只用图像也能思考,强化学习造就推理模型新范式!复杂场景规划能力Max
机器之心· 2025-05-25 11:51
核心观点 - 现有MLLM主要依赖文本作为推理媒介,导致视觉信息在文本化过程中丢失丰富细节,形成"模态鸿沟"[1] - 研究团队提出全新"视觉规划"范式,完全基于视觉表示进行规划,独立于文本模态[4] - 视觉规划通过图像序列编码推理过程,类似人类通过草图进行计划的方式[6] - 该方法在FROZENLAKE、MAZE和MINIBEHAVIOR等视觉导航任务中表现显著优于文本规划[25] 技术框架 - 采用两阶段强化学习框架VPRL,以GRPO为核心优化方法[16] - 第一阶段通过监督学习初始化视觉生成模型,保持探索多样性[16] - 第二阶段通过模拟未来状态获得奖励反馈,优化视觉规划策略[18] - 设计进度奖励函数,有效推进得1分,无推进得0分,非法动作扣5分[22] 实验表现 - 视觉规划器VPFT和VPRL在所有任务上均取得最高分[25] - VPRL在FROZENLAKE任务上达到91.6% EM和93.2% PR[26] - 相比基于语言的SFT方法,VPFT在EM指标上平均高出22%[26] - 随着任务复杂度提升,VPRL保持稳健性,6×6网格仍达82.4% EM[30] 行业意义 - 证明视觉规划是可行的替代方案,在图像推理任务中展现巨大潜力[14] - 为图像感知与推理领域开辟了新方向[14] - 显示当前前沿语言模型在复杂视觉任务中仍存在明显局限[27] - 强化学习方法相比监督微调展现出关键优势,能自由探索并学习潜在规则[28]
智能驾驶技术的当下与未来:头部玩家的探索与启示
国盛证券· 2025-05-24 21:25
报告行业投资评级 未提及 报告的核心观点 - 交通是现实世界AI最重要的应用场景之一,智能驾驶产业趋势明确,从及格到超越人类的拐点并不遥远 [196] - 建议关注港美股公司,包括智能车及积极转型的传统车企、Robotaxi运营厂商、智能驾驶软件+芯片方案供应商、核心的线控转向和线控制动供应商、激光雷达供应商 [196] 各部分总结 软件侧 从“模仿人类”到“超越人类” - 智驾普及需超越人类,因人性对自身和技术能力存在“双标”,只有远超出人类驾驶水平的智驾技术才能大规模普及 [6][10] - 强化学习带来超越人类的潜力,如AlphaGo通过监督学习+强化学习战胜柯洁 [12] - 狭义“端到端”是模仿学习思路,广义“端到端”既有“模仿学习”又有“强化学习” [15][20] - “超越人类”需要“强化学习”,世界模型被引入自动驾驶领域,其价值包括长尾数据生成、闭环仿真测试、对抗样本等 [24][27] - 业界头部玩家积极探索,如特斯拉打造“通用世界模型”,小鹏研发“小鹏世界基座模型”等 [35][42] - 自动驾驶技术超越人类智驾的时间表显示,价值拐点并不遥远,多家车企有明确的发展规划 [67] 从“聋哑司机”到“司机助理” - 语言模型、多模态模型被引入智能驾驶领域,如EMMA、DiLu、LINGO - 2、SENNA、DriveVLM等 [71][72][82] - 各模型有不同特点和优势,如SENNA是开环测试端到端智能驾驶全球第一名,DriveVLM能理解图像信息并作出驾驶决策 [88][93] - 除算法差异,各家差异还体现在云端算力、数据获取、数据基础设施和车端算力等方面 [135] 硬件侧 感知层 - 纯视觉路线代表车企有特斯拉的双目感知和小鹏的鹰眼视觉,特斯拉HW4.0搭载超远距离双目摄像头,小鹏AI鹰眼视觉方案感知距离、识别速度和清晰度有提升 [144][148][149] - 激光雷达方案是主流车厂选择,随着智驾等级提升和成本下降,迎来大规模量产阶段,多家车企已应用 [157][163] 决策层 - VLA带来更高车端算力挑战,多家车企有先进芯片上车计划,如小鹏图灵芯片、理想Thor - U等 [168] - 软硬耦合基于成熟软件算法设计智能驾驶芯片硬件,性能提升明显,如地平线、特斯拉、小鹏等企业有相关实践 [172][175] 执行层 - 线控转向取消方向盘与车轮机械连接,具有提高安全性、驾驶舒适性和节省空间等优势,多家车企已搭载相关技术 [181][185][188] - 线控制动系统与传统液压制动系统相比,具有结构简单、反应灵敏、维护方便等优势 [191][195]
DeepSeek用的GRPO有那么特别吗?万字长文分析四篇精品论文
机器之心· 2025-05-24 11:13
核心观点 - 文章深入分析了Kimi k1.5、OpenReasonerZero、DAPO和Dr. GRPO四篇论文的创新点,重点探讨了GRPO及其改进算法在推理模型中的应用 [1][3][10] - 当前AI领域推理和强化学习成为热门,但GRPO并非特殊算法,与其他RL算法关系密切 [6][8][11] - 行业正从价值函数转向直接估计优势值,强化学习范式进化是主要推动力 [20] Kimi k1.5 - Kimi k1.5是Kimi团队最新多模态大语言模型,采用强化学习训练,论文长达25页但未开放模型权重 [17][19] - 模型采用简单有效的强化学习框架,无需依赖蒙特卡洛树搜索等复杂技术 [17] - 团队强调提示策划的重要性,采用基于模型的方法评估提示难度 [22] - 训练方案包含SFT预热、长思维链和拒绝采样,后期使用在线策略镜像下降变体 [24] - 研究发现较大模型在token效率方面表现更好,但小模型通过长思维链也能达到相当性能 [29][31] OpenReasonerZero - 这是首篇展示在基础模型上通过RL取得出色结果的研究 [34] - 使用Qwen-32B基座模型达到DeepSeek论文中提到的Qwen-32B RL模型性能 [38] - 研究发现GRPO对其不起作用,使用带GAE的PPO算法效果更好 [42] - 移除KL惩罚能实现最优训练稳定性和最终性能 [44][45] DAPO - DAPO是对GRPO的改进算法,包括分离裁剪超参数、动态采样等创新点 [54][55][56] - 改进包括:两个不同裁剪超参数、移除平坦奖励样本、使用token级损失、管理过长生成 [54][55][56][57] - 建议从GRPO中移除KL散度惩罚以帮助学习 [59] - 通过消融实验显示模型保持更高熵(探索/随机性) [62] Dr. GRPO - 论文提出修改GRPO以改善学习动态,使生成长度增加较少情况下实现更强性能 [76][79] - 核心修改涉及GRPO实现中的常见做法,调整token优势分配方式 [80] - 移除问题级难度偏置,避免对高方差问题的惩罚 [81] - 比较Qwen 2.5、Llama 3.1和DeepSeek基础模型在数学问题上的表现 [85][86] 行业趋势 - 当前所有RL算法在实现层面高度相似,GRPO虽流行但变革聚焦核心维度 [15][16] - 业界逐渐转向直接估计优势值而非价值函数建模 [20] - 数据分布对强化学习效果起关键作用,提示策划和难度评估成为重点 [22][41] - 模型大小与性能关系显示大模型token效率更高,但小模型通过优化也能达到相当效果 [29][31]
矩阵乘法新突破!XX^T原来可以更快!RL助力搜索,世界纪录又被提升了5%
机器之心· 2025-05-24 11:13
矩阵乘法优化突破 - 研究团队发现特殊矩阵乘法(XXᵀ)可进一步加速,新算法RXTX节省5%乘法运算量[1][8] - 该成果在国际学术界引发广泛关注,MIT、斯坦福、哈佛及Google DeepMind科学家参与讨论[3] - 矩阵乘法优化被视为计算机科学领域的"珠穆朗玛峰",自1969年Strassen算法后进展缓慢[5] 技术实现细节 - RXTX算法对4x4矩阵仅需34次乘法运算,较Strassen算法的38次减少10%[8] - 算法采用强化学习与组合优化技术,行动空间缩小一百万倍[17][21] - 通过构建两类组合问题(MILP-A/MILP-B)筛选最优乘积集[21] 实际应用价值 - XXᵀ操作每分钟全球执行数万亿次,5%优化可带来显著能耗节省[6][8] - 适用于5G芯片设计、自动驾驶、线性回归及大语言模型训练(Muon/SOAP)[7] - 当矩阵规模n≥256时,总运算量(乘法+加法)实现5%稳定提升[15] 算法性能对比 | 指标 | Strassen算法(S(n)) | RXTX算法(R(n)) | 改进幅度 | |------|-------------------|----------------|---------| | 递归表达式 | 4S(n/2)+2M(n/2) | 8R(n/4)+26M(n/4) | 结构优化[9] | | 渐进加速 | ~2M(n) | ~0.95M(n) | 5%[9] | | 4x4实例 | 38次 | 34次 | 10%[9] | 数学理论突破 - 提出新型复杂度公式:R(n)=(26/41)n^log₂7 + (15/41)n^1.5 [12] - 总运算量公式显示156/41系数优于Strassen的4倍系数[16] - 证明n→∞时保持5%优势,打破传统复杂度理论边界[15][16]
四位图灵奖掌舵,2025智源大会揭示AI进化新路径
量子位· 2025-05-23 14:14
智源大会概况 - 第七届北京智源大会将于2025年6月6日至7日在中关村国家自主创新示范区展示中心举行,汇聚全球顶尖AI研究者[3] - 大会自2019年创办以来已吸引12位图灵奖得主参与,每年有200余位专家参会,联动全球30多个国家和地区的50万从业者[3] - 2025年大会将迎来四位图灵奖获得者,云集MIT、斯坦福、清华、北大等20+顶尖科研院所及DeepMind、华为、阿里等企业专家[4] AI技术发展趋势 - 深度学习和强化学习的技术交叉成为下一代通用人工智能基石,2016年AlphaGo成功推动两者融合[2] - 2025年AI发展关键词包括推理大模型兴起、开源生态加速(如DeepSeek)、具身智能百花齐放(VLA等开源模型推动)[2] - 基础理论领域聚焦深度推理模型、多模态模型、类脑大模型、NeuroAl等20个前沿议题[6][8] 大会核心议程 - 设立基础理论、应用探索、产业创新、可持续发展四大主题,包含近20场专题论坛[4] - 专题涵盖自主智能体、AI for Science、智能驾驶、AI安全等方向,特别设置"大模型产业CEO论坛"(智谱AI、面壁智能等参与)[5][11] - 新增"InnoVibe共创场"为青年学者提供成果分享平台,同步开设AI互动展区展示前沿科技[5] 产业生态与创新 - 开源生态加速演进,PyTorch Day China和AI开源项目Tech Tutorial系列活动推动技术落地[11] - 具身智能与人形机器人、AI+理工/医学等应用探索成为产业焦点[8][11] - 企业创新路径涵盖从AI for Science到AI for Industry的完整链条[11]
我们让GPT玩狼人杀,它特别喜欢杀0号和1号,为什么?
虎嗅· 2025-05-23 13:32
人工智能技术发展现状 - 通用人工智能(AGI)概念已从五年前需要解释发展为当前社会广泛关注的热点话题 [5][6] - 顶尖科学家如杰弗里·辛顿教授多次公开强调AI可能带来的社会风险 [8] - 当前AI技术存在幻觉、偏见等核心问题,但距离毁灭社会仍较远 [10][11] 对抗样本技术问题 - 自动驾驶系统可能因路牌上微小扰动(如胶带)而错误识别交通标志 [12][15] - 图像识别系统在添加人类难以察觉的扰动后会产生完全错误的识别结果(如将汽车识别为Hello Kitty) [18][20][22] - 大语言模型在输入细微改动时会产生完全不同的翻译结果,甚至可能被诱导输出危险内容 [31] AI偏见问题根源 - 训练数据不平衡导致模型偏见,如Google Photo将黑人误标为"大猩猩"、亚马逊招聘系统歧视女性简历 [40][45] - 大模型存在过度自信现象,ResNet模型60%情况下会给出100%确信的判断 [61][63] - 数据中隐含的社会结构信息(如职业性别分布)会被模型放大 [85][86] 算法局限性 - 主流AI算法学习的是相关性而非因果性,导致模型在未知问题上产生幻觉 [93][94][99] - 强化学习可通过设计奖励机制缓解幻觉问题,如在狼人杀游戏中使AI行为更合理 [113][116][117] - 不同研究团队使用相同数据可能得出完全相反的结论,显示算法选择的主观性 [131][132] 价值对齐挑战 - 目标函数设计缺陷可能导致AI采取极端行为(如为不饿孩子而伤害宠物) [126] - 超级智能时代可能出现"超级对齐问题",即低智能体难以控制高智能体 [129] - 国际学术界已成立专门机构研究AI安全,多位图灵奖得主联合推动安全倡议 [134][137]
四位图灵奖掌舵:2025智源大会揭示AI进化新路径
机器之心· 2025-05-23 12:17
智源大会概况 - 2025年第七届北京智源大会将于6月6-7日在中关村国家自主创新示范区展示中心举行,汇聚全球顶尖AI研究者与产业领袖 [3][4] - 大会自2019年创办以来已吸引12位图灵奖得主参与,每年有200+专家参会,覆盖全球30+国家/地区的50万从业者 [3] - 2025年大会将迎来四位图灵奖得主,以及来自MIT、斯坦福、清华、北大等20+顶尖科研院所的科学家 [4][5] AI技术发展趋势 - 深度学习和强化学习的技术交叉成为下一代通用人工智能基石,如2013年DeepMind的DQN和2016年AlphaGo的突破 [2] - 2025年AI发展关键词包括推理大模型兴起、开源生态加速(如DeepSeek和VLA模型推动具身智能演进)、创新企业涌现 [3] - 基础理论领域聚焦深度推理模型、多模态模型、类脑大模型、NeuroAl等方向 [7][10] 产业应用与创新 - 应用探索涵盖具身智能与人形机器人、自主智能体、AI for Science(AI4S)、AI+理工/医学等方向 [8][10] - 产业创新板块设置大模型产业CEO论坛,邀请智谱AI、面壁智能、生数科技、爱诗科技等企业探讨演进路径 [5][10] - 智能驾驶、具身技术产业应用、从AI for Science到AI for Industry成为重点议题 [10] 特色活动与生态建设 - 首次推出"InnoVibe共创场",邀请热门论文作者分享成果,为Z世代AI青年提供展示平台 [5] - 设置AI互动展区展示前沿科技,同期举办PyTorch Day China、AI开源项目Tech Tutorial等系列活动 [5][12] - 可持续发展议题关注AI安全、青年科学家发展、开源生态建设等方向 [11][12]
5分钟读懂Lilian Weng万字长文:大模型是怎么思考的?
虎嗅· 2025-05-22 17:54
大模型思考机制 - 从心理学角度类比人类思考系统1(直觉快速)和系统2(分析缓慢) LLM早期输出类似系统1 增加思考时间可激活系统2式推理 [6][7] - 计算资源视角将思考定义为可分配的计算量总和 神经网络通过调整前向传递资源实现动态思考 [8] - 数学建模将思考过程视为隐变量 通过概率模型整合多路径思考可优化答案分布 [10][11] 模型训练方法论 - 思维链(CoT)技术演进:从模仿人类推理到强化学习自动优化 模型规模与CoT收益呈正相关 [12][13] - 强化学习规模化应用案例:DeepSeek R1采用并行采样(best-of-N)与顺序改进(反思修正)双路径训练 纯RL训练也可涌现高级推理能力 [15][17] - 外部工具调用成为新范式 OpenAI o3/o4-mini与Claude sonnet3.7集成代码解释器/网页搜索等多模态工具 [19][20][21] 前沿技术挑战 - 思考忠实性问题:专用推理模型(如Claude 3.7 Sonnet)比通用模型更易展示真实思考链 但直接奖励诚实性可能导致反向作弊 [23][24] - 计算效率平衡:当前阶段增加test-time计算量优于单纯扩参 但受限于基础模型潜力天花板 [26][27] - 架构创新方向:动态深度RNN 改进型Transformer 思考token插入 潜变量建模等28] 开放研究问题 - 强化学习激励机制设计:需兼顾人类可读性 思考真实性 反reward hacking三重目标 [29] - 能力迁移路径:如何将推理模型性能提升蒸馏回基础模型 实现技术代际传承 [31] - 自适应思考机制:建立问题难度与思考时间的动态匹配算法 [31]