强化学习
搜索文档
智能驾驶技术的当下与未来:头部玩家的探索与启示
国盛证券· 2025-05-24 21:25
报告行业投资评级 未提及 报告的核心观点 - 交通是现实世界AI最重要的应用场景之一,智能驾驶产业趋势明确,从及格到超越人类的拐点并不遥远 [196] - 建议关注港美股公司,包括智能车及积极转型的传统车企、Robotaxi运营厂商、智能驾驶软件+芯片方案供应商、核心的线控转向和线控制动供应商、激光雷达供应商 [196] 各部分总结 软件侧 从“模仿人类”到“超越人类” - 智驾普及需超越人类,因人性对自身和技术能力存在“双标”,只有远超出人类驾驶水平的智驾技术才能大规模普及 [6][10] - 强化学习带来超越人类的潜力,如AlphaGo通过监督学习+强化学习战胜柯洁 [12] - 狭义“端到端”是模仿学习思路,广义“端到端”既有“模仿学习”又有“强化学习” [15][20] - “超越人类”需要“强化学习”,世界模型被引入自动驾驶领域,其价值包括长尾数据生成、闭环仿真测试、对抗样本等 [24][27] - 业界头部玩家积极探索,如特斯拉打造“通用世界模型”,小鹏研发“小鹏世界基座模型”等 [35][42] - 自动驾驶技术超越人类智驾的时间表显示,价值拐点并不遥远,多家车企有明确的发展规划 [67] 从“聋哑司机”到“司机助理” - 语言模型、多模态模型被引入智能驾驶领域,如EMMA、DiLu、LINGO - 2、SENNA、DriveVLM等 [71][72][82] - 各模型有不同特点和优势,如SENNA是开环测试端到端智能驾驶全球第一名,DriveVLM能理解图像信息并作出驾驶决策 [88][93] - 除算法差异,各家差异还体现在云端算力、数据获取、数据基础设施和车端算力等方面 [135] 硬件侧 感知层 - 纯视觉路线代表车企有特斯拉的双目感知和小鹏的鹰眼视觉,特斯拉HW4.0搭载超远距离双目摄像头,小鹏AI鹰眼视觉方案感知距离、识别速度和清晰度有提升 [144][148][149] - 激光雷达方案是主流车厂选择,随着智驾等级提升和成本下降,迎来大规模量产阶段,多家车企已应用 [157][163] 决策层 - VLA带来更高车端算力挑战,多家车企有先进芯片上车计划,如小鹏图灵芯片、理想Thor - U等 [168] - 软硬耦合基于成熟软件算法设计智能驾驶芯片硬件,性能提升明显,如地平线、特斯拉、小鹏等企业有相关实践 [172][175] 执行层 - 线控转向取消方向盘与车轮机械连接,具有提高安全性、驾驶舒适性和节省空间等优势,多家车企已搭载相关技术 [181][185][188] - 线控制动系统与传统液压制动系统相比,具有结构简单、反应灵敏、维护方便等优势 [191][195]
DeepSeek用的GRPO有那么特别吗?万字长文分析四篇精品论文
机器之心· 2025-05-24 11:13
核心观点 - 文章深入分析了Kimi k1.5、OpenReasonerZero、DAPO和Dr. GRPO四篇论文的创新点,重点探讨了GRPO及其改进算法在推理模型中的应用 [1][3][10] - 当前AI领域推理和强化学习成为热门,但GRPO并非特殊算法,与其他RL算法关系密切 [6][8][11] - 行业正从价值函数转向直接估计优势值,强化学习范式进化是主要推动力 [20] Kimi k1.5 - Kimi k1.5是Kimi团队最新多模态大语言模型,采用强化学习训练,论文长达25页但未开放模型权重 [17][19] - 模型采用简单有效的强化学习框架,无需依赖蒙特卡洛树搜索等复杂技术 [17] - 团队强调提示策划的重要性,采用基于模型的方法评估提示难度 [22] - 训练方案包含SFT预热、长思维链和拒绝采样,后期使用在线策略镜像下降变体 [24] - 研究发现较大模型在token效率方面表现更好,但小模型通过长思维链也能达到相当性能 [29][31] OpenReasonerZero - 这是首篇展示在基础模型上通过RL取得出色结果的研究 [34] - 使用Qwen-32B基座模型达到DeepSeek论文中提到的Qwen-32B RL模型性能 [38] - 研究发现GRPO对其不起作用,使用带GAE的PPO算法效果更好 [42] - 移除KL惩罚能实现最优训练稳定性和最终性能 [44][45] DAPO - DAPO是对GRPO的改进算法,包括分离裁剪超参数、动态采样等创新点 [54][55][56] - 改进包括:两个不同裁剪超参数、移除平坦奖励样本、使用token级损失、管理过长生成 [54][55][56][57] - 建议从GRPO中移除KL散度惩罚以帮助学习 [59] - 通过消融实验显示模型保持更高熵(探索/随机性) [62] Dr. GRPO - 论文提出修改GRPO以改善学习动态,使生成长度增加较少情况下实现更强性能 [76][79] - 核心修改涉及GRPO实现中的常见做法,调整token优势分配方式 [80] - 移除问题级难度偏置,避免对高方差问题的惩罚 [81] - 比较Qwen 2.5、Llama 3.1和DeepSeek基础模型在数学问题上的表现 [85][86] 行业趋势 - 当前所有RL算法在实现层面高度相似,GRPO虽流行但变革聚焦核心维度 [15][16] - 业界逐渐转向直接估计优势值而非价值函数建模 [20] - 数据分布对强化学习效果起关键作用,提示策划和难度评估成为重点 [22][41] - 模型大小与性能关系显示大模型token效率更高,但小模型通过优化也能达到相当效果 [29][31]
矩阵乘法新突破!XX^T原来可以更快!RL助力搜索,世界纪录又被提升了5%
机器之心· 2025-05-24 11:13
矩阵乘法优化突破 - 研究团队发现特殊矩阵乘法(XXᵀ)可进一步加速,新算法RXTX节省5%乘法运算量[1][8] - 该成果在国际学术界引发广泛关注,MIT、斯坦福、哈佛及Google DeepMind科学家参与讨论[3] - 矩阵乘法优化被视为计算机科学领域的"珠穆朗玛峰",自1969年Strassen算法后进展缓慢[5] 技术实现细节 - RXTX算法对4x4矩阵仅需34次乘法运算,较Strassen算法的38次减少10%[8] - 算法采用强化学习与组合优化技术,行动空间缩小一百万倍[17][21] - 通过构建两类组合问题(MILP-A/MILP-B)筛选最优乘积集[21] 实际应用价值 - XXᵀ操作每分钟全球执行数万亿次,5%优化可带来显著能耗节省[6][8] - 适用于5G芯片设计、自动驾驶、线性回归及大语言模型训练(Muon/SOAP)[7] - 当矩阵规模n≥256时,总运算量(乘法+加法)实现5%稳定提升[15] 算法性能对比 | 指标 | Strassen算法(S(n)) | RXTX算法(R(n)) | 改进幅度 | |------|-------------------|----------------|---------| | 递归表达式 | 4S(n/2)+2M(n/2) | 8R(n/4)+26M(n/4) | 结构优化[9] | | 渐进加速 | ~2M(n) | ~0.95M(n) | 5%[9] | | 4x4实例 | 38次 | 34次 | 10%[9] | 数学理论突破 - 提出新型复杂度公式:R(n)=(26/41)n^log₂7 + (15/41)n^1.5 [12] - 总运算量公式显示156/41系数优于Strassen的4倍系数[16] - 证明n→∞时保持5%优势,打破传统复杂度理论边界[15][16]
四位图灵奖掌舵,2025智源大会揭示AI进化新路径
量子位· 2025-05-23 14:14
智源大会概况 - 第七届北京智源大会将于2025年6月6日至7日在中关村国家自主创新示范区展示中心举行,汇聚全球顶尖AI研究者[3] - 大会自2019年创办以来已吸引12位图灵奖得主参与,每年有200余位专家参会,联动全球30多个国家和地区的50万从业者[3] - 2025年大会将迎来四位图灵奖获得者,云集MIT、斯坦福、清华、北大等20+顶尖科研院所及DeepMind、华为、阿里等企业专家[4] AI技术发展趋势 - 深度学习和强化学习的技术交叉成为下一代通用人工智能基石,2016年AlphaGo成功推动两者融合[2] - 2025年AI发展关键词包括推理大模型兴起、开源生态加速(如DeepSeek)、具身智能百花齐放(VLA等开源模型推动)[2] - 基础理论领域聚焦深度推理模型、多模态模型、类脑大模型、NeuroAl等20个前沿议题[6][8] 大会核心议程 - 设立基础理论、应用探索、产业创新、可持续发展四大主题,包含近20场专题论坛[4] - 专题涵盖自主智能体、AI for Science、智能驾驶、AI安全等方向,特别设置"大模型产业CEO论坛"(智谱AI、面壁智能等参与)[5][11] - 新增"InnoVibe共创场"为青年学者提供成果分享平台,同步开设AI互动展区展示前沿科技[5] 产业生态与创新 - 开源生态加速演进,PyTorch Day China和AI开源项目Tech Tutorial系列活动推动技术落地[11] - 具身智能与人形机器人、AI+理工/医学等应用探索成为产业焦点[8][11] - 企业创新路径涵盖从AI for Science到AI for Industry的完整链条[11]
我们让GPT玩狼人杀,它特别喜欢杀0号和1号,为什么?
虎嗅· 2025-05-23 13:32
人工智能技术发展现状 - 通用人工智能(AGI)概念已从五年前需要解释发展为当前社会广泛关注的热点话题 [5][6] - 顶尖科学家如杰弗里·辛顿教授多次公开强调AI可能带来的社会风险 [8] - 当前AI技术存在幻觉、偏见等核心问题,但距离毁灭社会仍较远 [10][11] 对抗样本技术问题 - 自动驾驶系统可能因路牌上微小扰动(如胶带)而错误识别交通标志 [12][15] - 图像识别系统在添加人类难以察觉的扰动后会产生完全错误的识别结果(如将汽车识别为Hello Kitty) [18][20][22] - 大语言模型在输入细微改动时会产生完全不同的翻译结果,甚至可能被诱导输出危险内容 [31] AI偏见问题根源 - 训练数据不平衡导致模型偏见,如Google Photo将黑人误标为"大猩猩"、亚马逊招聘系统歧视女性简历 [40][45] - 大模型存在过度自信现象,ResNet模型60%情况下会给出100%确信的判断 [61][63] - 数据中隐含的社会结构信息(如职业性别分布)会被模型放大 [85][86] 算法局限性 - 主流AI算法学习的是相关性而非因果性,导致模型在未知问题上产生幻觉 [93][94][99] - 强化学习可通过设计奖励机制缓解幻觉问题,如在狼人杀游戏中使AI行为更合理 [113][116][117] - 不同研究团队使用相同数据可能得出完全相反的结论,显示算法选择的主观性 [131][132] 价值对齐挑战 - 目标函数设计缺陷可能导致AI采取极端行为(如为不饿孩子而伤害宠物) [126] - 超级智能时代可能出现"超级对齐问题",即低智能体难以控制高智能体 [129] - 国际学术界已成立专门机构研究AI安全,多位图灵奖得主联合推动安全倡议 [134][137]
四位图灵奖掌舵:2025智源大会揭示AI进化新路径
机器之心· 2025-05-23 12:17
智源大会概况 - 2025年第七届北京智源大会将于6月6-7日在中关村国家自主创新示范区展示中心举行,汇聚全球顶尖AI研究者与产业领袖 [3][4] - 大会自2019年创办以来已吸引12位图灵奖得主参与,每年有200+专家参会,覆盖全球30+国家/地区的50万从业者 [3] - 2025年大会将迎来四位图灵奖得主,以及来自MIT、斯坦福、清华、北大等20+顶尖科研院所的科学家 [4][5] AI技术发展趋势 - 深度学习和强化学习的技术交叉成为下一代通用人工智能基石,如2013年DeepMind的DQN和2016年AlphaGo的突破 [2] - 2025年AI发展关键词包括推理大模型兴起、开源生态加速(如DeepSeek和VLA模型推动具身智能演进)、创新企业涌现 [3] - 基础理论领域聚焦深度推理模型、多模态模型、类脑大模型、NeuroAl等方向 [7][10] 产业应用与创新 - 应用探索涵盖具身智能与人形机器人、自主智能体、AI for Science(AI4S)、AI+理工/医学等方向 [8][10] - 产业创新板块设置大模型产业CEO论坛,邀请智谱AI、面壁智能、生数科技、爱诗科技等企业探讨演进路径 [5][10] - 智能驾驶、具身技术产业应用、从AI for Science到AI for Industry成为重点议题 [10] 特色活动与生态建设 - 首次推出"InnoVibe共创场",邀请热门论文作者分享成果,为Z世代AI青年提供展示平台 [5] - 设置AI互动展区展示前沿科技,同期举办PyTorch Day China、AI开源项目Tech Tutorial等系列活动 [5][12] - 可持续发展议题关注AI安全、青年科学家发展、开源生态建设等方向 [11][12]
5分钟读懂Lilian Weng万字长文:大模型是怎么思考的?
虎嗅· 2025-05-22 17:54
大模型思考机制 - 从心理学角度类比人类思考系统1(直觉快速)和系统2(分析缓慢) LLM早期输出类似系统1 增加思考时间可激活系统2式推理 [6][7] - 计算资源视角将思考定义为可分配的计算量总和 神经网络通过调整前向传递资源实现动态思考 [8] - 数学建模将思考过程视为隐变量 通过概率模型整合多路径思考可优化答案分布 [10][11] 模型训练方法论 - 思维链(CoT)技术演进:从模仿人类推理到强化学习自动优化 模型规模与CoT收益呈正相关 [12][13] - 强化学习规模化应用案例:DeepSeek R1采用并行采样(best-of-N)与顺序改进(反思修正)双路径训练 纯RL训练也可涌现高级推理能力 [15][17] - 外部工具调用成为新范式 OpenAI o3/o4-mini与Claude sonnet3.7集成代码解释器/网页搜索等多模态工具 [19][20][21] 前沿技术挑战 - 思考忠实性问题:专用推理模型(如Claude 3.7 Sonnet)比通用模型更易展示真实思考链 但直接奖励诚实性可能导致反向作弊 [23][24] - 计算效率平衡:当前阶段增加test-time计算量优于单纯扩参 但受限于基础模型潜力天花板 [26][27] - 架构创新方向:动态深度RNN 改进型Transformer 思考token插入 潜变量建模等28] 开放研究问题 - 强化学习激励机制设计:需兼顾人类可读性 思考真实性 反reward hacking三重目标 [29] - 能力迁移路径:如何将推理模型性能提升蒸馏回基础模型 实现技术代际传承 [31] - 自适应思考机制:建立问题难度与思考时间的动态匹配算法 [31]
翁荔最新万字长文:Why We Think
量子位· 2025-05-18 13:20
核心观点 - 通过"测试时计算"(Test-time Compute)和"思维链"(Chain-of-Thought,CoT)技术可显著提升模型性能,突破当前能力瓶颈 [1][2] - 让模型在输出答案前多思考一会儿(如智能解码、思维链推理、潜在思考等方法)能提升智能水平 [2] - 该方法与人类思考方式深度关联,借鉴了心理学中的双系统理论(系统1快速直觉 vs 系统2慢速逻辑) [10][11] 心理学类比 - 人类思考分为系统1(快速直觉但易出错)和系统2(慢速逻辑更理性),模型通过延长思考时间可模拟系统2的深度分析 [10][11] - 数学问题等复杂任务需要系统2思考,模型通过CoT实现类似过程 [10] 计算资源优化 - Transformer模型的计算量约为参数量的2倍,稀疏模型(如MoE)计算量=2*参数/稀疏度 [13] - CoT允许模型根据问题难度动态调整计算量,提升效率 [13] - 测试时计算通过自适应修改推理时的输出分布优化性能 [24] 思维链技术发展 - 早期方法包括监督学习生成中间步骤(如数学题推导)和验证器判断答案正确性 [18] - 强化学习在可验证答案的数据集(如STEM题目)上大幅改进CoT推理能力 [19] - DeepSeek-AI的R1技术报告显示简单策略梯度算法即可实现强劲性能 [20] 并行采样与顺序修订 - 并行采样(如N选1、束搜索)通过多候选筛选提升准确性,但受模型单次生成能力限制 [24][25][29] - 顺序修订通过迭代修正错误,但需依赖外部反馈避免性能下降 [24][37][38] - 两者结合可优化不同难度问题的表现 [24] 强化学习与外部工具整合 - 强化学习(如SCoRe框架)通过多轮次优化实现自我修正 [41] - 外部工具(如代码解释器、知识搜索API)可弥补模型计算或知识短板 [45] - 纯RL无需监督微调即可涌现反思与回溯能力 [45] 架构创新与未来挑战 - 循环架构(如Universal Transformer)动态调整计算步数提升效率 [50] - 显式/隐式标记技术(如暂停标记、Quiet-STaR)可增加计算时间 [50] - 未来需解决奖励破解、无监督自我修正、性能迁移至基础模型等挑战 [50]
刚刚!北大校友Lilian Weng最新博客来了:Why We Think
机器之心· 2025-05-18 12:25
大模型测试时计算优化 - 核心观点:通过延长模型"思考时间"(测试时计算)可显著提升大语言模型在复杂推理任务中的性能表现,该方向与人类认知双系统理论高度相关[2][6] - GPT、Claude、Gemini等模型通过思维链(CoT)和测试时计算策略优化,在逻辑推理、长文本理解、数学问题求解等高级认知任务上不断突破性能边界[2] - Transformer生成每个token的计算量约为参数量的2倍,而稀疏模型(MoE)因部分网络激活可降低计算量至2×参数数÷稀疏度[8] 思维链技术演进 - 思维链(CoT)允许模型根据问题难度动态调整计算量,早期通过监督学习人类编写的推理路径实现[13] - 强化学习在可验证答案的数据集(如STEM问题)上应用显著提升CoT性能,近期采用策略梯度算法结合自动评估成为主流方法[14] - 模型规模越大,"思考时间"带来的性能收益越显著,在数学问题上成功率提升明显[16] 并行采样与序列修订 - 并行采样通过生成多个候选序列并用验证器筛选最优解,实现简单但依赖模型单次生成能力[19][26] - 序列修订通过迭代修正输出实现质量提升,需额外控制修订风险如正确答案被错误修改[20] - 实验表明简单问题适合纯序列策略,高难度问题需组合并行与序列方法才能获得最优表现[21] 强化学习应用 - DeepSeek-R1通过两阶段SFT-RL训练在数学/编程任务表现优异,验证纯强化学习可涌现"顿悟时刻"类高级推理能力[42][46] - 推理类RL训练使用格式奖励(特殊token包裹CoT)和准确性奖励(自动验证答案)双重机制[43] - 失败案例显示过程奖励模型易导致奖励欺骗,蒙特卡洛树搜索因token空间过大难以应用[49] 外部工具整合 - PAL和Chain of Code方法通过调用代码解释器处理数学计算/编程任务,扩展模型能力边界[52] - ReAct方法结合Wikipedia API调用与推理轨迹生成,实现外部知识整合[56] - OpenAI o3/o4-mini模型融合网页搜索、代码执行等工具操作,验证计算资源与性能正相关[57] 连续空间思考架构 - 递归架构如Universal Transformer通过自适应计算时间动态调整推理步数[82] - 思考token技术通过插入特殊token为模型争取额外计算时间,在数字推理任务效果显著[85] - Quiet-STaR实现token级推理,通过生成未来文本的合理化解释提升预测质量[89] 测试时计算规模效应 - 测试时计算优化相比参数扩展可能更高效,但对困难问题的弥补能力有限[107] - 思维链长度与评估准确率呈正相关,但简单拒绝采样会导致反向scaling现象[112][113] - 最佳效果出现在推理token远少于预训练token时,表明基础模型能力仍是关键[112]
通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索API
量子位· 2025-05-17 11:50
强化学习框架ZeroSearch的核心创新 - 开源ZeroSearch框架通过模拟搜索引擎环境实现无需真实API交互的强化学习训练,显著降低训练成本[4][19] - 仅需3B参数LLM作为检索模块即可达到与真实搜索引擎相当的效果,14B参数版本甚至超越谷歌搜索性能[5][30][31] - 采用渐进式抗噪训练策略,初期提供高质量文档,后期按指数曲线增加噪声比例以提升模型鲁棒性[12][13][17] 技术实现细节 - 轻量微调使LLM具备生成"有用结果"和"噪声干扰"文档的双重能力,模拟真实搜索场景[7][10][11] - 兼容PPO和GRPO等多种强化学习算法,GRPO在稳定性上表现更优,PPO在任务灵活性上更具优势[19][21][34][35] - 通过课程学习机制动态调整文档质量,使模型从简单场景逐步过渡到复杂检索任务[13][14][17] 性能表现对比 - 在单跳问答任务中,ZeroSearch-base模型平均准确率达38.61%,显著高于RAG(25.51%)和RA-Agent(20.71%)[24][25] - 多跳问答任务中,ZeroSearch-instruction版本以40.54%平均准确率超越所有基线方法,展示复杂推理能力[24][26] - LLaMA-3.2-3B模型上ZeroSearch奖励曲线比真实搜索引擎(Search-R1)更平滑且最终性能更高[28][29] 经济性与扩展性优势 - 完全消除搜索引擎API调用成本,使大规模RL训练经济可行[19][22] - 7B参数模型即达到谷歌搜索水平,参数扩展性验证其在大型模型的应用潜力[30][31] - 训练数据自生成机制形成闭环生态,提升训练灵活性和可扩展性[18][22][37]