Workflow
强化学习
icon
搜索文档
论文解读之港科PLUTO:首次超越Rule-Based的规划器!
自动驾驶之心· 2025-09-16 07:33
PLUTO模型技术架构 - 采用典型的两段式网络架构作为端到端自动驾驶的Planner模型 [1] - 不基于BEV特征图进行下游控制任务,而是直接对感知输出的结构化信息(如边界框、车道线等)进行编码 [1] - 将编码后的结构化信息作为序列标记输入到解码器中 [1] - 二段式端到端架构非常适合新人入门练手 [1] PLUTO模型训练机制 - 包含三个主要损失函数,主任务损失由回归损失和分类损失共同组成模仿学习损失 [7] - Agent轨迹预测损失有专门设计 [7] - 添加了多个辅助损失以帮助模型收敛 [9] 端到端自动驾驶技术发展趋势 - 端到端自动驾驶已发展出多个技术方向,需要掌握多模态大模型、BEV感知、强化学习、视觉Transformer、扩散模型等知识 [13] - 技术发展迅速,去年的技术方案已不适合当前环境 [13] - VLA(视觉语言动作)范式是当前端到端自动驾驶的皇冠,上限高但难度大,行业招聘需求旺盛 [29] - 基于扩散模型输出多模轨迹成为学术界和工业界追捧的热点,多家公司尝试落地 [26] 课程内容体系 - 第一章介绍端到端算法发展历史,涵盖从模块化方法到端到端的演变,分析一段式、二段式和VLA范式的优缺点 [20] - 第二章重点讲解端到端涉及的背景知识,包括大语言模型、扩散模型、强化学习、BEV感知等,这些是未来两年求职面试频率最高的技术关键词 [20][21][27] - 第三章聚焦二段式端到端,分析经典算法PLUTO、CVPR'25的CarPlanner和最新工作Plan-R1 [21] - 第四章涵盖一段式端到端与VLA,包括基于感知的方法(UniAD、VAD、PARA-Drive)、基于世界模型的方法(Drive-OccWorld、OccLLaMA)、基于扩散模型的方法(DiffusionDrive、Diffusion Planner、DiffE2E)和基于VLA的方法(ORION、OpenDriveVLA、ReCogDrive) [22][24][26][29] - 第五章设置RLHF微调大作业,提供预训练模块和强化学习模块的搭建实践 [31] 课程特色与目标 - 基于Just-in-Time Learning理念,通过通俗易懂的语言和案例帮助学员快速掌握核心技术栈 [15] - 帮助学员构建领域框架,梳理端到端自动驾驶研究发展脉络,形成自己的研究体系 [16] - 理论结合实践,配备实战环节完成从理论到实践的完整闭环 [17] - 学完课程能够达到1年左右端到端自动驾驶算法工程师水平,掌握端到端技术框架和关键技术 [36] - 可复现扩散模型、VLA等主流算法框架,将所学应用到实际项目中 [37]
字节跳动这篇论文对理想有帮助的
理想TOP2· 2025-09-15 23:32
25年9月11日字节跳动发布 Harnessing Uncertainty: Entropy-Modulated Policy Gradients for Long-Horizon LLM Agents 对理想的帮助之处在于,理想要做agent,大概率会参考的,一样会遇到类似 学习信号的强度(梯度 大小)与模型决策时的不确定性(熵)存在一种天生的、有害的耦合关系的问题 实际和人类学习挺像的,只要结果正确,就容易过渡强化其步骤正确性(类比销量高了,做啥都是对 的),遇到一个错误的路径,如果非常自信,容易不反思,无法矫正错误。迷茫探索时遇到错误,容 易畏手畏脚,不敢继续探索。 本应该被大力强化的自信且正确的步骤,只得到了微调 。本应该被严厉惩罚的自信且错误的步骤, 也只得到了微调 。而那些本应被谨慎对待的不确定的探索步骤,却承受了最剧烈的奖惩,导致训练 非常不稳定 。 字节这篇论文给出了解决这类问题的思路。 以下为更细化论述: 本质是在讲 解决一个当前LLM Agent训练中的核心困境:如何在最终结果"非成即败"(即稀疏奖励) 的漫长任务中,知道该奖励或惩罚哪一步决策 。 在传统的强化学习中,智能体(Agent) ...
进击新能源第一阵营 “增程豪华轿车新标杆”别克至境L7全国首秀
扬子晚报网· 2025-09-15 21:57
产品发布与定位 - 至境L7作为别克高端新能源子品牌"至境"的首款旗舰轿车于9月15日首次公开亮相 [1] - 该车型定位为新能源智能豪华轿车,旨在进击新能源第一阵营并重塑品牌价值 [1][20] - 至境L7已到达全国别克经销商展厅并开启早鸟计划,9月28日前下订可享终身免费保养 [1][3] 技术平台与架构 - 至境L7诞生于百万级"逍遥"超级融合架构,汇集驱动、辅助驾驶、豪华舒适等领域的王牌技术 [1][3] - 该架构依托通用汽车增程技术积淀和泛亚本土化研发实力 [5] 增程系统性能 - 搭载行业顶级"真龙"增程系统,采用252kW行业最大功率增程单电驱,动力相当于3.0T V6发动机 [5] - 满电0-100km/h加速5.9秒,80-120km/h超车加速3.8秒,亏电状态下差异均少于0.1秒 [5] - 百公里综合能耗低至0.5L,发动机介入噪声小于0.5dB,实现安静平顺的无感介入 [5] - 纯电续航达302km(同级最长),综合续航1420km,支持130kW快充,30%-80%补能需18分钟 [5] - 采用奥特能2.0增混专用高性能电池,继承15亿公里0自燃安全基因,纯电续航64万公里低衰减 [7] 智能驾驶系统 - 率先搭载"逍遥智行"辅助驾驶系统,全球首发基于端到端强化学习的Momenta R6飞轮大模型 [1][8] - 提供无断点城市NOA、业内首批不停车一键泊入等全场景辅助驾驶功能 [8] - 别克辅助驾驶累计安全行驶里程已超10亿公里 [8] 智能座舱配置 - 首发搭载高通最新一代SA8775P芯片,神经网络算力达72 TOPS专为智舱服务 [9][11] - 配备50吋全景AR-HUD抬头显示系统,可融合15组以上驾驶信息与真实道路场景 [9][13] - 15.6吋智能中控屏支持分屏显示,用户可自定义分屏比例实现主副驾专屏专用 [9] - 具备同级领先低能耗哨兵模式、同级唯一手机场景式备车功能及AI智能语音助手 [9] 外观与内饰设计 - 车身尺寸5032mmx1952mmx1500mm,轴距3000mm,属C级中大型豪华轿车 [14] - 采用星空展翼外观、豪华溜背造型、无框车门、隐藏门把手和20吋星光涡扇轮毂 [14] - 内饰采用全新纯净浮岛设计美学,提供270°皮质环绕包覆,营造典雅东方意蕴 [16] 舒适性与豪华配置 - 拥有同级最宽裕座舱空间,同级唯一四座全功能悬浮层座椅采用Nappa高级真皮包覆 [18] - 副驾搭载同级首款双120°零重力座椅,配103mm伸长4向电动腿托和一键小憩模式 [18][20] - 首发27扬声器Buick Sound剧院级豪华音响,配合22分贝图书馆级宁静空间氛围 [18] - 采用前双叉臂、后五连杆悬架结构,后悬同级唯一6球头设计,配备RTD连续阻尼可变悬架 [20]
张小珺对话OpenAI姚顺雨:生成新世界的系统
Founder Park· 2025-09-15 13:59
文章核心观点 - 语言是人类实现泛化的核心工具,是构建通用人工智能系统的最本质要素 [4][7][77] - AI Agent发展已进入下半场,重点从模型训练转向任务定义和环境设计 [5][62][63] - 创业公司最大机会在于设计新型人机交互界面,而非重复ChatGPT模式 [110][112][113] - 未来AI生态将呈现既单极又多元格局,由不同超级应用共同定义智能边界 [5][146][154] 姚顺雨背景与研究历程 - 清华姚班本科、普林斯顿博士,2019-2024年在普林斯顿攻读博士学位 [13] - 2016年接触多模态嵌入技术后转向深度学习,2018年系统性开始深度学习研究 [14][15] - 博士期间从计算机视觉转向语言模型研究,因认为语言是实现AGI的更核心方向 [15] - 专注Language Agent研究6年,2024年加入OpenAI [4][19] AI Agent技术演进 - 技术发展三阶段:符号主义AI(规则系统)→深度强化学习(环境特定)→大语言模型(泛化推理)[40][41][43] - 语言智能体与传统Agent本质区别在于具备推理能力从而实现泛化 [36][38][39] - ReAct框架成为最通用方案,实现推理与行动的协同 [26][50] - 代码环境是数字智能体最重要的"手",提供天然机器表达形式 [53][54][55] 任务与环境设计 - 当前瓶颈从方法创新转向任务定义和环境设计 [62][63] - 优秀任务需具备:结果导向奖励机制、基于规则的白盒评估、可解释性 [64][66][71] - 任务分类标准:可靠性需求型(如客服)vs创造力需求型(如证明猜想)[70][72] - 评估指标需区分Pass@k(多次尝试成功率)和Pass^k(每次成功率)[74] 产业发展与创业机会 - 模型能力溢出为创业公司创造机会,关键在于设计新型交互界面 [110][112] - 成功案例包括Cursor(编程副驾驶)、Manus(通用交互)、Perplexity(研究型搜索)[117][127][129] - 数据飞轮形成需三个条件:自主训练能力、清晰奖励信号、数据好坏分离 [123][124] - 成本不是核心瓶颈,真正关键在于找到价值超过成本的应用场景 [139][141] 未来生态展望 - OpenAI五级能力划分:聊天机器人→推理者→智能体→创新者→组织者 [44][45] - 未来12-24个月趋势:Chatbot系统自然演进为Agent系统,新型Copilot应用涌现 [165][166] - 记忆系统(Memory)将成为核心竞争壁垒,特别是上下文管理能力 [51][158][159] - 最终生态将由多个超级应用共同定义,呈现中心化与分布式并存格局 [146][152][154]
攻克强化学习「最慢一环」!交大字节联手,让大模型RL训练速度飙升2.6倍
量子位· 2025-09-13 16:06
强化学习训练效率瓶颈 - 强化学习训练效率低下 投入巨大但产出缓慢 成为AI基础设施的阿喀琉斯之踵 [1] - Rollout阶段占训练时间超过80% 受内存带宽限制和自回归特性制约 [1] RhymeRL技术创新 - 基于历史数据复用实现效率提升 训练吞吐量提升2.6倍 [2] - 发现相邻训练周期存在95%的历史Token可复用 序列相似性极高 [3] - 响应长度排序稳定 长度分布相似性显著 [4] - 采用HistoSpec技术将投机解码引入RL 以历史响应作为草稿模板 [9] - 通过树状草稿总结和批量验证 将逐字生成转为并行验证 [11][12] - 草稿接受率极高 打破内存带宽限制提升计算密度 [13] - HistoPipe实现跨步互补调度 奇数步由短到长处理 偶数步由长到短处理 [17] - 通过削峰填谷策略将GPU资源浪费降至最低 [19] 性能提升效果 - 在数学和代码任务上实现端到端训练吞吐量提升2.61倍 [21] - 适用于不同模型大小和响应长度场景 加速效果显著 [23] - 减少资源需求并缩短训练时间 加速AI技术迭代 [22] 行业意义 - 提出基于历史信息端到端加速强化学习的新范式 [23] - 充分发挥系统调度能力与硬件算力资源 适配现有训练算法 [23]
如何准备RL面试相关的问题?
自动驾驶之心· 2025-09-13 00:03
GRPO策略类型分析 - GRPO最初设计和常用实现是在线策略(on-policy)方法 其优势估计依赖于当前策略生成的样本[3][6] - 通过重要性采样等技术可扩展为离线策略(off-policy)版本 已有工作研究这种扩展在样本效率和稳定性方面的权衡[3][4] - 原始GRPO使用当前策略生成的一组候选完成来计算组内相对优势 并在此批次上构造类似PPO的代理目标更新策略[5][6] 重要性采样技术 - 重要性采样是离线策略评估的核心方法 通过行为策略数据评估目标策略价值[8] - 核心公式使用重要性权重修正分布差异 单步权重为$w_t=\frac{\pi_t(a_t|s_t)}{\pi_b(a_t|s_t)}$ 轨迹权重为$W_T=\prod_{t=0}^T w_t$[12][13] - 加权重要性采样通过归一化权重降低方差 公式为${\hat{V}}^{\pi_t}(s_0)=\sum_{i=1}^N\left(\frac{W_T^{(i)}}{\sum_{j=1}^N W_T^{(j)}}\right)\cdot G_0^{(i)}$[16] GSPO与DAPO算法改进 - GSPO解决GRPO/PPO在长序列训练中的高方差问题 将重要性比率提升到序列级并做长度归一化[18][22] - DAPO针对长思维链训练提出四项工程技术:非对称裁剪 动态采样 token级策略梯度损失和过长奖励整形[20][24] - GSPO目标函数为$J_{\mathrm{GSPO}}(\theta)=\mathbb{E}_{x\sim D,\{y_i\}\sim\pi_{\mathrm{id}}}\left[\frac{1}{G}\sum_{i=1}^G\operatorname*{min}\Bigl(s_i(\theta)\hat{A}_i,\mathrm{clip}(s_i(\theta),1-\varepsilon,1+\varepsilon)\hat{A}_i\Bigr)\right]$[23] 熵崩溃问题与解决方案 - 熵崩溃指策略熵急速下降导致确定性输出 在训练阶段需要避免以保持探索能力[27][33] - 解决方案包括熵正则化 KL约束 非对称裁剪 动态采样和序列级重要性比率[32][37] - 监控指标包括策略熵曲线 KL距离变化和奖励分布特征[35][36] 奖励劫持与熵崩溃关系 - 奖励劫持是目标错位问题 熵崩溃是策略行为失衡症状 二者常相互强化形成恶性循环[41][51] - 奖励劫持导致策略快速确定化 熵崩溃使系统难以跳出奖励劫持的局部最优[43][44] - 解决方案需从奖励设计和训练稳定性两端入手 包括修正奖励函数 增加惩罚项和使用多样化评价信号[47][51] MLA加速推理技术 - MLA通过低秩潜在向量压缩Key/Value 只缓存潜在向量而非完整K/V[52][55] - 在内存带宽受限场景可减少45% KV缓存内存 实现1.3-1.8倍推理加速[52][64] - 技术实现包括潜在向量压缩和实时上投影计算 公式为$C_t = X_t W_C$ $K = C W_{K\_up}$ $V = C W_{V\_up}$[54][61]
GPT-5 为啥不 “胡说” 了?OpenAI 新论文讲透了
腾讯研究院· 2025-09-12 16:58
文章核心观点 - OpenAI最新研究揭示语言模型幻觉产生的根本原因在于其统计学习本质,且后训练过程在当前评估体系下未能有效抑制幻觉,GPT-5可能通过非二元评估技术显著降低幻觉率 [9][12][24][32] 幻觉产生的必然性 - 幻觉是语言模型预训练阶段不可避免的副产品,因模型本质是通过统计规律生成内容,而非真实判断 [11][12] - 模型通过"是否有效"(IIV)判断器评估句子概率,但面对数据稀疏、复杂概念或训练数据错误时必然失效 [13][14] - 生成模型的错误率至少是IIV判断器错误率的2倍,因单个判断错误会衍生多种幻觉(如1+1=3和1+1≠2均属幻觉) [15][16] 后训练的局限性 - 后训练通过偏好反馈改变概率分布,将概率集中到"最佳答案"以减少不确定性幻觉,但可能增加过度自信风险 [19][20] - 主流评估基准(如GPQA、MMLU-Pro、SWE-bench)采用二元评分制,仅区分正确(1分)或错误(0分),系统性地惩罚"我不知道"的回答 [21][23] - 当前评估标准奖励猜测行为而非诚实回答,导致后训练在实践中未能有效引导模型降低幻觉 [24] 模型性能对比与技术路径 - DeepSeek R1采用二元奖励模型(ORM),在Vectara HHEM测试中幻觉率达14.3%,远高于其预训练模型DeepSeek V3的3.9% [30][31] - OpenAI o3使用过程奖励模型(PRM),通过逐步推理反馈降低幻觉率至6.8%,仅为DeepSeek R1的一半 [32] - GPT-5可能引入Universal Verifier技术,采用非二元评估标准(如评分细则Rubric),从根源上减少二元激励的负面影响 [32] 解决方向 - 后训练需引入带惩罚的评分机制,例如答对得1分、答错扣1分、过度自信答错扣9分,迫使模型成为"风险评估器"而非"得分优化器" [33] - 模型需专注于真实性而非单纯得分优化,才可能从根本上解决幻觉问题 [34]
一夜刷屏,27岁姚顺雨离职OpenAI,清华姚班天才转型做产品经理?
36氪· 2025-09-12 12:04
行业人才动态 - 顶尖AI人才姚顺雨从OpenAI离职的传闻引发行业高度关注,尽管腾讯已正式辟谣其入职消息[1] - 年仅27岁的姚顺雨拥有清华姚班本科和普林斯顿博士背景,是OpenAI智能体核心项目的深度参与者[5][7] - 其离职预示着全球AI人才生态正在发生更深层的迁徙与重组[6] 人才价值评估 - 行业传闻其可能获得高达1亿人民币的天价薪酬包,参照Meta为OpenAI核心研究员开出1亿美元报价的案例[3] - 作为OpenAI Deep Research的核心贡献者,姚顺雨的学术影响力显著,个人总引用次数达15,253次,h指数为24[11][12] - 其主导研究的ReAct论文引用4,354次,思维树论文引用4,022次,在语言智能体领域具有重要地位[12] 技术研究方向 - 姚顺雨专注研究语言智能体与数字自动化,参与开发了Operator、Deep Research及Computer-using Agent等OpenAI首批智能体产品[5][11] - 提出"评测将比训练更重要"的观点,认为AI下半场需从解题转向命题,重视定义问题与设定指标[18][19] - 强调AI发展需更靠近产品经理角色,通过测评定义真实世界中的可度量价值[20][21] 公司战略布局 - OpenAI通过智能体产品实现从"会聊天"到"会办事"的关键跃迁,代表其迈向AGI Level 3的重要一步[4] - 智能体人才的流向可能决定AI下半场的竞争格局,各大公司正积极争夺核心研究人员[1][3]
外滩大会速递(1):萨顿提出AI发展新范式,强化学习与多智能体协作成关键
海通国际证券· 2025-09-12 10:47
行业投资评级 - 报告未明确给出具体的行业投资评级 [1][2][3][4][5][6] 核心观点 - 图灵奖得主理查德·萨顿提出AI发展正进入"经验时代",强调自主交互与环境反馈为核心,强化学习与多智能体协作是实现该愿景的关键路径 [1] - 当前机器学习多数局限于对人类已有知识的静态迁移,真正能创造新知识的系统需依靠智能体在与环境直接交互中持续生成数据 [1] - 社会对AI偏见、失业及生存风险的担忧被过度放大,应通过多智能体协作机制实现共赢 [1] - 萨顿提出"四条预测原则":价值观多元共存、人类将深入理解并创造智能、超级AI或人机增强系统终将超越人类智力、权力与资源将向最高效智能体集中且"替代"成为必然 [1] - 宇宙演进被划分为粒子、恒星、复制者与设计四个时代,人类核心使命在于推进"设计",AI是迈向"设计时代"不可或缺的动力 [1] 技术范式转变 - 数据定义从静态人类语料转变为动态智能体-环境交互轨迹,意味着学习目标与系统架构的根本重构:从被动拟合数据分布转向主动预测并控制自身观测输入的能力 [2] - AlphaGo自我博弈与AlphaProof生成式推理被视为"经验优先"方法论的有效验证 [2] - 产业落地需将模型从"信息消费"角色转变为可与环境实时交互、闭环试错并持续积累能力的"智能作用体" [2] - 企业需构建具备高频交互、在线评估与能力沉淀功能的智能体运营(Agent-Ops)体系,以实现新知识自动生成与跨任务迁移 [2] 技术瓶颈与研发重点 - 强化学习核心瓶颈并非模型参数规模,而在于时间维度与任务序列处理能力,具体表现为持续学习与元学习两大短板的制约 [3] - 持续学习需克服灾难性遗忘,实现动态表征与非平稳环境中的稳定收敛;元学习要求模型具备跨任务快速迁移与重组能力,训练评估单位需从"样本"升级为"任务" [3] - 这两项能力决定系统是否具备长期演进与泛化复用潜力:缺乏则仅适用于封闭短周期任务,突破则有望在开放环境中越用越强 [3] - 企业研发重心应从追求单点性能突破(SOTA)转向构建长周期评估体系、非平稳任务基准,以及推进记忆机制、规划架构与探索策略的工程化与系统集成 [3] 多智能体协作与治理 - "去中心化协作"不仅是技术架构选择,更是关乎系统治理机制的重要命题,需将机制设计理念引入AI系统工程实践 [4] - 多智能体协作类比市场与政府分工机制,其有效运作依赖明确激励、透明协议及可验证合约的支撑 [4] - 若"权力与资源向最高效智能体集中"成为趋势,需构建三方面基础制度:开放接口与可组合协议防范垄断、合作与对抗并存的博弈测试体系避免激励扭曲、可审计可追溯的责任认定工具量化协作外部性 [4] - 缺乏系统性治理设计,"去中心化"易流于概念,难以实现可持续可信赖的协作生态 [4] 人机协作与组织变革 - AI替代集中于任务层级而非完整岗位,企业应主动推进任务解构与流程重组,系统化布局人机协作体系 [5] - 具体路径包括:制定明确的人机分工框架形成"人类决策—AI探索—AI执行—人类审计"闭环机制、构建经验采集与策略回灌体系将交互数据沉淀为可复用策略资产、改革绩效管理机制以协同效率为导向的KPI替代单一产出指标 [5] - 该体系顺应AI替代带来的效率提升需求,为可持续人机协同提供制度化抓手,有助于企业在智能化转型中保持竞争力和控制力 [5]
外滩大会再证蚂蚁的底色:金融科技公司
每日商报· 2025-09-12 07:04
大会概况 - 2025 Inclusion·外滩大会在上海黄浦世博园区开幕,主题为“重塑创新增长”,来自16个国家和地区的550位嘉宾参会 [1] - 大会聚焦“金融科技”“人工智能与产业”“创新创投生态”“全球对话与合作”“负责任创新与普惠未来”五大内容主线,设置1场开幕主论坛和44场见解论坛 [1] - 大会被誉为“亚洲三大金融科技盛会”之一,以其开放、多元、前瞻性吸引全球目光 [1] 人工智能发展趋势 - 图灵奖得主理查德·萨顿认为人类数据红利正逼近极限,人工智能正在进入以持续学习为核心的“经验时代”,潜力将远超以往 [1][2] - “经验”指的是观察、行动和奖励三种信号的交互,知识来自于经验,智能体的智能程度取决于其预测并控制自身输入信号的程度 [2] - 释放“经验时代”全部潜力需要持续学习(continual learning)和元学习(meta-learning)两项关键技术 [2] - 人工智能被视为宇宙演化的必然下一步 [3] 具身智能与机器人产业 - 宇树科技创始人王兴兴表示,随着大模型发展,AI与机器人结合正催生全新的具身智能产业,目标是让机器人拥有AGI能力 [4] - 当前具身智能发展面临高质量数据及模型算法层面的挑战,但目前被视作大规模爆发性增长的前夜 [4] - 建议年轻创新者忘记过去经验,学习最新知识,全力拥抱新时代,认为创新创业门槛已大幅降低 [4] 金融科技公司动态 - 蚂蚁集团通过战略投资涉足多个科技领域,例如今年6月投资哈啰以切入智能驾驶,并在医疗、智能体和机器人公司背后有深入布局 [5][6] - 支付宝数字政务团队发布全新政务AI助手“晓政”,融合DeepSeek、通义千问、蚂蚁百灵三种大模型 [6] - 蚂蚁数科推出“智能代理合约(Agentic Contract)”,将在其新一代Layer2区块链Jovay上原生部署 [6] - 中国银行保险报联合OceanBase海扬数据库与19家银行编委机构发布报告,指出一体化数据库是中小银行应对系统国产升级与AI规模化落地的“最优解” [6] - 外滩大会上的展示证明蚂蚁是一家纯血金融科技公司,持续走在技术最前沿 [5][6]