动态规划 - 财报，业绩电话会，研报，新闻

动态规划

搜索文档

猿大侠· 2026-01-18 12:11

携程内部系统乌龙事件 - 大量携程员工于1月12日晚突然收到措辞正式的离职通知短信，短信以“XX你好，感谢一路相伴”开头 [2] - 事件起因是公司内部沟通软件trappal下线，在关停关联手机号绑定功能时，工作人员未提前关闭系统预设的短信提醒 [2] - 该事件一度登顶微博热搜榜，引发网友广泛讨论 [2] - 携程事后通过内部渠道向员工说明，此事件为系统测试阶段的乌龙，不存在全员离职计划，并向受影响员工致歉 [2] - 网友对此事件反应不一，有人调侃其为“巨大的草台班子”，也有人认为携程是“营销鬼才”，在免费做宣传 [2]

猿大侠· 2025-12-20 12:11

算法题讲解 - 文章介绍了一道来自LeetCode第1186题的算法题，题目为“删除一次得到子数组最大和”，难度为中等 [5] - 题目要求是给定一个整数数组，返回其某个非空连续子数组在执行最多一次删除操作后所能获得的最大元素总和 [5] - 问题分析指出数组长度约束为 `1 <= arr.length <= 10^5`，数组元素值约束为 `-10^4 <= arr[i] <= 10^4` [8] 解题思路与示例 - 通过两个示例说明题目解法：对于输入 `arr = [1,-2,0,3]`，最优解是选择子数组 `[1, -2, 0, 3]` 并删除元素 `-2`，得到最大和 `4` [6][7] - 文章指出该问题本质上是动态规划问题，并定义了两种状态 [9] - 定义 `dp[i][0]` 表示没有删除任何元素且以 `arr[i]` 结尾的最大连续子数组之和 [9] - 定义 `dp[i][1]` 表示最多删除一个元素且以 `arr[i]` 结尾的最大连续子数组之和 [9] 动态规划递推公式 - 推导出状态转移方程：`dp[i][0] = Math.max(dp[i - 1][0], 0) + arr[i]` [9] - 推导出状态转移方程：`dp[i][1] = Math.max(dp[i - 1][1] + arr[i], dp[i - 1][0])` [9] - 对公式进行解释：`dp[i][0]` 表示不删除元素，总和为当前元素加上前序子数组和（若为负则舍弃） [9] - 对公式进行解释：`dp[i][1]` 表示最多删除一次，可能继承已删除状态并加上当前元素，也可能删除当前元素而取前序未删除状态 [9] 初始化与代码实现 - 明确了动态规划的初始条件：第一个元素未删除时 `dp[0][0] = arr[0]`，第一个元素被删除时 `dp[0][1] = 0` [10] - 提供了该算法的Java语言实现代码，包括初始化、循环递推和结果保存 [11] - 提供了该算法的C++语言实现代码，逻辑与Java版本一致 [12]

动态规划

GPT-5惨遭零分打脸，顶级AI全军覆没，奥特曼AI博士级能力神话破灭

36氪· 2025-09-16 08:39

FormulaOne基准测试结果 - 顶级大模型在FormulaOne基准测试中表现不佳 GPT-5在基础题正确率接近50% 在进阶题正确率仅4% 在最深层问题正确率为0 [1][6] - 其他模型包括o3 Pro、Claude 4 Opus、Neo、Gemini 2.5 Pro和Grok 4在进阶题和最深层问题正确率均为0或接近0 [1][6][19] - FormulaOne基准包含220个基于图的动态编程问题分为浅层100题、更深100题和最深层20题三个难度等级 [15][16] FormulaOne基准特点 - 基准测试由AAI公司开发专注于图上MSO逻辑与动态规划生成问题旨在衡量超越竞赛编程的算法推理深度 [1][8][15] - 问题具有商业价值与实际大规模优化问题相关如路径规划、调度和网络设计 [17] - 基准测试生成自高度表达的单子二阶逻辑框架为大规模自动问题生成铺平道路适合构建强化学习环境 [18] - 许多问题与理论计算机科学前沿及核心猜想密切相关如强指数时间假设 [18] 模型表现分析 - 模型在最深层问题出现概念崩溃需要非常深入的推理能力现有模型无法达到 [18][25] - 问题描述简洁但解决需要创造力和深入推理涉及拓扑和几何洞察、数学知识、组合考虑等 [16][19] - 与竞赛编程不同现实世界问题涉及多个不确定步骤没有简单捷径需要正确且高效的动态程序设计 [25][26] - 模型倾向于过早做出不可逆决策状态设计需要足够丰富又保持计算可行性这是主要挑战 [27] AAI公司背景 - AAI由Mobileye联合创始人Amnon Shashua教授发起 2023年8月在耶路撒冷成立长期处于半隐身状态 [10] - Shashua教授2020年获丹·大卫奖人工智能领域奖项 2022年被汽车名人堂评为移动创新者 [11] - 曾联合创立Mobileye 公司2014年完成以色列史上最大IPO 2017年被Intel以153亿美元收购 2022年再次纳斯达克上市 [12] 基准测试意义 - 现有基准测试无法完整描绘人工智能理解深度竞赛编程技能不能涵盖解决现实世界研究问题所需的全部推理能力 [15] - 解决全球供应链优化、大规模电网管理、弹性网络基础设施设计等任务比竞赛编程困难多个数量级 [15] - FormulaOne通过实时排行榜和评估框架与社区分享可能需要定性不同的方法突破现有局限 [18][30]

算法推理深度

动态规划

强指数时间假设

Artificial Intelligence

Artificial Intelligence

GPT-5

o3-Pro

基于深度强化学习的轨迹规划

自动驾驶之心· 2025-08-29 07:32

强化学习技术范式演进 - 业界从端到端自动驾驶转向VLA和强化学习等新技术范式 [4] - 强化学习在2018年AlphaZero和2023年ChatGPT RLHF推动下获得更广泛应用潜力 [4] - 2025年初DeepSeek-R1在线推理进一步拓展强化学习使用场景 [4] 学习范式对比 - 监督式学习通过海量数据拟合输入到输出的映射函数优化目标为平均均方误差值 [5] - 模仿学习以专家动作为监督信号进行行为克隆在自动驾驶中扩展为短时序轨迹学习 [6] - 强化学习通过环境交互和任务结果反馈优化模型采用延迟满足的时序决策机制 [7] - 逆强化学习通过用户反馈学习reward-model 解决奖励函数难以定义的问题 [8] 基础理论框架 - 马尔可夫决策过程将时序任务分解为状态概率转移任务适用于自动驾驶目标生命周期管理 [10] - 动态规划通过分解最优子问题解决离散空间时序任务 [12] - 蒙特卡洛方法利用大数原理统计系统宏观特性 [13] 核心概念体系 - 策略分为确定性和随机性两种自动驾驶通常采用确定性策略 [14] - 奖励函数提供环境反馈价值回报定义为衰减因子加权和的时序期望值 [15] - 状态价值函数表示状态期望回报动作价值函数评估状态动作组合的期望回报 [16][17] - 优势函数衡量动作价值与状态价值的差异 [19] - 贝尔曼方程通过动态规划分解价值函数 [20] 算法分类体系 - 值优化方法直接最大化Q或V函数包括动态规划/蒙特卡洛/时序差分算法 [25][26] - 策略优化分为on-policy和off-policy两种后者训练稳定性更好但存在分布偏差 [27][28] - 动态规划采用策略迭代和价值迭代算法求解离散任务 [30] - 蒙特卡洛方法通过统计平均估计价值函数 [32] - 时序差分算法引入常数alpha简化更新过程衍生出SARSA和Q-learning等算法 [34][39] 深度强化学习算法 - DQN算法通过经验回放和目标网络解决连续状态表达问题 [41] - Dueling DQN将价值网络分解为Q和A的和并增加正则项 [42] - GAE算法结合蒙特卡洛和时序差分进行优势估计 [42] - 策略梯度算法使用梯度下降方式更新策略参数 [46] - Actor-Critic算法同时学习策略和价值函数 [49] - TRPO算法通过置信区间约束保证训练稳定性 [53] - PPO算法简化TRPO约束条件为clip函数 [55] - GRPO算法采用在线group样本统计平均替换value-model [57] 自动驾驶应用实践 - 预训练通过模仿学习任务初始化策略和价值网络 [58] - 策略梯度采用概率建模方法处理action输出 [59] - reward设计涵盖安全性/安心感/效率等指标高级功能通过逆强化学习实现 [60] - 闭环训练需要多智能体博弈建模环境动态响应 [60] - 端到端强化学习需实时生成更新后的sensor内容 [61]