马尔可夫决策过程 - 财报，业绩电话会，研报，新闻

马尔可夫决策过程

搜索文档

自动驾驶之心· 2025-08-09 00:04

自动驾驶规划技术演进 - 模块化系统中机器学习主要影响感知部分，下游规划组件变革较慢[3] - 传统系统易于解释和快速调整，但机器学习可扩展性更强[4] - 学术界和工业界推动下游模块数据驱动化，通过可微接口实现联合训练[4] - 生成式AI和多模态大模型在处理复杂机器人任务方面展现潜力[4] 规划系统核心概念 - 规划系统需生成安全、舒适、高效的行驶轨迹[11] - 输入包括静态道路结构、动态参与者、占用空间等感知数据[11] - 输出为路径点序列，典型为8秒视野内每0.4秒一个点共20个点[11] - 分为全局路径规划、行为规划和轨迹规划三个层级[12] 规划技术方法 - 搜索、采样和优化是规划三大核心工具[24] - 混合A*算法通过考虑车辆运动学改进A*算法[28] - 采样方法通过参数空间采样解决优化问题[37] - 优化分为凸优化和非凸优化，后者依赖初始解[41] 工业实践 - 路径-速度解耦方法解决约95%问题，耦合方案性能更高但实现复杂[52] - 百度Apollo EM规划器采用迭代期望最大化步骤降低计算复杂度[56] - 时空联合规划处理剩余5%复杂动态交互场景[59] - 特斯拉采用数据驱动与物理检查结合的混合系统[117] 决策系统 - 决策本质是注重交互的行为规划，处理不确定性和交互问题[68] - MDP和POMDP框架将重点从几何转向概率[69] - MPDM通过有限离散语义级策略集合简化POMDP问题[102] - 应急规划生成多条潜在轨迹应对不同未来情景[112] 神经网络应用 - 神经网络可增强规划器实时性能，实现数量级加速[130] - 端到端神经网络规划器将预测、决策和规划结合成单一网络[133] - 世界模型最终形式可能是由MCTS增强的原生多模态大模型[138] - 神经网络从树结构中提取知识，形成正反馈循环[142] 发展趋势 - 规划架构趋向"端到端"，更多模块被整合到单一系统[151] - 机器学习组件在规划中应用比例持续增加[151] - 算法从理论完美向工程实用演进，如Value Iteration到MCTS[153] - 确定性场景规划成熟，随机性场景决策仍是挑战[153]

任务级奖励提升App Agent思考力，淘天提出Mobile-R1，3B模型可超32B

量子位· 2025-07-20 10:49

移动代理技术研究 - 现有Mobile/APP Agent主要依赖动作级奖励（SFT或RL），难以适应动态移动环境[1][2] - 示例任务中Qwen2 5-VL-3B-Instruct在第二步失败，显示传统方法的局限性[3] - 淘天集团团队提出Mobile-R1框架，整合任务级奖励和交互式强化学习[4][5] 训练方法与数据集 - 采用三阶段训练流程：格式微调（SFT）、动作级训练（GRPO）、任务级训练[6][13] - 构建包含4 635条人工标注轨迹的数据集，覆盖28个中国移动应用[9][10][12] - 轨迹数据标注包含逻辑思考修正、清晰动作描述、准确调用修正三个维度[14] 奖励机制设计 - 动作级奖励包含坐标动作验证（边界框匹配）和非坐标动作完全匹配[23] - 任务级奖励引入GPT-4o评估轨迹一致性，格式奖励强化输出结构[-1 1]范围惩罚[24] - 阶段3通过马尔可夫决策过程实现多回合互动，增强探索能力[19][20] 实验结果 - Mobile-R1任务成功率49 4%，较最佳基线（AgentCPM-8B的30%）提升19 4个百分点[25][26] - 三阶段训练使Qwen2 5-VL-3B性能超越原版，动作级训练后准确率达82 84%[25][27] - 阶段3训练曲线显示策略优化效果，最终实现53 6%的尾部任务成功率[25][29] 技术突破与影响 - 首次在移动代理领域实现任务级奖励与在线纠错结合[30][31] - 开源训练框架ROLL和高质量中文轨迹数据集促进行业研究[21][33] - 方法显著提升VLM模型在动态环境中的鲁棒性，泛化能力优于基准模型[29][32]

港科大 | LiDAR端到端四足机器人全向避障系统 (宇树G1/Go2+PPO)

具身智能之心· 2025-06-29 17:51

核心观点 - 香港科技大学团队提出Omni-Perception框架，通过直接处理原始LiDAR点云数据，实现四足机器人全向避障能力，解决了传统方法在复杂三维环境中的局限性 [2][4] - 该框架结合PD-RiskNet感知网络、高保真LiDAR仿真工具和风险感知强化学习策略，形成端到端的闭环控制系统 [4][5] - 在动态障碍、空中障碍等复杂场景中表现优于传统方法，成功率显著提升 [24][27] 技术架构 Omni-Perception框架组成 - **PD-RiskNet感知网络**：分层处理近场和远场点云，近场采用最远点采样（FPS）和GRU提取局部动态特征，远场通过平均下采样和GRU捕捉全局路径特征 [8][18] - **高保真LiDAR仿真工具**：支持4096个并行环境，渲染速度比Isaac Sim提升300%，并模拟噪声和自遮挡效应 [19][21] - **风险感知强化学习策略**：将避障任务建模为马尔可夫决策过程，直接输出关节控制信号，跳过运动学逆解 [9][11] 强化学习设计 - **状态空间**：包含本体状态（关节位置、速度）、外感知状态（10帧LiDAR历史点云）和任务指令（目标速度） [10] - **奖励函数**：结合避障速度追踪奖励（36个扇区障碍检测）和距离最大化奖励（LiDAR射线优化），辅以稳定性惩罚项 [12][13][14] - **训练参数**：PPO算法，4096个并行环境，学习率1e-3，折扣因子γ=0.99 [19] 性能优势计算效率 - 相比传统SLAM+规划流水线，减少中间处理环节，计算开销更低 [7] - LiDAR仿真工具在4096环境、32k射线场景下无内存溢出，速度达Isaac Sim的5-10倍 [21][22] 场景适应性 - **动态障碍**：成功率76.7%，碰撞率56.7%，显著优于FPS+MLP（33.3%）和FPS+GRU（30.0%） [23][24] - **空中障碍**：成功率70%（传统方法0%），静态障碍成功率100% [27] - **极端场景**：密集植被中成功率60%，细长障碍（直径<1cm）需进一步优化 [28] 实现细节 PD-RiskNet网络 - **近场路径**：输入垂直角度θ>阈值的点云，输出187维特征向量，监督信号为特权高度信息 [18] - **远场路径**：输入θ<阈值的点云，输出64维特征向量，关注全局路径规划 [18] - **动作网络**：4层全连接（1024→512→256→128），输出12维关节目标位置 [19] 域随机化策略 - **物理参数**：附加质量-1.0kg至5.0kg，质心位置偏移±0.2m，电机强度缩放0.8-1.2倍 [20] - **环境参数**：地面摩擦系数0.4-1.0，重力偏移±1.0m/s²，LiDAR噪声率10% [20] 验证结果 - **真实数据对比**：仿真复现了LiDAR非重复扫描模式和自遮挡效应，几何结构匹配度高 [21] - **多场景测试**：在动态障碍场景中，传统高程图方法成功率0%，而Omni-Perception有效应对 [24][27]