逆向强化学习 - 财报，业绩电话会，研报，新闻

逆向强化学习

搜索文档

新浪财经· 2026-01-05 03:01

AI系统学习文化价值观的方法 - 研究首次表明AI系统可通过观察人类在特定文化中的行为学习并内化相应的文化价值观为解决AI跨文化适应问题提供了新思路 [1] - AI代理通过“逆向强化学习”方法从所观察群体的行为中推断其行为目标与内在价值观 [2] - 在实验中基于表现出更多利他行为的人类组数据训练的AI 在后续的捐赠任务中成功将习得的“利他倾向”推广到新场景表现出更高的慷慨度 [2] 当前AI训练的文化局限性与新路径 - 当前AI通常基于大规模互联网数据进行训练这些数据中蕴含的价值观往往具有文化偏向性导致系统在不同文化背景的用户面前表现不一致 [1] - 研究尝试让AI以“观察学习”的方式从具体文化群体的行为中吸取价值观而非被预先植入某一套通用准则 [1] - 该方法类似于儿童的学习方式即通过观察父母与他人的互动潜移默化地学会分享关怀等社会行为价值观更多是“被捕捉”而非“被教授”的 [2] 研究的实验设计与验证 - 研究团队招募了190名成年人参与实验让他们分别与AI代理进行互动参与一款改编自游戏《Overcooked》的协作任务 [1] - 在游戏中参与者可选择是否将自己获得的资源无偿赠送给明显处于劣势的机器人玩家尽管这会影响自己的任务得分结果显示有一组参与者整体表现出更多的利他行为 [1] - 该研究目前仍处于概念验证阶段未来还需在更多文化情境价值冲突场景及复杂现实问题中进一步验证其可行性 [2] 研究的应用前景与行业意义 - 如何创建具有文化适应性能理解他人视角的AI 是当前社会面临的重要课题 [2] - 随着输入数据的文化多样性和体量增加这类“观察学习”方法有望帮助开发出更贴合特定文化背景的AI系统 [2]

自驾VLA再升级！博世最新IRL-VLA：奖励世界模型打造全新闭环强化学习框架

自动驾驶之心· 2025-08-13 07:33

自动驾驶技术框架IRL-VLA - 提出三阶段闭环强化学习框架：模仿学习预训练VLA策略、逆向强化学习构建奖励世界模型(RWM)、RWM引导的PPO策略优化[3][11][26] - 核心创新点包括轻量化RWM替代高成本仿真器、扩散式轨迹生成规划器、语义与3D推理模块融合[11][18][19] - 在NAVSIM v2基准测试EPDMS达74.9，CVPR2025挑战赛获亚军成绩45.0 EPDMS[3][42][46] 技术架构创新 - VLA模型整合语义推理模块(Senna-VLM框架)、BEV编码的3D推理模块、基于扩散的轨迹规划器[18][19] - RWM通过逆向强化学习建模8项驾驶指标(碰撞/合规性/舒适度等)，权重遵循EPDMS标准[22][24] - 采用分层去噪的扩散策略生成多模态轨迹，结合GAE优势估计优化PPO训练过程[29][32] 性能验证与对比 - NAVSIM数据集测试显示：预训练模型(IRL-VLA-PT)在扩展舒适度(EC 76.0)和自车进度(EP 83.9)显著优于GTRS-Aug(EC 54.2/EP 76.1)[42] - 消融实验证实：扩散规划器使EPDMS提升3.0，语义推理模块提升1.4；模仿学习权重0.5时效果最佳[44][45] - 相比传统方法(PDM-Closed EPDMS 51.3)，实现46%的性能提升且保持计算效率[42] 行业应用价值 - 首个不依赖仿真器的闭环VLA方案，解决Sim2Real领域差距与计算瓶颈问题[11][23] - 方法可扩展至真实世界数据，支持多目标(安全/效率/规则)联合优化[26][33] - 为端到端自动驾驶提供新范式，推动感知-规划-控制全链路协同优化[46]

Reward World Model (RWM)

Reward World Model (RWM)