为什么自动驾驶中的强化学习,没有很好的落地?
自动驾驶之心·2025-09-28 11:50
如果您也想和自动驾驶学术界或工业界的大佬交流,欢迎加入自动驾驶之心知识星球。 我们是一个认真做内容的社区,一个培养未来 领袖的地方。 『自动驾驶之心知识星球』目前集视频 + 图文 + 学习路线 + 问答 + 求职交流为一体,是一个综合类的自驾社区,已经超过4000人了。 我们期望未来2年内做到近万人的规模。给大家打造一个交流+技术分享的聚集地,是许多初学者和进阶的同学经常逛的地方。 为什么自动驾驶领域内的强化学习,没有很好的落地? 柱哥昨晚和星球嘉宾讨论自动驾驶强化学习的内容,分享给大家。 强化学习一直面临一个很严重的问题 - reward hack,当安全要求提高后,效率会降低。效率提升又可能导致安全性降低。所以这就引申 出一个问题,如何设计一个balance的reward,能够去平衡每一项表现。想得到一个全面性能提升的强化学习模型,其实非常难。多个 reward之间如何达到平衡也非常困难的。当然也有类似使用逆强化学习的方法去训练每一个reward的权重。 具身智能在我的理解中是一个local motion 的工作,它的目标很清晰。但自动驾驶不仅要完成最终行驶的目标,在中间的过程还要强依 赖某些驾驶规则。比 ...