小鹏关于自己VLA路线的一些QA
理想TOP2·2025-05-09 22:30
原作者:小鹏自动驾驶产品高级总监微博用户XP-Candice婷婷 原文链接: https://weibo.com/7926776135/PqSjHhgEN 1、为什么云端大模型蒸馏,优于直接训练一个车端的小模型? 小鹏的技术路线选择的,是超大型云端模型蒸馏,而不是仅仅云端小型训练后直接部署到车端。 我们 正在云上训练72B参数的超大规模VLA模型,未来会通过蒸馏方法,生产出小尺寸的车端模型。蒸馏最 大的好处,是让车端小模型尽可能承袭云端大模型的能力,把72B超级大脑的智能"推云入端"。 这比直 接训练一个车端小模型更难,但上限也更高。 原因1:更强的规模法则效应。 模型参数的利用率是有限的,通过云端更大的模型,有更多的数据,能学到更多的东西,涌现效应更 强。再蒸馏到车端的小模型上,可以让小模型有更强的表现。 原因2:解决"模态不统一"的困境。 自动驾驶本身就是多解的(也就是所谓的多模态的),会遇到"模态不统一"的困境。模态不统一,指的 是,面对同一个驾驶场景,驾驶者的表现会不同,且每一条路径选择都是对的,面对输出的多模态,如 果让模型直接通过模仿学习去学这个,就会造成模态的不统一,甚至会出现模态坍塌,而且这个 ...