文章核心观点 文章系统阐述了理想汽车如何以其自研的多模态认知大模型MindGPT为核心,构建领先的三维空间人机交互体验,推动车载交互从“人适应机器”向“机器适应人”转变,并详细介绍了支撑该体验的多模态感知技术、大模型能力及背后的AI工程架构 [10][20][21] 智能座舱交互理念与技术架构 - 公司致力于将人机交互从二维平面扩展到物理世界下的三维空间,目标是让交互方式从人适应机器转变为机器主动适应人,以提供更自然的体验 [10] - 公司融合语音、视觉、触控等多模态感知信息,旨在提供可媲美人与人交互的自然体验 [11] - 公司的AI助手“理想同学”被定位为车主的数字家庭成员,其技术覆盖感知、理解、表达三大能力,借助全车传感器具备听、看和触摸的多模态感知能力 [13] - 公司认为,以感知和表达为代表的感知智能已成熟,而以理解为代表的认知智能在2022年底大模型出现后迎来变革 [14] 多模态感知技术 (MindGPT-MP) - 公司的多模态感知大模型MindGPT-MP通过海量视听数据进行自监督学习与多任务精调,利用全车麦克风与摄像头实现同步感知 [2][29] - 该技术经过信号分离与融合,实现精准的用户定位与人声分离,具备多语种、多方言及情绪感知的边听边看能力 [2][29] - 该技术支持“指令自由说”,允许用户下达不限数量的连续指令控制 [2][30] - 该技术支持“方言自由说”,支持多种方言的自由唤醒与识别 [2][30] - 该技术引入“多模态指代”功能,如“手指指代”(指车窗即开窗),结合“可见即可说”,大幅降低用户交互门槛 [2][32] 多模态认知大模型 MindGPT 的核心能力 - 公司于2023年6月发布MindGPT,以其为核心构建了感知-规划-记忆-工具-行动的完整Agent能力 [2][35] - MindGPT基座模型采用自研的TaskFormer结构,并在2023年12月通过OTA 5.0正式推送,曾获C-Eval和CMMLU双榜第一 [2][39] - 模型训练在通识知识基础上,重点加强了车载场景(用车、出行、娱乐)的15个重点领域知识,通过SFT和RLHF覆盖了110多个领域和1000多种专属能力 [3][35] - MindGPT作为中控大脑,可连接外部Model Zoo和API Zoo,通过RAG技术连接搜索能力,自主规划任务并调度工具 [4][36] - 模型具备记忆网络,能理解家庭成员偏好与历史对话,实现个性化服务 [4][36] - 模型具备在线强化学习能力,能基于用户反馈持续迭代,实现越用越好用 [4][36] AI工程架构:训练平台 (Li-PTM) - 为支撑千亿级大模型高效迭代,公司自研了训练平台Li-PTM及TB级吞吐的大数据处理系统Li-ARK [4][44] - 训练采用4D并行策略,结合数据并行、Tensor并行、流水线并行和序列并行,以极致利用GPU算力 [4][44] - 性能表现方面,在相同模型和训练集下,Li-PTM在SFT阶段的训练速度是当时行业最好开源能力的3倍以上,RLHF速度约为DeepSpeed的3.1倍 [4][47] - 在基座训练阶段,Li-PTM的训练速度是Hugging Face Transformer的5.12倍,高于DeepSpeed(1.6倍)和Colossal-AI(3.5倍) [46][47] AI工程架构:推理引擎 (LisaRT-LLM) - 针对落地应用,公司设计了端云融合的推理体系,核心是自研推理引擎LisaRT-LLM [4][41] - 架构自底向上包含LisaRT-LLM引擎、支持Continuous Batching的调度平台、TaskFormer中控服务以及端云一体的SAI SDK [4][42] - 性能优化方面,公司与NVIDIA深度合作,引入Fused MHA、Flash Attention等技术,并利用TensorRT-LLM优化核心算子 [5][49][50] - 推理服务的性能指标要求为:预填充延迟控制在500毫秒以内,解码速度大于20 Token/秒 [5][50] - 压测结果显示,在A800显卡上,LisaRT-LLM的吞吐率相比vLLM提升1.3倍以上,在高并发下仍能保持低延迟响应 [5][53]
陈伟GTC2024讲MindGPT压缩版/视频版/图文版