理想同学 - 财报，业绩电话会，研报，新闻

理想同学

搜索文档

陈伟GTC2024讲MindGPT压缩版/视频版/图文版

理想TOP2· 2025-12-15 20:02

文章核心观点文章系统阐述了理想汽车如何以其自研的多模态认知大模型MindGPT为核心，构建领先的三维空间人机交互体验，推动车载交互从“人适应机器”向“机器适应人”转变，并详细介绍了支撑该体验的多模态感知技术、大模型能力及背后的AI工程架构 [10][20][21] 智能座舱交互理念与技术架构 - 公司致力于将人机交互从二维平面扩展到物理世界下的三维空间，目标是让交互方式从人适应机器转变为机器主动适应人，以提供更自然的体验 [10] - 公司融合语音、视觉、触控等多模态感知信息，旨在提供可媲美人与人交互的自然体验 [11] - 公司的AI助手“理想同学”被定位为车主的数字家庭成员，其技术覆盖感知、理解、表达三大能力，借助全车传感器具备听、看和触摸的多模态感知能力 [13] - 公司认为，以感知和表达为代表的感知智能已成熟，而以理解为代表的认知智能在2022年底大模型出现后迎来变革 [14] 多模态感知技术 (MindGPT-MP) - 公司的多模态感知大模型MindGPT-MP通过海量视听数据进行自监督学习与多任务精调，利用全车麦克风与摄像头实现同步感知 [2][29] - 该技术经过信号分离与融合，实现精准的用户定位与人声分离，具备多语种、多方言及情绪感知的边听边看能力 [2][29] - 该技术支持“指令自由说”，允许用户下达不限数量的连续指令控制 [2][30] - 该技术支持“方言自由说”，支持多种方言的自由唤醒与识别 [2][30] - 该技术引入“多模态指代”功能，如“手指指代”（指车窗即开窗），结合“可见即可说”，大幅降低用户交互门槛 [2][32] 多模态认知大模型 MindGPT 的核心能力 - 公司于2023年6月发布MindGPT，以其为核心构建了感知-规划-记忆-工具-行动的完整Agent能力 [2][35] - MindGPT基座模型采用自研的TaskFormer结构，并在2023年12月通过OTA 5.0正式推送，曾获C-Eval和CMMLU双榜第一 [2][39] - 模型训练在通识知识基础上，重点加强了车载场景（用车、出行、娱乐）的15个重点领域知识，通过SFT和RLHF覆盖了110多个领域和1000多种专属能力 [3][35] - MindGPT作为中控大脑，可连接外部Model Zoo和API Zoo，通过RAG技术连接搜索能力，自主规划任务并调度工具 [4][36] - 模型具备记忆网络，能理解家庭成员偏好与历史对话，实现个性化服务 [4][36] - 模型具备在线强化学习能力，能基于用户反馈持续迭代，实现越用越好用 [4][36] AI工程架构：训练平台 (Li-PTM) - 为支撑千亿级大模型高效迭代，公司自研了训练平台Li-PTM及TB级吞吐的大数据处理系统Li-ARK [4][44] - 训练采用4D并行策略，结合数据并行、Tensor并行、流水线并行和序列并行，以极致利用GPU算力 [4][44] - 性能表现方面，在相同模型和训练集下，Li-PTM在SFT阶段的训练速度是当时行业最好开源能力的3倍以上，RLHF速度约为DeepSpeed的3.1倍 [4][47] - 在基座训练阶段，Li-PTM的训练速度是Hugging Face Transformer的5.12倍，高于DeepSpeed（1.6倍）和Colossal-AI（3.5倍） [46][47] AI工程架构：推理引擎 (LisaRT-LLM) - 针对落地应用，公司设计了端云融合的推理体系，核心是自研推理引擎LisaRT-LLM [4][41] - 架构自底向上包含LisaRT-LLM引擎、支持Continuous Batching的调度平台、TaskFormer中控服务以及端云一体的SAI SDK [4][42] - 性能优化方面，公司与NVIDIA深度合作，引入Fused MHA、Flash Attention等技术，并利用TensorRT-LLM优化核心算子 [5][49][50] - 推理服务的性能指标要求为：预填充延迟控制在500毫秒以内，解码速度大于20 Token/秒 [5][50] - 压测结果显示，在A800显卡上，LisaRT-LLM的吞吐率相比vLLM提升1.3倍以上，在高并发下仍能保持低延迟响应 [5][53]