Workflow
XLA认知大模型
icon
搜索文档
对话小米辅助驾驶团队:两年三阶,一场以体验为终点的技术马拉松
36氪· 2026-04-08 21:36
小米辅助驾驶的技术演进路径 - 公司辅助驾驶发展经历了从跟随行业主流到形成自主技术路径的快速进化 在两年内完成了三次关键跨越:2024年3月第一代方案随SU7量产进入“无图开城”战场 属于规则驱动阶段[5];2025年2月推出第二代辅助驾驶系统 并于同年7月迭代至1000Clips版本 转向数据驱动的“端到端”模型赛道[5];2026年3月随新一代SU7发布第三代方案 即基于XLA认知大模型的新一代辅助驾驶方案 标志着进入认知驱动阶段[3][5] - 公司从第一性原理出发进行思考 在行业因数据驱动方案遭遇长尾场景瓶颈时 未盲目投入数据军备竞赛 而是转向探索让车像人一样理解驾驶环境的根本原理[6] - 公司凭借清晰迅猛的技术进化路径 在认知驱动的新起点上与行业领先玩家站在了同一起跑线 甚至展现出独特的技术思考[7] XLA认知大模型的技术解析与优势 - XLA认知大模型的核心是让辅助驾驶系统具备对环境的认知能力 能够习得人类世界的常识、交通规则和道路实物的因果关系 以解决端到端模型难以处理的长尾问题[12][13] - 相比端到端模型 XLA在复杂场景下具备显著优势 例如在道路封闭需临时绕行的场景中 端到端模型可能无法主动理解应绕行 而XLA能结合现场标识和环境信息进行推理并发起合理绕行[14] - XLA中的“X”具有多层含义:第一 采用比视觉更多的模态作为信息输入 包括视觉、声音、雷达及导航等多模态信息[15];第二 具备更丰富的数据 因其基座模型在预训练阶段就加入了大量具身智能数据[16];第三 采用“潜空间推理”技术 使用机器语言进行推理 在保证推理能力的同时实现了过程与时延可控 并具备可解释性[17] 自研基座模型与具身智能融合 - 公司使用自研的Xiaomi MiMo-Embodied具身基座模型 而非行业常见的开源模型 这使得公司在基座模型的预训练阶段便能融入具身智能数据[16] - 将具身智能数据用于汽车训练 主要目的是增强汽车的空间感知和空间推理能力 人形机器人抓握等任务的训练数据精度可达厘米级 高于汽车分米级的感知精度 能提升汽车能力[19] - 人形机器人拥有大量与物理世界交互的数据 有助于让辅助驾驶系统理解动作的后果 而不仅仅是避免碰撞 Xiaomi MiMo-Embodied是全球首个打通辅助驾驶和机器人的具身智能基座模型[19] - 融合具身智能与辅助驾驶数据面临挑战 包括机器人本体形态多样、传感器位置与图像分辨率不同 以及辅助驾驶输出多为2D而机器人输出为3D空间多关节数据 需要精巧的模型结构进行统一[20] 工程落地与功能实现 - 公司将复杂的XLA认知大模型成功部署到车端并推送给所有用户 其工程能力自评较为领先[27] - 泊车功能实现智能化升级 新功能可根据导航的最终目的地(如商场内具体商户) 在停车场中自动寻找离目标电梯口最近的停车位 该功能已获得用户好评[21] - 实现智能泊车功能的难点在于让车像人一样 在陌生地库环境中读懂文字标牌、电梯口信息等指引 并在最近车位满员时自主漫游寻找合适车位[25] - 车端实时处理能力要求高 公司通过大量算法优化和工程开发才完成XLA的部署 在此过程中积累了独有的Know-How[26] 未来技术挑战与发展方向 - 首要挑战是车端算力限制与大模型尺寸、能力提升之间的矛盾 公司目前通过潜空间推理技术应对 未来需做更多工作[28] - 第二个挑战是提升车端模型的参数量 使其在训练中能消费更多数据、理解更多场景[29] - 第三个方向是为用户开发更多行车和泊车功能 以进一步提升产品体验和带来惊喜[30] - 认知大模型的优化不仅依赖持续的高质量数据 更取决于自研基座模型的能力 从头打造基座模型需要强大团队、数据清洗、Infra系统搭建及持续迭代 考验企业的资源投入与技术趋势判断[32][33] 技术路线融合:认知大模型与世界模型 - 公司并未All in单一技术路线 而是将XLA认知大模型与世界模型的技术路线结合起来 车端采用XLA 云端并未放弃世界模型[34][36] - 世界模型在构建闭环仿真环境(将物理世界投射到数字空间)方面具有不可替代的优势 对于难以在现实世界批量收集的长尾场景(如路面异形障碍物)的探索至关重要[37] - 公司高度重视世界模型 在包括CVPR2026、ICLR2026、NIPS2025、ICCV2025等顶会上发表了近10篇相关论文 并自2024年上半年开始技术准备 至2025年下半年进入技术收获期[42][44] - 世界模型未来的迭代方向聚焦三点:仿真的真实性(如模拟摄像头挂水珠的雨天而非绝对干净的环境)、场景的丰富性(可自由改变天气光照等条件)、以及强大的场景编辑能力[43] 研发价值观与产品理念 - 公司辅助驾驶研发秉承“和用户交朋友”的理念 坚持从用户体验角度出发定义产品需求并反向推动技术迭代 例如团队因坚信XLA能带来“很酷”的用户体验而选择攻坚该路线[9][52] - 公司定义好的辅助驾驶体验核心是“安全”与“安心”并重 安全是技术维度上避免碰撞 安心是让用户敢用、愿用 消除因系统行为不可预测(如急刹车)带来的不安感[47][48][49] - 为提升安心感 公司在产品设计中融入类人驾驶逻辑 例如在路口盲区进行预防性减速 在即将进入拥堵路段时提前防御性降速而非极限急刹[51] - 公司研发风格务实 虽起步较晚且发布节奏并非最快 但坚持将体验最好、最安全的产品交付给用户 而非单纯追求技术指标或博取眼球[8][52]