Workflow
多模态思考
icon
搜索文档
李想与詹锟对话自动驾驶下一步怎么走完整图文版/视频版
理想TOP2· 2026-03-18 21:25
自动驾驶技术发展瓶颈与范式转变 - 2024年之前,自动驾驶技术主要依赖规则系统,其迭代进步非常缓慢,每个模块都依赖大量人工经验进行调参和设计,瓶颈在于人工工作量[1] - 2024年之后,行业进入端到端(VA)时代,这是一个真正的AI系统,开启了真正的技术迭代[1] - 然而,最初的端到端自动驾驶系统是直驱的VA系统,类似于昆虫的条件反射,需要海量的数据和模仿学习才能应对各种情况[1] 从端到端到“硅基人”的演进路径 - 技术发展的终极目标是创造“硅基人”,即具备人类所有模态输入和输出能力的机器人[3] - 从简单的VA端到端系统走向全模态的“硅基人”,中间需要增加多种模态,例如语言(形成VLA)、未来图景想象(World Model)、触觉、音频等[5] - 当前物理AI(如自动驾驶)发展缓慢、需要巨大数据量训练的原因,本质在于对预训练(Pre-training)的思考不足[5] 3D视觉预训练是核心突破点 - 人类无需大量训练就能掌握驾驶等技能,是因为数百万年的生物演化将训练压缩在基因里,而AI缺少一个关键的“视觉皮层”预训练[7] - 理想的预训练不是理解2D图像的语义,而是理解3D世界及其语义,这能让AI在少量后训练后就能迭代出物理可用的系统[8] - 当前AI训练方式如同“看着2D视频学开车”,与人类在物理世界中的学习方式不同,新一代物理AI需要真正的3D视觉编码器和解码器[9] 现有3D感知技术的局限与3D ViT的提出 - BEV(鸟瞰图)技术将3D空间拍扁成俯视图,丢失了高度维度的信息[10][12] - OCC(占用网络)技术虽然是3D的,但缺少语义信息,无法判断物体是否可碰撞[12][14] - 公司在新一代架构中设计了真正的3D ViT(视觉Transformer),旨在还原真实的3D物理世界,实现三维空间理解与语言的对齐[14] 3D ViT的实现与算力需求 - 3D ViT通过视频流直接还原出3D空间、位置点、点云语义和像素信息[16] - 在此范式下进行海量大规预训练,抽取到的特征就是真正的3D信息[19] - 相比从2D视频学习,实现3D感知和理解需要大约十倍的计算量[21] - 公司自研的马赫100芯片在标准大矩阵乘法计算任务上,性能比上一代芯片强三倍,有信心承载新的3D ViT架构[22][23] 技术落地时间表与核心挑战 - 预计到2024年年中,模型将具备一定的思维链能力,并将多模态思考能力与3D ViT结合,真正理解3D空间[26][30][32] - 实现这一目标面临三大技术挑战:1) 构建物理世界多模态思考数据;2) 将思考与行动进行一体化推理推演;3) 建立有效的评价体系,以支持“千人千面”的个性化能力[33][36] 对用户的价值与公司战略定位 - 技术的核心价值是让用户获得安心、舒适、拟人化且个性化的自动驾驶体验,如同一位“老司机”或专业司机[37] - 公司已建立起完整的造“人”(机器人)系统和组织模式,拥有自研芯片、操作系统、积累了十年的高质量数据、基座模型(含VLA和语言模型)以及成熟的软硬件本体团队,具备了面向具身智能世界的基础[38][40][41] - 公司坚持垂直系统化能力建设,并百分之百投入[42] - 公司战略不以汽车为中心,会谨慎尝试其他领域,首先交付自动驾驶汽车,同时智能眼镜将作为随身秘书和未来控制机器的数字分身,并相信家庭服务机器人在未来几年内可实现[43][44] - 公司的愿景是通过技术进步,让过去只有富人能享受的高品质生活,未来能普及到全球10亿、20亿人,实现生活质量的实质性提升而费用不增[44][45] AI时代的市场机遇与公司策略 - AI是一个杠杆,个人或公司的专业积累越深厚,AI带来的放大效应越大[46] - 对于理想汽车而言,其所在的汽车行业全球规模达10万亿,公司目前收入仅一千多亿,此外还有机器人、算力、下一代终端等几十万亿规模的市场[50] - 因此,公司的战略重点不是用AI替代人,而是用AI赋能所有人,放大每个人的能力杠杆,目标是让三万多名员工创造一万亿收入,而非目前的一千多亿[50][51] - 关键在于将AI的创造与使用能力,与庞大的市场需求相结合[52]