多模态思考 - 财报，业绩电话会，研报，新闻

多模态思考

搜索文档

理想TOP2· 2026-03-18 21:25

自动驾驶技术发展瓶颈与范式转变 - 2024年之前，自动驾驶技术主要依赖规则系统，其迭代进步非常缓慢，每个模块都依赖大量人工经验进行调参和设计，瓶颈在于人工工作量[1] - 2024年之后，行业进入端到端（VA）时代，这是一个真正的AI系统，开启了真正的技术迭代[1] - 然而，最初的端到端自动驾驶系统是直驱的VA系统，类似于昆虫的条件反射，需要海量的数据和模仿学习才能应对各种情况[1] 从端到端到“硅基人”的演进路径 - 技术发展的终极目标是创造“硅基人”，即具备人类所有模态输入和输出能力的机器人[3] - 从简单的VA端到端系统走向全模态的“硅基人”，中间需要增加多种模态，例如语言（形成VLA）、未来图景想象（World Model）、触觉、音频等[5] - 当前物理AI（如自动驾驶）发展缓慢、需要巨大数据量训练的原因，本质在于对预训练（Pre-training）的思考不足[5] 3D视觉预训练是核心突破点 - 人类无需大量训练就能掌握驾驶等技能，是因为数百万年的生物演化将训练压缩在基因里，而AI缺少一个关键的“视觉皮层”预训练[7] - 理想的预训练不是理解2D图像的语义，而是理解3D世界及其语义，这能让AI在少量后训练后就能迭代出物理可用的系统[8] - 当前AI训练方式如同“看着2D视频学开车”，与人类在物理世界中的学习方式不同，新一代物理AI需要真正的3D视觉编码器和解码器[9] 现有3D感知技术的局限与3D ViT的提出 - BEV（鸟瞰图）技术将3D空间拍扁成俯视图，丢失了高度维度的信息[10][12] - OCC（占用网络）技术虽然是3D的，但缺少语义信息，无法判断物体是否可碰撞[12][14] - 公司在新一代架构中设计了真正的3D ViT（视觉Transformer），旨在还原真实的3D物理世界，实现三维空间理解与语言的对齐[14] 3D ViT的实现与算力需求 - 3D ViT通过视频流直接还原出3D空间、位置点、点云语义和像素信息[16] - 在此范式下进行海量大规预训练，抽取到的特征就是真正的3D信息[19] - 相比从2D视频学习，实现3D感知和理解需要大约十倍的计算量[21] - 公司自研的马赫100芯片在标准大矩阵乘法计算任务上，性能比上一代芯片强三倍，有信心承载新的3D ViT架构[22][23] 技术落地时间表与核心挑战 - 预计到2024年年中，模型将具备一定的思维链能力，并将多模态思考能力与3D ViT结合，真正理解3D空间[26][30][32] - 实现这一目标面临三大技术挑战：1) 构建物理世界多模态思考数据；2) 将思考与行动进行一体化推理推演；3) 建立有效的评价体系，以支持“千人千面”的个性化能力[33][36] 对用户的价值与公司战略定位 - 技术的核心价值是让用户获得安心、舒适、拟人化且个性化的自动驾驶体验，如同一位“老司机”或专业司机[37] - 公司已建立起完整的造“人”（机器人）系统和组织模式，拥有自研芯片、操作系统、积累了十年的高质量数据、基座模型（含VLA和语言模型）以及成熟的软硬件本体团队，具备了面向具身智能世界的基础[38][40][41] - 公司坚持垂直系统化能力建设，并百分之百投入[42] - 公司战略不以汽车为中心，会谨慎尝试其他领域，首先交付自动驾驶汽车，同时智能眼镜将作为随身秘书和未来控制机器的数字分身，并相信家庭服务机器人在未来几年内可实现[43][44] - 公司的愿景是通过技术进步，让过去只有富人能享受的高品质生活，未来能普及到全球10亿、20亿人，实现生活质量的实质性提升而费用不增[44][45] AI时代的市场机遇与公司策略 - AI是一个杠杆，个人或公司的专业积累越深厚，AI带来的放大效应越大[46] - 对于理想汽车而言，其所在的汽车行业全球规模达10万亿，公司目前收入仅一千多亿，此外还有机器人、算力、下一代终端等几十万亿规模的市场[50] - 因此，公司的战略重点不是用AI替代人，而是用AI赋能所有人，放大每个人的能力杠杆，目标是让三万多名员工创造一万亿收入，而非目前的一千多亿[50][51] - 关键在于将AI的创造与使用能力，与庞大的市场需求相结合[52]