一位常年做GPU优化的人对理想能让Orin跑VLA很高评价
文章核心观点 - 理想汽车在英伟达Orin芯片上成功运行视觉语言模型是一项极具技术水准的工作 其核心在于通过与英伟达深度合作 重写底层PTX指令集 突破了硬件原定的性能限制 [1] 理想汽车的技术突破 - 理想汽车与英伟达进行了深度架构对齐 基于PTX指令集重构了底层算子 并打造了自研推理引擎 成功突破了通用TensorRT算子集的性能天花板 [1] - 此项工作源于英伟达最初认为Orin芯片无法运行大语言模型 在理想汽车的坚持下通过重写PTX得以实现 [1] - 基于PTX的底层开发意味着工程师突破了高级语言抽象层 实现了对指令流水线与数据生命周期的细粒度控制 这不同于常规依赖编译器启发式算法的CUDA C++编程 [1] - 理想汽车可能通过显式插入Ampere架构特有的异步拷贝指令 将计算流水线与显存访问的延迟掩盖做到极致 [2] - 此项工作证明了理想汽车团队具备深入分析SASS并在指令级挖掘硬件潜能的核心能力 是一项高门槛的系统工程 [2] 与英伟达的合作关系 - 理想汽车与英伟达是通力合作关系 英伟达在Orin芯片微架构层面提供了原厂级的技术指引与配合 [1] - “理想是在教英伟达怎么压榨芯片能力”这一说法虽有事实依据但表述偏颇 “教”一词过于居高临下 未能准确反映双方的合作本质 [1]