公司技术架构升级 - 公司指出传统2D视觉Transformer模型无法真正理解物理世界 且供应商芯片的视频编码器是黑盒无法修改[1] - 公司通过自研的马赫100芯片采用数据流架构 获得了足够算力来运行3D视觉Transformer模型[1] - 公司搭配全线控系统 使模型能直接输出控制转向和刹车 获得了比人类更好的响应时间与灵敏程度[1] 3D视觉Transformer技术解析 - 早期2D视觉Transformer处理数据是切片式的 将图像切成16x16像素的小方块 信息有限且缺乏时空关联[1] - 3D视觉Transformer的输入是视频流片段 其Token是时空管 同时包含物体在空间的位置和在时间轴上的变化[1] - 许多运行在上一代芯片的端到端模型是混合架构 先用2D视觉Transformer提取特征 再将连续帧堆叠进行时间融合 本质是先静态分析再推断动态[2] - 转向3D视觉Transformer是原生支持处理连续视频流 这里的3D指的是张量的高、宽和时间维度 而非空间坐标x y z[2] 自研芯片与数据流架构优势 - 上一代芯片无法原生支持3D视觉Transformer的原因是内存带宽和数据搬运效率跟不上[2] - 公司自研芯片采用的数据流架构 可将3D视觉Transformer的层与层之间在硅片上硬连接 减少频繁读写外部显存 实现极致的延迟优化[2] - 公司CTO表示自研芯片采用新颖的数据流架构 模型计算主要由数据驱动而非指令驱动 实现了更高的并行度[4] - 数据驱动的逻辑由公司自研的编译器进行调度 芯片 编译器 运行时系统及操作系统是作为一个整体共同设计的软硬协同方案[4] 全线控底盘的必要性 - 在智能驾驶大脑算力提升后 需要全线控底盘使车辆的“身体”跟得上 以实现更直接和快速的控制响应[3]
大雨解读理想L9搞全线控底盘底层逻辑