数据流架构

搜索文档
理想自动驾驶芯片最核心的是数据流架构与软硬件协同设计
理想TOP2· 2025-09-05 12:56
自研芯片技术架构 - 理想汽车自研芯片采用数据流架构 计算由数据驱动而非指令驱动 实现更高并行度 更适合大型神经网络[2][5][6] - 芯片集成大量MAC乘加单元 采用软硬件协同设计 将芯片 编译器 运行时系统和操作系统垂直整合 深度优化VLA结构性能[2][3][6] - 与市场顶尖芯片相比 运行大语言模型性能达2倍 运行视觉模型性能达3倍[5][8] 芯片开发进展 - 芯片于2025年初成功流片并返回 目前正在进行车辆测试 预计2026年部署在旗舰车型并交付用户[5][8] - 从项目立案到交付上车周期为三年 2023年左右开始设计 2024年下半年确定VLA架构搭建思路[1][2] VLA架构与推理优化 - VLA在车端芯片实现实时推理是巨大挑战 需通过小词表 投机推理和创新性并行解码方法提升效率[3][4] - 针对语言逻辑推理采用因果注意力机制逐字输出 针对action token采用双向注意力机制一次性输出 实现超过10赫兹推理速度[4] - 自动驾驶模型需输入几秒钟视频和各种信息 与TPU适合处理大批量输入的特性高度契合[3] 行业技术对比 - NPU专为神经网络计算设计 资源集中于矩阵乘法与加法运算 相比GPU通用性更低但效率更高[2] - TPU是谷歌专为TensorFlow定制的NPU 采用脉动阵列架构 数据在计算单元间流动 减少内存访问次数并提升数据复用率[2] - Thor芯片集成CPU集群 GPU集群和NPU阵列 在通用性方面更具优势[3]
重磅!中国团队发布SRDA新计算架构,从根源解决AI算力成本问题,DeepSeek“神预言”成真?
新浪财经· 2025-06-09 21:27
大模型算力成本挑战 - 大模型每生成1美元价值需支付3美元算力成本 算力成本挑战已成为行业共识 [1] - 当前优化方案多集中于软件层面 硬件源头解决方案较少 现有新计算硬件如Groq多在大模型爆发前定型 难以充分匹配需求 [1] SRDA架构创新 - 玉盘AI发布《SRDA AI大模型专用计算架构》白皮书 提出系统级精简可重构数据流架构(SRDA) 从硬件源头解决AI算力核心瓶颈 [3] - SRDA架构将"数据流"作为核心设计哲学 通过硬件直接映射AI计算图数据依赖关系 实现计算单元间点到点直接传输 减少内存依赖和访问次数 [8] - 架构采用3D堆叠DRAM内存技术 实现计算单元内存私有化 每个计算核心拥有专属内存区域 消除共享总线竞争 [14] GPGPU架构局限性 - GPGPU架构为保证通用性未针对大模型需求优化 类似"瑞士军刀切牛排" 工具缺乏针对性 [6] - H100每秒可计算1000万亿次 但共享内存架构+低内存带宽仅能"喂饱"不足一半硬件算力 [7] - H100单卡功耗达700瓦 超三分之一电量用于数据搬运而非计算 [7] 下一代AI芯片关键特征 - 需解决内存与互联带宽不足问题 当前架构存在"几台车抢一个车位"现象 [7] - 需提升算力利用率 避免类GPGPU架构通信开销及内存瓶颈导致理论算力打折 [7] - 需简化网络设计 传统多层网络带来带宽层级差异 协议转换开销和管理难题 [7] SRDA技术突破 - 采用I/O融合技术(QLink) 将节点内外网络融合为统一单层网络 简化拓扑结构 [14] - 具备可重构特性 允许根据AI模型调整数据流路径 计算单元功能和内存模式 适应未来模型变化 [16] - 基于开源RISC-V指令集 提供简化指令 降低算子开发难度 [16] 行业趋势与影响 - DeepSeek论文与玉盘SRDA架构在IO融合 3D堆叠DRAM等技术方向不谋而合 显示行业共识正在形成 [6] - 当前算力瓶颈主要在于数据搬运及读写(I/O问题) 而非计算能力本身 [6] - SRDA架构可能颠覆GPGPU在AI场景的垄断地位 形成"SRDA+3D-DRAM"替代"GPGPU+HBM"的新组合 [14]