数据流架构

搜索文档
颠覆通用CPU,全球最省电处理器,正式发布
半导体行业观察· 2025-07-25 09:44
产品发布与架构创新 - Efficient Computer正式发布首款产品E1处理器,宣称开创通用计算效率新时代,彻底颠覆传统冯·诺依曼架构依赖 [1][2] - E1基于Fabric空间数据流架构,消除指令提取、解码和寄存器文件移动开销,能效比传统低功耗CPU提升高达100倍 [4][9] - 架构采用静态调度数据流模型,无程序计数器或全局调度器,通过计算块(tile)网格执行运算,编译器将C++/Rust代码转换为数据流图 [11][13][14] 技术细节与性能指标 - E1支持32位浮点运算,集成4MB MRAM、3MB SRAM和128KB缓存,提供QSPI/UART/SPI/I2C等接口 [15][16] - 工作模式分低压(25MHz/6 GOPS)和高压(100MHz/24 GOPS),支持动态功耗管理,活动RISC-V核心可独立断电 [18][19] - 能效达1 TOPS/W(8位整数运算),公司称其比ARM Cortex M33/M85/A5内核高10-100倍,核心指标为"每焦耳操作次数" [9][27] 软件生态与开发工具 - 发布编译器工具链effcc,基于LLVM/MLIR,兼容标准C/C++/Rust代码,支持Make/CMake/VS Code等现有开发环境 [22][23] - 编译器通过AI驱动的模块化优化框架(MOF)静态调度数据流,提供交互式Web Playground模拟执行 [23][24] - 宣称支持PyTorch/TensorFlow/JAX等机器学习框架,但未明确手动干预程度 [23] 市场定位与行业挑战 - 目标市场为嵌入式/边缘AI场景,如航空航天、工业传感、可穿戴设备,强调长电池寿命与低维护需求 [26][30] - 面临嵌入式市场对可靠性/供应链的严苛要求,需验证编译器成熟度与硬件稳定性 [31] - 学术专家认可其能效创新,但指出需解决经济效益问题并挖掘差异化功能以应对低价微控制器竞争 [27] 未来规划与行业影响 - 路线图包括第二代E2及高端Photon P1,计划扩展至边缘计算和低端数据中心 [26][30] - 若成功,可能成为首款非传统演化的通用CPU,但需独立验证实际工作负载表现 [29][31]
重磅!中国团队发布SRDA新计算架构,从根源解决AI算力成本问题,DeepSeek“神预言”成真?
新浪财经· 2025-06-09 21:27
大模型算力成本挑战 - 大模型每生成1美元价值需支付3美元算力成本 算力成本挑战已成为行业共识 [1] - 当前优化方案多集中于软件层面 硬件源头解决方案较少 现有新计算硬件如Groq多在大模型爆发前定型 难以充分匹配需求 [1] SRDA架构创新 - 玉盘AI发布《SRDA AI大模型专用计算架构》白皮书 提出系统级精简可重构数据流架构(SRDA) 从硬件源头解决AI算力核心瓶颈 [3] - SRDA架构将"数据流"作为核心设计哲学 通过硬件直接映射AI计算图数据依赖关系 实现计算单元间点到点直接传输 减少内存依赖和访问次数 [8] - 架构采用3D堆叠DRAM内存技术 实现计算单元内存私有化 每个计算核心拥有专属内存区域 消除共享总线竞争 [14] GPGPU架构局限性 - GPGPU架构为保证通用性未针对大模型需求优化 类似"瑞士军刀切牛排" 工具缺乏针对性 [6] - H100每秒可计算1000万亿次 但共享内存架构+低内存带宽仅能"喂饱"不足一半硬件算力 [7] - H100单卡功耗达700瓦 超三分之一电量用于数据搬运而非计算 [7] 下一代AI芯片关键特征 - 需解决内存与互联带宽不足问题 当前架构存在"几台车抢一个车位"现象 [7] - 需提升算力利用率 避免类GPGPU架构通信开销及内存瓶颈导致理论算力打折 [7] - 需简化网络设计 传统多层网络带来带宽层级差异 协议转换开销和管理难题 [7] SRDA技术突破 - 采用I/O融合技术(QLink) 将节点内外网络融合为统一单层网络 简化拓扑结构 [14] - 具备可重构特性 允许根据AI模型调整数据流路径 计算单元功能和内存模式 适应未来模型变化 [16] - 基于开源RISC-V指令集 提供简化指令 降低算子开发难度 [16] 行业趋势与影响 - DeepSeek论文与玉盘SRDA架构在IO融合 3D堆叠DRAM等技术方向不谋而合 显示行业共识正在形成 [6] - 当前算力瓶颈主要在于数据搬运及读写(I/O问题) 而非计算能力本身 [6] - SRDA架构可能颠覆GPGPU在AI场景的垄断地位 形成"SRDA+3D-DRAM"替代"GPGPU+HBM"的新组合 [14]