RPU(可重构数据流)
搜索文档
国产算力,兵分三路对抗CUDA
半导体行业观察· 2026-04-28 09:29
文章核心观点 - 国产AI算力发展的核心挑战已从单点硬件性能竞争,转向生态组织能力的竞争,关键在于解决因软件生态碎片化导致的“有卡但难用”问题[1] - 智源FlagOS作为全域智能操作系统,旨在通过构建统一的公共底座,打破单一算力架构壁垒,支持多种国产芯片协同演进,以应对生态挑战[3][12] - 行业正从分散替代走向多架构组团协同,GPGPU、DSA和RPU(可重构数据流)等不同技术路线将在统一生态下于不同场景中互补,共同推动国产AI生态发展[12][21][22] 智能体时代与FlagOS的定位 - 随着大模型进入智能体阶段,模型需要跨框架、跨场景、跨设备持续运行,底层基础设施必须能够服务多种架构和任务,而非单一架构[3] - FlagOS是面向下一代AI基础设施打造的全域智能操作系统,长期聚焦异构芯片适配、跨架构协同、AI生态开放三大核心方向[3] - 其核心目标是打破单一算力架构壁垒,为大模型、AI智能体、端边侧智能应用提供统一的底层运行底座[3] FlagOS 2.0的进展与意义 - FlagOS 2.0已支持**18家厂商、32款AI芯片**,算子总数达到**497个**,应用范围从大模型训练推理扩展到边缘推理、机器人和科学计算[7] - 其意义在于开始尝试把分散的国产硬件纳入同一套软件语言,解决过去“一种芯片一套开发工具”导致的生态碎片化问题[7][9] - 系统通过统一插件体系连接vLLM、Megatron-LM等主流框架,并通过Flag Tree、Flag Gems等底层组件推动编译和算子层的统一[9] 技术路线:GPU、DSA与RPU的协同 - FlagOS将GPU、DSA(领域专用架构)、RPU(可重构数据流)三条技术路线同时纳入同一技术框架,旨在降低多路线并行的协同门槛[12] - GPGPU承担通用计算主力,优势是开发者熟悉、生态接口接近国际主流;DSA代表更强的场景化优化能力;RPU则提供在灵活性和效率间寻找新平衡的“第三种可能”[14][15] - 例如,Triton-TLE已支持**31种原语**,并在GPU、DSA、可重构计算三类架构上完成验证;FLIR探索统一中间表示层,让不同芯片共享编译优化能力[12] RPU(可重构数据流)架构的价值与表现 - RPU的核心价值在于通过“软件定义硬件”技术,让芯片能根据不同AI任务实时动态重组,兼顾高效性与灵活性,实现低延迟、低能耗[17] - 其意义在于证明非GPU架构也有机会进入主流开发工作流,而不仅仅是“能跑但难开发”[17] - 在FlagOS生态中,以清微智能为代表的RPU架构适配模块数量位居前列,在非GPU架构中与华为昇腾分列一二位,参与度已进入第一梯队[18] - 清微智能展现了快速的模型适配能力,在智谱GLM-5.1开源当天完成适配,并在DeepSeek-V4系列模型发布当天完成全量算子适配与验证,成为国内首批实现该模型全量算子兼容的芯片厂商[19] 国产算力生态的演进方向 - 国产架构竞争正从分散替代走向组团协同,避免同质化内耗[21] - 更合理的格局是不同路线在擅长场景中补位:GPGPU承担广谱兼容任务,DSA在高强度场景优化中建立优势,可重构架构则在模型快速适配、边缘部署等场景释放弹性[22] - 突破CUDA壁垒的现实路径是先建立能容纳多种国产路线协同演进的生态,把工具链、算子、框架和模型适配变成公共能力,再由不同架构在不同场景里分担任务[22] - FlagOS的价值在于让国产芯片企业不必各自孤军作战,有机会在同一个生态里共享软件资产和开发者心智[22] 对产业各方的核心价值 - 对芯片厂商:减少重复适配和各自造轮子的成本[14] - 对模型厂商:缩短从模型发布到国产算力可用的时间差[14] - 对应用方:提供更可预期的迁移路径,避免每次换底座都从零开始[14] - 例如,FlagOS 2.0中的FlagGems已覆盖**40个主流模型**,推理任务算子覆盖度达到**90%到100%**[14]