RPU（可重构数据流） - 财报，业绩电话会，研报，新闻

RPU（可重构数据流）

搜索文档

半导体行业观察· 2026-04-28 09:29

文章核心观点 - 国产AI算力发展的核心挑战已从单点硬件性能竞争，转向生态组织能力的竞争，关键在于解决因软件生态碎片化导致的“有卡但难用”问题[1] - 智源FlagOS作为全域智能操作系统，旨在通过构建统一的公共底座，打破单一算力架构壁垒，支持多种国产芯片协同演进，以应对生态挑战[3][12] - 行业正从分散替代走向多架构组团协同，GPGPU、DSA和RPU（可重构数据流）等不同技术路线将在统一生态下于不同场景中互补，共同推动国产AI生态发展[12][21][22] 智能体时代与FlagOS的定位 - 随着大模型进入智能体阶段，模型需要跨框架、跨场景、跨设备持续运行，底层基础设施必须能够服务多种架构和任务，而非单一架构[3] - FlagOS是面向下一代AI基础设施打造的全域智能操作系统，长期聚焦异构芯片适配、跨架构协同、AI生态开放三大核心方向[3] - 其核心目标是打破单一算力架构壁垒，为大模型、AI智能体、端边侧智能应用提供统一的底层运行底座[3] FlagOS 2.0的进展与意义 - FlagOS 2.0已支持**18家厂商、32款AI芯片**，算子总数达到**497个**，应用范围从大模型训练推理扩展到边缘推理、机器人和科学计算[7] - 其意义在于开始尝试把分散的国产硬件纳入同一套软件语言，解决过去“一种芯片一套开发工具”导致的生态碎片化问题[7][9] - 系统通过统一插件体系连接vLLM、Megatron-LM等主流框架，并通过Flag Tree、Flag Gems等底层组件推动编译和算子层的统一[9] 技术路线：GPU、DSA与RPU的协同 - FlagOS将GPU、DSA（领域专用架构）、RPU（可重构数据流）三条技术路线同时纳入同一技术框架，旨在降低多路线并行的协同门槛[12] - GPGPU承担通用计算主力，优势是开发者熟悉、生态接口接近国际主流；DSA代表更强的场景化优化能力；RPU则提供在灵活性和效率间寻找新平衡的“第三种可能”[14][15] - 例如，Triton-TLE已支持**31种原语**，并在GPU、DSA、可重构计算三类架构上完成验证；FLIR探索统一中间表示层，让不同芯片共享编译优化能力[12] RPU（可重构数据流）架构的价值与表现 - RPU的核心价值在于通过“软件定义硬件”技术，让芯片能根据不同AI任务实时动态重组，兼顾高效性与灵活性，实现低延迟、低能耗[17] - 其意义在于证明非GPU架构也有机会进入主流开发工作流，而不仅仅是“能跑但难开发”[17] - 在FlagOS生态中，以清微智能为代表的RPU架构适配模块数量位居前列，在非GPU架构中与华为昇腾分列一二位，参与度已进入第一梯队[18] - 清微智能展现了快速的模型适配能力，在智谱GLM-5.1开源当天完成适配，并在DeepSeek-V4系列模型发布当天完成全量算子适配与验证，成为国内首批实现该模型全量算子兼容的芯片厂商[19] 国产算力生态的演进方向 - 国产架构竞争正从分散替代走向组团协同，避免同质化内耗[21] - 更合理的格局是不同路线在擅长场景中补位：GPGPU承担广谱兼容任务，DSA在高强度场景优化中建立优势，可重构架构则在模型快速适配、边缘部署等场景释放弹性[22] - 突破CUDA壁垒的现实路径是先建立能容纳多种国产路线协同演进的生态，把工具链、算子、框架和模型适配变成公共能力，再由不同架构在不同场景里分担任务[22] - FlagOS的价值在于让国产芯片企业不必各自孤军作战，有机会在同一个生态里共享软件资产和开发者心智[22] 对产业各方的核心价值 - 对芯片厂商：减少重复适配和各自造轮子的成本[14] - 对模型厂商：缩短从模型发布到国产算力可用的时间差[14] - 对应用方：提供更可预期的迁移路径，避免每次换底座都从零开始[14] - 例如，FlagOS 2.0中的FlagGems已覆盖**40个主流模型**，推理任务算子覆盖度达到**90%到100%**[14]