Workflow
AutoOS
icon
搜索文档
中科院团队自研大模型,自动设计超强芯片
半导体行业观察· 2025-06-12 08:42
核心观点 - 提出全自动处理器芯片设计系统QiMeng,通过三层架构(LPCM模型层、设计代理层、应用层)解决传统设计面临的制造约束、资源需求和生态多样化挑战 [10] - LPCM作为领域专用大模型,通过多模态架构、跨阶段训练数据和反馈驱动推理机制,突破知识表示缺口、数据稀缺、正确性保证和解空间四大技术瓶颈 [10][25] - 硬件设计代理采用双循环机制实现从功能规范到物理布局的端到端自动化,软件设计代理实现基础软件自适应与性能优化 [11][47] - 已实现六大应用场景:自动化前端设计(400万门规模)、HDL生成(CodeV模型)、OS配置优化(性能提升25.6%)、编译器工具链、张量程序转译器(准确率95%)和高性能库生成(性能达OpenBLAS 2.5倍) [51][55][68][74][77] 技术架构 LPCM模型 - 多模态架构同时处理文本与图数据(AST/DFG/CFG),通过GNN编码和对比学习实现特征对齐 [26] - 级联单阶段模型自动生成TB级跨阶段对齐训练数据,采用CoT模仿学习和RLHF优化训练 [27][29][30] - 推理阶段集成双反馈循环:功能正确性反馈通过BSD验证实现99.99999999999%正确率,性能反馈通过解空间修剪提升PPA [32][34][36] 设计代理 - 硬件代理双循环:外部性能循环分解400万门电路,内部验证循环用BSD实现5小时完成RISC-V CPU设计 [39][44][55] - 软件代理双循环:外部LLM引导搜索优化OS配置,内部SMT求解器保证程序功能等价 [48][49] - 代理协同实现指令集到软件栈的全栈自动化,支持RISC-V超100种指令扩展验证 [47] 应用成果 硬件设计 - QiMeng-CPU-v1:全球首个自动设计32位RISC-V CPU,规模达400万门,性能相当于Intel 486 [55] - QiMeng-CPU-v2:首款自动超标量CPU,吞吐量比v1提升380倍,性能匹敌ARM Cortex A53 [57] - CodeV系列HDL生成模型在VerilogEval基准上pass@1达81.9%,超越GPT-4和专用模型 [59][66] 软件生态 - AutoOS在SiFive平台UnixBench测试中性能较Fedora默认配置提升25.6% [68] - QiMeng-Xpiler实现CUDA到国产芯片代码转译,平均准确率95% [74] - QiMeng-GEMM在RISC-V平台性能达OpenBLAS 2.11倍,NVIDIA平台达cuBLAS 1.15倍 [77][79] 发展路线 - 三阶段实施路径:自上而下构建组件→自下而上整合LPCM→迭代实现自我进化 [20][21] - 当前完成第一阶段六大应用,计划集成代理组件并生成训练数据推进第二阶段 [22] - 长期目标建立可进化框架,拓展自动化设计能力至更复杂场景 [21]
中科院团队自研大模型,自动设计超强芯片
半导体行业观察· 2025-06-12 08:41
核心观点 - 提出全新处理器芯片软硬件全自动设计系统QiMeng,包含底层大型处理器芯片模型(LPCM)、中间层硬件/软件设计代理和顶层应用的三层架构 [1][9] - LPCM通过多模态架构、跨阶段协作训练和反馈驱动推理三大创新设计,解决知识表示缺口、数据稀缺、正确性保证和巨大解空间四大挑战 [10][23] - 硬件设计代理采用双循环机制实现从功能规范到物理布局的端到端自动化设计,软件设计代理实现基础软件无缝适配和性能优化 [11][39] - 已实现自动化前端设计、HDL生成等应用,其中QiMeng-CPU-v2性能达到Arm Cortex A53水平 [59][60] 技术挑战 - 制造工艺接近7纳米以下物理极限,量子隧穿和短沟道效应使传统性能扩展方法失效 [4] - 传统设计流程需要大量专业知识和验证迭代,导致开发周期长、成本高昂 [4] - RISC-V等开放指令集带来组合爆炸问题,软件生态适配复杂度呈指数级增长 [50] - 32位CPU设计解空间达10^10540量级,远超传统方法处理能力 [7] LPCM创新设计 - 多模态架构同时处理文本和AST/DFG/CFG等图数据,通过GNN编码和对比学习实现特征对齐 [26][27] - 跨阶段协作训练通过级联单阶段模型自动生成TB级跨阶段对齐数据,缓解数据稀缺问题 [28][29] - 反馈驱动推理集成功能正确性验证(准确率99.99999999999%)和性能优化双循环机制 [33][34][36] 硬件设计代理 - 外部性能优化循环通过模块分解将解空间降低4个数量级,内部验证修复循环确保功能正确性 [45][47] - 采用二进制推测图(BSD)表示电路,通过香农展开实现错误节点自动修复,验证精度渐近收敛至100% [59] - 已实现400万门规模的QiMeng-CPU-v1和1700万门超标量QiMeng-CPU-v2,后者性能达Cortex A53水平 [59][60] 软件设计代理 - 外部循环采用LLM引导的蒙特卡洛树搜索优化性能,内部循环通过SMT求解器保证功能等价 [52][53] - AutoOS方法在1天内完成Linux内核15000个配置项的优化,性能提升最高达25.6% [71] - QiMeng-Xpiler实现CUDA到国产AI芯片的程序转译,平均准确率95% [77] 应用成果 - CodeV系列模型在Verilog生成任务上pass@1达81.9%,超越GPT-4和专用开源模型 [63][69] - QiMeng-GEMM生成的矩阵乘法算子在RISC-V平台性能达OpenBLAS的2.11倍 [80] - QiMeng-Attention在NVIDIA T4平台生成的注意力算子性能为cuDNN的3.04倍 [84]