软硬件协同设计
搜索文档
人工智能开始革命这类芯片
半导体行业观察· 2026-03-01 11:13
文章核心观点 人工智能正被用于简化和加速FPGA、DSP等可编程逻辑芯片的设计流程,通过软件抽象层、高层次综合工具和AI辅助编译等手段,降低编程复杂性,吸引更多开发者[2][5][6]。尽管AI模型迭代速度趋于平稳,但可编程硬件在应对快速变化的市场需求(如AI、汽车、5G/6G)方面,因其灵活性、低延迟和面向未来的能力,仍具有不可替代的价值[2][11]。行业正朝着软硬件协同设计、更智能的编译器和统一设计环境的方向发展,以平衡效率、功耗与编程便利性[8][14][18]。 可编程硬件的价值与挑战 - **核心价值**:FPGA和DSP在生命科学、人工智能处理、汽车电子以及5G/6G芯片等需求持续变化的市场中极具价值,其现场可编程能力为新协议、新标准和架构修改提供了面向未来的保障[2] - **关键优势**:支持FPGA的核心优势包括I/O灵活性、确定性低延迟、安全灵活性,以及能够整合多种不可控工作负载的能力[19] - **主要挑战**:对FPGA、eFPGA和DSP进行编程仍然相当复杂,需要具备RTL设计能力,与在GPU上运行软件相比门槛更高[2]。打造一套能同时适配GPU、CPU和FPGA的通用软件方案非常困难[2] AI如何介入并简化设计流程 - **AI辅助设计**:自主智能体AI有望加速FPGA设计,未来可能通过语音、图表、原理图等输入,经过多轮处理后直接输出最终的可执行代码,从而降低对顶尖FPGA或ASIC设计师的依赖[5] - **现有工具进展**:通过高层次综合(HLS)等技术,FPGA编程已变得更简单,工程团队可以使用工具将算法或C代码转换为RTL[6]。例如,AMD的Vitis AI等工具能够打通PyTorch模型到AI引擎之间的壁垒,让用户快速将AI部署到芯片中[6] - **智能编译器方向**:编译器正在向自适应流水线转变,可随着模型架构与算子的变化,实时优化内核、内存布局、并行度与调度策略[6]。有企业已经看到智能体从高层代码或自然语言中推断设计意图,生成RTL或高层次综合代码的案例[6] 当前面临的挑战与行业努力 - **编程知识门槛**:目前尚无产品能让软件工程师直接使用编译器生成可用结果,这仍然需要一定的硬件设计与数据流知识[7][8]。将算法从CPU迁移到可编程逻辑中,对软件工程师而言存在学习曲线[6][8] - **优化与权衡**:针对特定工作负载对FPGA进行优化,需要在功耗、性能与延迟之间取得最佳平衡,这始终需要权衡[8]。在嵌入式领域,还需尽可能优化成本[8] - **工具与流程改进**:全新的功耗与热分析工具精度大幅提升,能够提供智能建议,帮助设计者更好地管理能耗与散热限制[14]。全新的云端工具与更完善的基础设施,让FPGA设计者能够以前所未有的细致程度分析完整设计[14] - **模型迭代影响**:AI模型的迭代速度已开始趋于平稳,如今最重要的工作负载之一是由Transformer执行的矩阵乘法运算,这使得硬件对可编程性的需求可能降低[11][12] DSP设计及与其他领域的互动 - **AI对DSP的影响**:机器学习可基于模拟仿真数据自动调优DSP算法,助力数模混合协同设计,这能缩短设计周期[16] - **设计复杂性变化**:过去模拟与数字领域相互独立,如今则需要协同工作[16] - **边缘部署的决策**:在边缘AI部署中,开发者必须明确哪些工作负载运行在传统DSP上,哪些运行在面向低功耗嵌入式设备机器学习优化的向量扩展指令集(如Arm Helium)上[16] 存储器编译器的新需求 - **软件驱动转型**:行业向软件优先设计转型,芯片架构师在确定硬件规格前,会优先考虑软件算法需求[18]。能否快速调整存储器架构以支持独特AI算法,已成为芯片设计者的关键差异化能力[18] - **新一代编译器特性**:最新一代存储器编译器提供高度灵活的配置、超低电压支持与丰富的多端口选项[18]。面向AI的存储器特性包括转置数据流、针对数据稀疏性应用的功耗优化设计,以及乘加单元间距匹配等[18] 行业未来展望与设计哲学 - **架构决策阶段**:FPGA的应用由技术架构师决定,团队在架构阶段进行研究与设计划分,确定数据平面哪些部分需要通过FPGA组织,控制平面如何配置[19]。最重要的是评估总体拥有成本是否合理[19] - **软硬件协同设计**:优秀的软硬件协同设计意味着从平台层面构建合理的风险架构,让工作负载易于编排与调度,并最终与顶层软件层适配[19] - **长期愿景**:长期来看,编程可能只是选择将程序编译到CPU、GPU还是FPGA架构上运行,业内所有参与者都在朝这个方向推进[8]
DeepSeek-V4大模型发布在即,野村研报看好:将有效打破“芯片墙”与“内存墙”
智通财经· 2026-02-12 22:00
文章核心观点 - 野村证券研报认为,DeepSeek即将发布的新一代旗舰大语言模型DS-V4,通过深度融合mHC和Engram两项核心技术,将有效打破“芯片墙”与“内存墙”的桎梏,在提升模型性能的同时降低训练与推理成本,从而推动中国AI产业链创新周期加速,并缩小与全球大模型产业的差距 [1] DS-V4核心技术突破 - **核心底牌**:DS-V4将深度融合mHC(流形约束超连接)和Engram(条件记忆模块)两项核心技术,代表了大模型产业从“规模竞争”向“架构与系统优化”的重要转向 [2] - **mHC技术**:旨在重构层间信息流动,通过双随机矩阵约束、Sinkhorn-Knopp算法投影和保持恒等映射三大核心技术,解决模型层数增长后的训练效率与稳定性瓶颈,并通过内核融合、重计算和流水线并行优化(DualPipe)实现系统工程落地 [3] - **mHC效果**:在DS-V3 27B参数模型测试中,融入mHC的模型在多个基准测试中全面超越基线,其中GSM8K(8-shot)准确率从46.7%提升至53.8%,MATH(4-shot)准确率从22.0%提升至26.0%,BBH、DROP等任务表现也提升5%-7% [4] - **Engram技术**:聚焦于训练与推理的内存效率优化,通过解耦内存与计算,以部署在DRAM中的专用稀疏内存表形式,实现O(1)时间的静态知识检索,缓解“内存墙”痛点 [5] - **Engram设计**:具有低侵入式结构增强特征,通过分词器压缩、多头哈希、上下文感知门控、多分支架构融合四大技术解决落地问题,其最大产业价值在于存算解耦,训练时可实现内存容量随GPU数量线性扩展,推理时可将百亿参数嵌入表卸载至CPU DRAM,释放GPU HBM资源,且推理吞吐量损失控制在3%以内 [6] - **技术结合价值**:mHC和Engram的结合将使DS-V4在保持高性能的同时进一步降低成本,并更适合医疗、法律、金融等知识密集型领域的行业大模型训练,DS-V4还可能融入FP4精度计算、缓存优化等其他创新技术 [7] 对全球AI产业的影响 - **差异化影响**:DS-V4不会像V3/R1那样对全球AI基础设施市场形成大幅冲击,但将成为推动全球大模型商业化的关键力量 [8] - **核心价值**:通过降低训练与推理成本,DS-V4将帮助全球大模型企业和AI应用玩家加速技术落地,缓解行业因持续高额算力投入带来的资本开支压力 [9] - **促进融合**:DS-V4在编码、超长代码处理等领域的突破,将进一步推动AI与软件产业的融合,让头部软件企业能借助大模型技术打造更强大的软件套件 [9] 对中国AI产业的影响 - **关键抓手**:DS-V4的技术创新是破解“芯片墙”与“内存墙”的关键抓手,从算力硬件和应用落地两个维度实现核心赋能 [10] - **赋能硬件**:Engram的存算解耦机制能释放HBM资源,降低对高端海外芯片的依赖,推动本土服务器、光模块等硬件企业的投资周期加速,野村研报重点看好紫光股份、光迅科技等企业 [10][11] - **适配芯片**:mHC框架能实现更稳定的大模型训练过程,有效抵消本土AI芯片在大规模集群训练中失败率较高的性能短板,为摩尔线程、壁仞科技、天数智芯等本土AI芯片企业提供技术适配的机会 [11] - **协同发展**:2025年底至2026年初中国AI硬件企业迎来上市潮,DS-V4的技术创新将为这些企业提供更适配的软件算法环境,实现软硬件协同发展 [11] - **推动应用转型**:DS-V4将推动中国AI Agent从“对话工具”向“智能助手”转型,加速AI应用场景化落地,其在编码、推理等领域的突破将催生更强大的多任务AI Agent,提升token消耗与算力需求,形成“技术创新-应用升级-算力需求”的正向循环 [11] - **生态化发展**:AI应用生态化趋势明显,以阿里Qwen APP为例,其在2025年11月至2026年1月的三个月内,快速拓展至视频生成、地图导航、支付宝支付、政务民生服务等400余项AI服务,DS-V4的技术创新将为AI技术从“单点应用”向“全场景渗透”提供更坚实的模型基础 [12] - **利好软件企业**:DS-V4的推出将推动中国AI应用的商业化周期加速,利好能借助大模型技术实现产品升级的头部软件企业,其中金山办公、金蝶国际被列为软件领域的核心推荐标的 [12] 行业发展趋势 - **趋势转变**:大模型的性能提升已从“参数堆砌”转向架构设计与系统优化,软硬件协同设计成为行业核心发展方向 [13] - **中国机遇**:这一趋势为中国实现全球化缩差提供了关键机遇,中国在大模型的算法创新、工程优化与应用落地方面具备本土化优势,DeepSeek等企业的技术探索正推动中国在大模型架构与系统优化层面形成核心竞争力 [13] - **开源生态**:开源大模型仍将是中国AI产业的主流发展方向,DeepSeek的技术创新为中国开源生态提供了核心标杆,推动本土大模型企业从“跟跑”向“并跑”甚至“领跑”转型 [13] - **竞争赛道转移**:随着DS-V4推出,中国开源大模型的竞争将进一步从“规模与性能”转向“效率与场景落地”,知识密集型的垂直领域(医疗、法律、金融)将成为下一个核心竞争赛道 [13] - **周期加速**:DS-V4的推出将推动中国AI产业链进入新一轮的创新与商业化加速周期,从算力基建到应用落地的全链路都将迎来发展机遇,同时推动全球大模型产业加速从“技术研发”向“商业变现”转型 [14]
理想CTO谢炎在云栖大会分享理想自动驾驶芯片设计思路
理想TOP2· 2025-09-27 16:58
自动驾驶算法演进 - 自动驾驶算法发展分为三个阶段:规则算法阶段、端到端(E2E)加视觉语言模型(VLM)阶段、视觉语言动作模型(VLA)加强化学习(RL)阶段 [4][5] - E2E加VLM技术使自动驾驶行为更接近人类驾驶体感 通过模仿学习实现加速、减速、转弯等操作的优化 [5] - VLA+RL结构更简单 主体为语言模型(L) 视觉信号编码后输入L学习 最终通过diffusion生成轨迹 [5] 语言模型在自动驾驶中的必要性 - 技术原因:语言是人类泛化能力的基础 语言模型提供长链推理能力 解决最后5%-10%的极端场景(corner case)问题 [6][7] - 非技术原因:语言模型使自动驾驶系统具备人类世界观和价值观 实现更自然的驾驶行为交互 [8] - 语言模型scaling law要求车端算力超线性增长 从2025年开始算力需求可能从400Tops跃升至2500Tops [9] 计算架构演进与挑战 - 从CPU到GPU再到GPGPU 均遵循冯诺依曼架构 以计算为一等公民、数据为第二等公民 [11][12] - AI时代计算算子减少但数据处理复杂度增加 需要转向数据流架构 让程序更关注数据而非计算 [12] - GPGPU存在共享内存压力问题 高并行度下内存带宽需求急剧增加(如HBM) [11] 数据流架构历史发展 - 数据流架构先驱为MIT的Jack B Dennis和Arvind 提出数据驱动执行(Data driving execution)概念 [13] - 关键发展包括:静态数据流图(不支持循环)、tag token标记、I-structure内存模型(类似Java对象不可更改特性) [13] - 1990-2000年高光荣教授提出Threaded Dataflow Architecture 将计算粒度放大到thread级别 并开发RC编程语言 [14] - 2000-2015年应用于DSP领域 形成Codelet计算模型、COStream编程模型和配套memory model的完整体系 [14][15] 理想汽车自研计算架构实践 - 车端计算架构核心为NPU而非SOC NPU采用同构重合架构与Mesh Bus互连 独创CCB(Central Control Computing Block)处理非张量计算 [17] - 架构提供Ring Bus广播功能 为国内独家设计的AI推理架构 [17] - 与行业最佳推理芯片相比:同等晶体管消耗下CNN性能达4.4倍 transformer base模型性能达4-6倍 LlaMA2 7B模型性能达2-3倍 [2][18] - 编译器开发是主要挑战 涉及编程模型和编译架构的协同设计 [18] 算力需求趋势 - 语言模型应用推动车端算力需求指数级增长 2025年后算力规划从400Tops跃升至2500Tops(约6倍增长) [9] - 算力增长主要驱动因素为语言模型的长链推理需求 而非纯视觉处理需求 [9]
理想自动驾驶芯片最核心的是数据流架构与软硬件协同设计
理想TOP2· 2025-09-05 12:56
自研芯片技术架构 - 理想汽车自研芯片采用数据流架构 计算由数据驱动而非指令驱动 实现更高并行度 更适合大型神经网络[2][5][6] - 芯片集成大量MAC乘加单元 采用软硬件协同设计 将芯片 编译器 运行时系统和操作系统垂直整合 深度优化VLA结构性能[2][3][6] - 与市场顶尖芯片相比 运行大语言模型性能达2倍 运行视觉模型性能达3倍[5][8] 芯片开发进展 - 芯片于2025年初成功流片并返回 目前正在进行车辆测试 预计2026年部署在旗舰车型并交付用户[5][8] - 从项目立案到交付上车周期为三年 2023年左右开始设计 2024年下半年确定VLA架构搭建思路[1][2] VLA架构与推理优化 - VLA在车端芯片实现实时推理是巨大挑战 需通过小词表 投机推理和创新性并行解码方法提升效率[3][4] - 针对语言逻辑推理采用因果注意力机制逐字输出 针对action token采用双向注意力机制一次性输出 实现超过10赫兹推理速度[4] - 自动驾驶模型需输入几秒钟视频和各种信息 与TPU适合处理大批量输入的特性高度契合[3] 行业技术对比 - NPU专为神经网络计算设计 资源集中于矩阵乘法与加法运算 相比GPU通用性更低但效率更高[2] - TPU是谷歌专为TensorFlow定制的NPU 采用脉动阵列架构 数据在计算单元间流动 减少内存访问次数并提升数据复用率[2] - Thor芯片集成CPU集群 GPU集群和NPU阵列 在通用性方面更具优势[3]
沉寂一个月,openPangu性能飙升8%!华为1B开源模型来了
机器之心· 2025-09-05 12:31
端侧AI模型技术突破 - 华为发布专为昇腾端侧硬件打造的高性能语言模型openPangu Embedded-1B 通过软硬件协同设计显著降低推理延迟并提升资源利用率 采用多阶段训练策略增强任务表现[1] - 模型仅10亿参数但实现性能与效率高度协同 树立"小模型大能力"新标杆 成功将强大AI能力带入端侧设备[2] 性能表现与基准测试 - 模型在多个权威基准上创下10亿参数级别全新SOTA纪录 整体平均分达63.90 持平更大规模Qwen3-1.7B模型(63.69分)[3] - 数学推理能力突出 GSM8K数学基准达82.76% MATH数学题集达81.83% 大幅领先同类模型[3] - 相比上月开源版本V1 V1.1版本平均分实现8%以上大幅跃升 显示开源盘古系列加速迭代升级[5] 软硬件协同优化 - 针对昇腾Atlas硬件特性定制网络超参数 隐藏层规模与前馈网络维度匹配高效吞吐配置 确保计算单元充分利用[9] - 在Atlas 200I A2硬件上首字输出延迟仅约1.8秒 后续每词生成约0.156秒 速度优势显著[12] 创新训练方法 - 采用两阶段课程学习式微调 第一阶段专注理性推理能力 第二阶段训练快速作答 激活深层推理能力[15][23] - 引入离线On-Policy知识蒸馏方法 学生模型自主作答后教师模型针对性指导 提升准确率和泛化能力[18][24] - 采用多源奖励强化学习机制 数学代码任务使用规则奖励 复杂任务采用轻量级LLM评估 结合格式规范奖励策略[22][25] - 开发昇腾NPU集群高效并行方案 减少约30%设备空闲 通过主机-设备权重共享优化大规模强化学习运行效率[21] 技术发展前景 - 提出自适应快慢融合方案 模型可根据问题难度自动选择快速作答或深入推理 在保持精度的同时提高易答问题效率[29] - openPangu-Embedded-7B模型已应用该策略并在7B量级取得领先 升级版本即将开源[30]
CoDesign 2025国际研讨会在大阪召开 共探高性能计算与AI融合新路径
财经网· 2025-07-18 12:22
行业趋势 - 高性能计算行业正面临计算架构异构化与AI/ML工作负载兴起的双重挑战,软硬件协同设计成为关键发展方向 [2] - 人工智能已成为高性能计算发展的核心驱动力,模型规模增长导致算力需求呈指数级上升,能源消耗成为主要瓶颈 [2] - 行业呈现十大发展趋势,包括解决系统碎片化、优化数据流动方式、构建以数据为中心的计算系统等 [3] 技术突破 - Together AI推出自研"AI加速云"平台,其推理引擎和优化策略表现优异,目标构建全球级AI计算基础设施 [3] - 瑞士CSCS开发的云原生超算平台ALPS支持弹性资源调度,采用"科学即服务"模式支撑大型科研项目 [3] - Hermes系统通过优化数据流动方式突破"内存墙"性能瓶颈,提出未来计算系统需"以数据为中心"的理论模型 [3] 发展方向 - 未来百亿亿次计算(Zeta Scale)需解决系统工程命题,系统功耗和可靠性是规模扩展的核心障碍 [4] - HPC与AI结合存在技术路线分歧:通用架构与更高集成度的CPU-GPU耦合架构成为主要讨论方向 [4] - 专家指出Transformer架构并非AI for Science的通用解决方案,需探索多样化技术路径 [4] 研究重点 - 会议聚焦四大核心方向:算法、应用系统、系统软件与中间件、软硬件协同架构设计 [2] - 设置五大热点研究主题,包括算法与计算模型、系统与体系结构设计等关键技术领域 [2] - 异构系统架构中的"集成"问题被特别强调,国际合作被视为应对算力挑战的重要途径 [2]
首次披露!DeepSeek V3 发布软硬一体协同训练论文,公开「降成本」秘诀
雷峰网· 2025-05-15 18:13
DeepSeek-V3 成本效益与架构创新 - 核心观点:通过软硬件协同设计实现大型模型的高效训练与推理,仅需2048个NVIDIA H800 GPU即达到最先进性能 [4] - 采用DeepSeek-MoE与多头潜在注意力(MLA)架构,FP8混合精度训练使内存消耗降低50% [7][8] - MLA通过压缩KV缓存至潜在向量减少内存占用,共享KV、滑动窗口缓存等技术进一步优化存储 [10][11][12] 低精度与计算优化 - 首创FP8训练框架,通信量较BF16减少50%,提出硬件改进建议如提升累加精度至FP32 [16][17][18] - MoE架构使计算成本降至250 GFLOPS/令牌,显著低于密集模型的2448 GFLOPS [13] - 多标记预测(MTP)框架提升推理速度1.8倍,令牌接受率达80%-90% [14] 互联驱动设计 - 针对H800 NVLink带宽限制(400GB/s),采用8张400G Infiniband网卡增强扩展能力 [20][23] - 节点内NVLink(160GB/s)与节点间IB(40GB/s)带宽差异促生节点受限路由策略,减少跨节点流量 [24][26][27] - 提出未来硬件需统一网络适配器、专用通信协处理器以优化资源利用 [29][30] 大规模网络架构 - 部署八平面胖树网络(MPFT),支持16384 GPU理论规模,成本较三层胖树降低41% [32][34][40] - MPFT实现流量隔离与低延迟,专家并行带宽超40GB/s,训练效率与单平面网络持平 [37][44][47] - InfiniBand延迟(2.8μs)优于RoCE(3.6μs),但建议RoCE优化如自适应路由与拥塞控制 [50][51][53] 未来硬件方向 - 需解决互联故障、静默数据损坏等问题,建议校验和验证与诊断工具预装 [59][60][61] - 提出CPU-GPU直连、共封装光学、动态带宽分配等创新方向 [61][64][66] - 内存架构推荐DRAM堆叠加速器与晶圆级集成技术以突破带宽瓶颈 [72]