软硬件协同设计 - 财报，业绩电话会，研报，新闻

软硬件协同设计

搜索文档

理想TOP2· 2025-09-27 16:58

自动驾驶算法演进 - 自动驾驶算法发展分为三个阶段：规则算法阶段、端到端（E2E）加视觉语言模型（VLM）阶段、视觉语言动作模型（VLA）加强化学习（RL）阶段 [4][5] - E2E加VLM技术使自动驾驶行为更接近人类驾驶体感通过模仿学习实现加速、减速、转弯等操作的优化 [5] - VLA+RL结构更简单主体为语言模型（L）视觉信号编码后输入L学习最终通过diffusion生成轨迹 [5] 语言模型在自动驾驶中的必要性 - 技术原因：语言是人类泛化能力的基础语言模型提供长链推理能力解决最后5%-10%的极端场景（corner case）问题 [6][7] - 非技术原因：语言模型使自动驾驶系统具备人类世界观和价值观实现更自然的驾驶行为交互 [8] - 语言模型scaling law要求车端算力超线性增长从2025年开始算力需求可能从400Tops跃升至2500Tops [9] 计算架构演进与挑战 - 从CPU到GPU再到GPGPU 均遵循冯诺依曼架构以计算为一等公民、数据为第二等公民 [11][12] - AI时代计算算子减少但数据处理复杂度增加需要转向数据流架构让程序更关注数据而非计算 [12] - GPGPU存在共享内存压力问题高并行度下内存带宽需求急剧增加（如HBM） [11] 数据流架构历史发展 - 数据流架构先驱为MIT的Jack B Dennis和Arvind 提出数据驱动执行（Data driving execution）概念 [13] - 关键发展包括：静态数据流图（不支持循环）、tag token标记、I-structure内存模型（类似Java对象不可更改特性） [13] - 1990-2000年高光荣教授提出Threaded Dataflow Architecture 将计算粒度放大到thread级别并开发RC编程语言 [14] - 2000-2015年应用于DSP领域形成Codelet计算模型、COStream编程模型和配套memory model的完整体系 [14][15] 理想汽车自研计算架构实践 - 车端计算架构核心为NPU而非SOC NPU采用同构重合架构与Mesh Bus互连独创CCB（Central Control Computing Block）处理非张量计算 [17] - 架构提供Ring Bus广播功能为国内独家设计的AI推理架构 [17] - 与行业最佳推理芯片相比：同等晶体管消耗下CNN性能达4.4倍 transformer base模型性能达4-6倍 LlaMA2 7B模型性能达2-3倍 [2][18] - 编译器开发是主要挑战涉及编程模型和编译架构的协同设计 [18] 算力需求趋势 - 语言模型应用推动车端算力需求指数级增长 2025年后算力规划从400Tops跃升至2500Tops（约6倍增长） [9] - 算力增长主要驱动因素为语言模型的长链推理需求而非纯视觉处理需求 [9]

理想自动驾驶芯片最核心的是数据流架构与软硬件协同设计

理想TOP2· 2025-09-05 12:56

自研芯片技术架构 - 理想汽车自研芯片采用数据流架构计算由数据驱动而非指令驱动实现更高并行度更适合大型神经网络[2][5][6] - 芯片集成大量MAC乘加单元采用软硬件协同设计将芯片编译器运行时系统和操作系统垂直整合深度优化VLA结构性能[2][3][6] - 与市场顶尖芯片相比运行大语言模型性能达2倍运行视觉模型性能达3倍[5][8] 芯片开发进展 - 芯片于2025年初成功流片并返回目前正在进行车辆测试预计2026年部署在旗舰车型并交付用户[5][8] - 从项目立案到交付上车周期为三年 2023年左右开始设计 2024年下半年确定VLA架构搭建思路[1][2] VLA架构与推理优化 - VLA在车端芯片实现实时推理是巨大挑战需通过小词表投机推理和创新性并行解码方法提升效率[3][4] - 针对语言逻辑推理采用因果注意力机制逐字输出针对action token采用双向注意力机制一次性输出实现超过10赫兹推理速度[4] - 自动驾驶模型需输入几秒钟视频和各种信息与TPU适合处理大批量输入的特性高度契合[3] 行业技术对比 - NPU专为神经网络计算设计资源集中于矩阵乘法与加法运算相比GPU通用性更低但效率更高[2] - TPU是谷歌专为TensorFlow定制的NPU 采用脉动阵列架构数据在计算单元间流动减少内存访问次数并提升数据复用率[2] - Thor芯片集成CPU集群 GPU集群和NPU阵列在通用性方面更具优势[3]

沉寂一个月，openPangu性能飙升8%！华为1B开源模型来了

机器之心· 2025-09-05 12:31

端侧AI模型技术突破 - 华为发布专为昇腾端侧硬件打造的高性能语言模型openPangu Embedded-1B 通过软硬件协同设计显著降低推理延迟并提升资源利用率采用多阶段训练策略增强任务表现[1] - 模型仅10亿参数但实现性能与效率高度协同树立"小模型大能力"新标杆成功将强大AI能力带入端侧设备[2] 性能表现与基准测试 - 模型在多个权威基准上创下10亿参数级别全新SOTA纪录整体平均分达63.90 持平更大规模Qwen3-1.7B模型(63.69分)[3] - 数学推理能力突出 GSM8K数学基准达82.76% MATH数学题集达81.83% 大幅领先同类模型[3] - 相比上月开源版本V1 V1.1版本平均分实现8%以上大幅跃升显示开源盘古系列加速迭代升级[5] 软硬件协同优化 - 针对昇腾Atlas硬件特性定制网络超参数隐藏层规模与前馈网络维度匹配高效吞吐配置确保计算单元充分利用[9] - 在Atlas 200I A2硬件上首字输出延迟仅约1.8秒后续每词生成约0.156秒速度优势显著[12] 创新训练方法 - 采用两阶段课程学习式微调第一阶段专注理性推理能力第二阶段训练快速作答激活深层推理能力[15][23] - 引入离线On-Policy知识蒸馏方法学生模型自主作答后教师模型针对性指导提升准确率和泛化能力[18][24] - 采用多源奖励强化学习机制数学代码任务使用规则奖励复杂任务采用轻量级LLM评估结合格式规范奖励策略[22][25] - 开发昇腾NPU集群高效并行方案减少约30%设备空闲通过主机-设备权重共享优化大规模强化学习运行效率[21] 技术发展前景 - 提出自适应快慢融合方案模型可根据问题难度自动选择快速作答或深入推理在保持精度的同时提高易答问题效率[29] - openPangu-Embedded-7B模型已应用该策略并在7B量级取得领先升级版本即将开源[30]

CoDesign 2025国际研讨会在大阪召开共探高性能计算与AI融合新路径

财经网· 2025-07-18 12:22

行业趋势 - 高性能计算行业正面临计算架构异构化与AI/ML工作负载兴起的双重挑战，软硬件协同设计成为关键发展方向 [2] - 人工智能已成为高性能计算发展的核心驱动力，模型规模增长导致算力需求呈指数级上升，能源消耗成为主要瓶颈 [2] - 行业呈现十大发展趋势，包括解决系统碎片化、优化数据流动方式、构建以数据为中心的计算系统等 [3] 技术突破 - Together AI推出自研"AI加速云"平台，其推理引擎和优化策略表现优异，目标构建全球级AI计算基础设施 [3] - 瑞士CSCS开发的云原生超算平台ALPS支持弹性资源调度，采用"科学即服务"模式支撑大型科研项目 [3] - Hermes系统通过优化数据流动方式突破"内存墙"性能瓶颈，提出未来计算系统需"以数据为中心"的理论模型 [3] 发展方向 - 未来百亿亿次计算(Zeta Scale)需解决系统工程命题，系统功耗和可靠性是规模扩展的核心障碍 [4] - HPC与AI结合存在技术路线分歧：通用架构与更高集成度的CPU-GPU耦合架构成为主要讨论方向 [4] - 专家指出Transformer架构并非AI for Science的通用解决方案，需探索多样化技术路径 [4] 研究重点 - 会议聚焦四大核心方向：算法、应用系统、系统软件与中间件、软硬件协同架构设计 [2] - 设置五大热点研究主题，包括算法与计算模型、系统与体系结构设计等关键技术领域 [2] - 异构系统架构中的"集成"问题被特别强调，国际合作被视为应对算力挑战的重要途径 [2]

高性能计算与AI融合

软硬件协同设计

High - Performance Computing

Artificial Intelligence

High - Performance Computing

Artificial Intelligence

AI加速云平台

云原生超算平台ALPS

首次披露！DeepSeek V3 发布软硬一体协同训练论文，公开「降成本」秘诀

雷峰网· 2025-05-15 18:13

DeepSeek-V3 成本效益与架构创新 - 核心观点：通过软硬件协同设计实现大型模型的高效训练与推理，仅需2048个NVIDIA H800 GPU即达到最先进性能 [4] - 采用DeepSeek-MoE与多头潜在注意力(MLA)架构，FP8混合精度训练使内存消耗降低50% [7][8] - MLA通过压缩KV缓存至潜在向量减少内存占用，共享KV、滑动窗口缓存等技术进一步优化存储 [10][11][12] 低精度与计算优化 - 首创FP8训练框架，通信量较BF16减少50%，提出硬件改进建议如提升累加精度至FP32 [16][17][18] - MoE架构使计算成本降至250 GFLOPS/令牌，显著低于密集模型的2448 GFLOPS [13] - 多标记预测(MTP)框架提升推理速度1.8倍，令牌接受率达80%-90% [14] 互联驱动设计 - 针对H800 NVLink带宽限制(400GB/s)，采用8张400G Infiniband网卡增强扩展能力 [20][23] - 节点内NVLink(160GB/s)与节点间IB(40GB/s)带宽差异促生节点受限路由策略，减少跨节点流量 [24][26][27] - 提出未来硬件需统一网络适配器、专用通信协处理器以优化资源利用 [29][30] 大规模网络架构 - 部署八平面胖树网络(MPFT)，支持16384 GPU理论规模，成本较三层胖树降低41% [32][34][40] - MPFT实现流量隔离与低延迟，专家并行带宽超40GB/s，训练效率与单平面网络持平 [37][44][47] - InfiniBand延迟(2.8μs)优于RoCE(3.6μs)，但建议RoCE优化如自适应路由与拥塞控制 [50][51][53] 未来硬件方向 - 需解决互联故障、静默数据损坏等问题，建议校验和验证与诊断工具预装 [59][60][61] - 提出CPU-GPU直连、共封装光学、动态带宽分配等创新方向 [61][64][66] - 内存架构推荐DRAM堆叠加速器与晶圆级集成技术以突破带宽瓶颈 [72]