硬件彩票 - 财报，业绩电话会，研报，新闻

硬件彩票

搜索文档

半导体芯闻· 2025-07-22 18:23

计算危机与AI需求 - AI应用的快速扩展显著增加了对计算基础设施的需求，暴露了基础硬件范式中的关键限制 [2] - 传统计算堆栈导致硬件系统中物理计算能力的严重低效利用 [2] - AI的能源需求正在不可持续地增加，数据中心2023年消耗约200太瓦时电力，预计2026年增至260太瓦时，占美国总电力需求的6% [3] - 前沿AI模型的训练成本大幅增加，预计2027年最大规模训练运行成本将超过10亿美元 [4] - 晶体管尺寸缩小到纳米级，摩尔定律和丹纳德定律正在达到极限 [4] 基于物理的ASIC解决方案 - 基于物理的ASIC直接利用物理动力学进行计算，而非强制实现理想化的数字抽象 [1] - 通过放宽传统ASIC的无状态性、单向性、决定性和同步性约束，显著提升能源效率和计算吞吐量 [1][6] - 基于物理的ASIC可以加速AI应用如扩散模型、采样、优化和神经网络推理 [1] - 与传统ASIC相比，基于物理的ASIC能用更少组件完成更多计算，如标量乘法只需少量组件而非几十到几百个晶体管 [17] - 基于物理的ASIC有望实现异构、高度专业化的计算平台未来 [1] 性能优势与设计策略 - 基于物理的ASIC通过放宽约束来节省功率和能量成本 [23] - 物理动态"自动"执行部分计算，如求解线性代数或优化问题，带来时间和能量节省 [23] - 设计策略涉及自上而下与自下而上视角的交集，最大化应用需求与物理结构能力的匹配 [25][28] - 定义性能比率RT(ℓ)和RE(ℓ)来评估算法在基于物理的ASIC上的运行时间和能耗优势 [30] - 阿姆达尔法则对使用ASIC所能获得的性能提升设定了限制 [31] 应用领域 - 基于物理的ASIC适合物理启发的应用如人工神经网络、扩散模型、采样和优化 [38][41] - 人工神经网络特别适合通过专用模拟硬件加速，因其对噪声的抗性和计算模式重复性 [44] - 扩散模型与随机热力学有深刻联系，基于物理的ASIC非常适合运行 [45] - 采样问题可通过物理系统自然演化的特性解决 [46] - 优化问题可映射到物理能量函数，基于物理的ASIC可执行退火算法等 [48] 发展路线图 - 第一阶段需展示基于物理的ASIC在关键工作负载上的性能优势 [53][54] - 第二阶段需解决可扩展性问题，构建能够处理工业规模问题的物理基底 [57][58] - 第三阶段需将基于物理的ASIC集成到混合系统中，与传统GPU和CPU协同工作 [61][63] - 基于tile的层级结构和可重构交互项是实现可扩展性的关键设计 [59][60] - 需要开发用户友好的软件抽象如PyTorch和JAX接口以促进广泛采用 [64]

手机实现GPT级智能，比MoE更极致的稀疏技术：省内存效果不减｜对话面壁&清华肖朝军

量子位· 2025-04-12 11:16

大模型架构创新 - 神经元级稀疏激活技术CFM通过原生稀疏特性提升参数效率，相比MoE实现更细粒度（神经元级别）的动态激活，资源消耗降低同时保持性能[3][6][8] - CFM参数效率优势直接体现为节省显存和内存，尤其适合内存受限的端侧应用场景[7] - MoE因需固定激活专家数量（Top k）以控制训练负载均衡，无法实现CFM的强动态性[11] 模型架构技术路线 - 当前架构优化分为两派：线性派（Mamba/RWKV）和Transformer改进派（KV缓存管理/FFN稀疏化）[14] - Transformer成为主流兼具必然性（硬件彩票效应）与偶然性，其核心优势在于无需调参即可实现规模扩展[17][18] - 纯线性架构在长文本任务（如RULER评测）中仍落后Transformer，混合架构可能突破局限[16][36] 端侧部署与模型压缩 - 端侧小模型定义参数规模约2-3B，面壁智能已开源4B模型并部署于手机/智能家居等场景[21][24][25] - 低精度计算（FP8/FP4）成为趋势，2025年将更广泛应用但需配套设计保障效果[27] - 多模态小模型表现接近大模型，差距主要体现在知识调度与理解能力[28][29] 未来技术方向 - 长文本推理与思维链（CoT）是下一突破点，需解决状态回溯与多路径探索问题[32][33] - 创新能力将成为关键，AI需突破预训练语义空间实现未知领域探索[35] - 大模型不可能三角（计算复杂度/性能/并行化）尚未解决，信息压缩导致线性架构长文本劣势[38][39] 行业动态 - 面壁智能采用积木式组合构建高效任务模型，开源MiniCPM-3-4B并探索数十B级项目[11][24] - DeepSeek已开源FP8算子推动行业低精度计算普及[27] - 强化学习技术路线（如o1）需提升硬件利用率以实现深度思考与超长思维链生成[30][31]

神经元级稀疏激活

硬件彩票

大模型不可能三角

Artificial Intelligence

CFM（Configurable Foundation Models）

Artificial Intelligence

CFM（Configurable Foundation Models）

MiniCPM - 3 - 4B