又一家AI芯片公司：另辟蹊径挑战英伟达

公司核心技术：硬编码推理架构 - 核心创新在于将训练完成的AI模型权重直接编码到芯片的晶体管中，从根本上消除计算与内存之间的壁垒，并简化AI设备架构 [2] - 具体架构结合了掩膜ROM召回结构（用于硬编码模型权重）和SRAM召回结构（用于KV缓存和适配功能），实现了计算和存储的超高密度 [10] - 在硬编码部分，其设计能够仅用一颗晶体管存储4比特数据并完成相关的乘法运算，从而获得惊人的密度 [10] - 该架构是纯数字电路，所有设计均从零开始，进行了大量的晶体管级设计和手动布局 [10] - 模型的每一次重大更新（如从Llama 3.1到Llama 4）都需要重新流片新一代HC芯片，但只需修改设计中的两层金属层，而非完全推翻重来 [10][11] 公司产品性能与规划 - 第一代HC1芯片采用台积电6纳米工艺制造，面积为815平方毫米，集成530亿个晶体管，单卡功耗约为200瓦 [12] - 一台搭载十张HC1卡的双路X86服务器整机功耗为2500瓦 [12] - 当前HC1芯片的硬编码部分支持80亿参数，下一代产品单颗芯片将能支持高达200亿参数 [10] - 对于万亿参数模型，仅需几十颗芯片即可支持，远少于市场其他方案 [10] - 公司计划在今年夏季推出硬编码200亿参数Llama 3.1模型的HC芯片，年底将推出通过多卡集群运行前沿大语言模型的HC2架构 [13] - 客户可以通过与台积电共同打造的“晶圆厂最优工作流”，在两个月内将模型权重转化为可部署的PCIe卡 [12] 性能与成本优势 - 根据公司自行测试，其HC1卡在运行Llama 3.1 8B和DeepSeek R1 671B模型时，相比英伟达B200 GPU，展现出显著更低的每Token成本和极低的延迟 [15][17][19] - 由于推理速度极快，无需对查询进行批处理，因此带宽压力很低，多卡组合运行大模型时PCIe总线即可满足需求 [13] - 训练一个模型的成本是从该公司批量定制一颗定制化HC芯片成本的100倍 [11] 公司背景与团队 - 公司成立已有两年半，通过三轮风险融资募集超过2亿美元，目前研发投入3000万美元，账上仍有超过1.7亿美元资金 [3][5] - 公司总部位于多伦多，目前拥有25名员工，大部分是来自AMD、苹果、谷歌、英伟达和Tenstorrent的资深工程师 [5] - 联合创始人兼首席执行官Ljubisa Bajic曾是Tenstorrent的创始人，并在AMD和英伟达有深厚的架构设计背景 [3] - 联合创始人兼首席运营官Lejla Bajic和联合创始人兼首席技术官Drago Ignjatovic也均拥有AMD和Tenstorrent的资深工程背景 [4][5] - 产品副总裁Paresh Kharya曾担任谷歌云AI基础设施产品管理总监，负责GPU和TPU硬件及软件栈 [5] 行业竞争格局 - AI推理加速领域存在多种技术路径，包括Cerebras Systems、SambaNova Systems、Groq（被英伟达以200亿美元收购）和Graphcore（被软银以6亿美元收购）等公司采用的大容量SRAM或晶圆级阵列方案 [2] - 传统GPU和AI XPU（如英伟达和AMD的产品）需要借助HBM堆叠DRAM来匹配计算带宽 [2] - 该公司的硬编码推理方案旨在挑战现有AI推理方案的极限，提供差异化的高性能、低成本解决方案 [2][17]