公司核心技术:硬编码推理架构 - 核心创新在于将训练完成的AI模型权重直接编码到芯片的晶体管中,从根本上消除计算与内存之间的壁垒,并简化AI设备架构 [2] - 具体架构结合了掩膜ROM召回结构(用于硬编码模型权重)和SRAM召回结构(用于KV缓存和适配功能),实现了计算和存储的超高密度 [10] - 在硬编码部分,其设计能够仅用一颗晶体管存储4比特数据并完成相关的乘法运算,从而获得惊人的密度 [10] - 该架构是纯数字电路,所有设计均从零开始,进行了大量的晶体管级设计和手动布局 [10] - 模型的每一次重大更新(如从Llama 3.1到Llama 4)都需要重新流片新一代HC芯片,但只需修改设计中的两层金属层,而非完全推翻重来 [10][11] 公司产品性能与规划 - 第一代HC1芯片采用台积电6纳米工艺制造,面积为815平方毫米,集成530亿个晶体管,单卡功耗约为200瓦 [12] - 一台搭载十张HC1卡的双路X86服务器整机功耗为2500瓦 [12] - 当前HC1芯片的硬编码部分支持80亿参数,下一代产品单颗芯片将能支持高达200亿参数 [10] - 对于万亿参数模型,仅需几十颗芯片即可支持,远少于市场其他方案 [10] - 公司计划在今年夏季推出硬编码200亿参数Llama 3.1模型的HC芯片,年底将推出通过多卡集群运行前沿大语言模型的HC2架构 [13] - 客户可以通过与台积电共同打造的“晶圆厂最优工作流”,在两个月内将模型权重转化为可部署的PCIe卡 [12] 性能与成本优势 - 根据公司自行测试,其HC1卡在运行Llama 3.1 8B和DeepSeek R1 671B模型时,相比英伟达B200 GPU,展现出显著更低的每Token成本和极低的延迟 [15][17][19] - 由于推理速度极快,无需对查询进行批处理,因此带宽压力很低,多卡组合运行大模型时PCIe总线即可满足需求 [13] - 训练一个模型的成本是从该公司批量定制一颗定制化HC芯片成本的100倍 [11] 公司背景与团队 - 公司成立已有两年半,通过三轮风险融资募集超过2亿美元,目前研发投入3000万美元,账上仍有超过1.7亿美元资金 [3][5] - 公司总部位于多伦多,目前拥有25名员工,大部分是来自AMD、苹果、谷歌、英伟达和Tenstorrent的资深工程师 [5] - 联合创始人兼首席执行官Ljubisa Bajic曾是Tenstorrent的创始人,并在AMD和英伟达有深厚的架构设计背景 [3] - 联合创始人兼首席运营官Lejla Bajic和联合创始人兼首席技术官Drago Ignjatovic也均拥有AMD和Tenstorrent的资深工程背景 [4][5] - 产品副总裁Paresh Kharya曾担任谷歌云AI基础设施产品管理总监,负责GPU和TPU硬件及软件栈 [5] 行业竞争格局 - AI推理加速领域存在多种技术路径,包括Cerebras Systems、SambaNova Systems、Groq(被英伟达以200亿美元收购)和Graphcore(被软银以6亿美元收购)等公司采用的大容量SRAM或晶圆级阵列方案 [2] - 传统GPU和AI XPU(如英伟达和AMD的产品)需要借助HBM堆叠DRAM来匹配计算带宽 [2] - 该公司的硬编码推理方案旨在挑战现有AI推理方案的极限,提供差异化的高性能、低成本解决方案 [2][17]
又一家AI芯片公司:另辟蹊径挑战英伟达