Llama 3.1 8B模型
搜索文档
24人团队硬刚英伟达,AMD前高管梦之队出手,新芯片每秒17000个token
36氪· 2026-02-21 13:47
公司产品与技术 - 公司Taalas推出首款芯片HC1,其峰值推理速度高达每秒17000个token,远超当前公认最强的Cerebras(约2000 token/s)[1][3] - HC1在实现速度提升约10倍的同时,将成本骤减20倍、功耗降低10倍,使LLM实现亚毫秒级即时响应[1] - 芯片采用台积电N6工艺,面积为815mm²,单颗芯片即可满足8B模型需求,典型功耗仅为250W,10颗芯片组装的服务器功耗为2.5kW,可使用常规空气冷却机架部署[5] - 技术方案极端,将模型直接刻在硅片上,实现“芯片即模型”,放弃了大多数可编程功能,通过基于掩模ROM的架构存储模型和权重,仅保留可编程SRAM用于微调权重和KV缓存[3][8] - 该设计借鉴结构化ASIC理念,通过仅调整两层掩模来低成本快速生产专用AI推理芯片,将芯片生产周期从六个月缩短到两个月[6][8] - 公司已尝试将其他模型集成到HC1,例如对DeepSeekR1-671B模型采用多芯片方案,使用30颗定制HC1,整体处理速度可达每用户每秒12000个token[10] - 该多芯片方案成本为每百万token 7.6美分,不到同等吞吐量GPU方案成本的一半,即使考虑HC1每年需更换而GPU更新周期为四年,总成本仍具优势[10] - 公司产品研发投入仅3000万美元,团队仅有24人,但创造出比通用AI芯片高出几个数量级的能效比[13] 行业竞争格局 - HC1的推理速度显著高于主流竞争对手:Cerebras约2000 token/s,SambaNova约900 token/s,Groq约600 token/s,英伟达Blackwell架构B200约350 token/s[5] - 公司技术路径与当前普遍推出通用型芯片的行业趋势不同,选择了通过硬编码换取极致速度和效率的专用化方案[17] 公司背景与发展 - 公司Taalas成立于两年前,由AMD前集成电路设计总监Ljubiša Bajić、AMD/ATI/Altera前技术经理和工程师Leila Bajić、AMD前ASIC设计总监Drago Ignjatović共同创立[11] - 联合创始人Ljubiša Bajić曾在AMD和英伟达担任高级职位,负责高性能GPU研发,也是Tenstorrent的创始人兼首任CEO,后转任Tenstorrent首席技术官[11] - 公司致力于开发专为AI推理和训练设计的新架构,强调分层设计和晶格网络[11] - 公司已筹集2亿美元投资,计划在春季基于HC1发布集成中等规模推理大模型的第二代变体,并在冬季部署上线密度更高、速度更快的HC2[13] 市场评价与潜在影响 - 产品在硅谷引发高度关注,有观点认为其超低延迟将有益于推动具身智能等领域发展[13] - 市场评价呈现两极分化,有实测指出HC1在高速推理的背后存在推理深度不佳的问题[15] - 对于迭代迅速的大模型,HC1的硬编码特性可能使芯片容易过时,这是行业普遍推出通用型芯片的原因之一[17]