公司概况与战略定位 - 韩国芯片初创公司FuriosaAI由前三星和AMD工程师June Paik于2017年在首尔创立,专注于开发用于深度学习工作负载的专用芯片[2] - 公司预见到专用AI芯片市场的兴起,并于2021年推出第一代14纳米神经处理单元,在MLPerf基准测试中表现良好并获得客户如Kakao的采用[2] - 公司正致力于通过其独特的张量收缩处理器架构来提升AI性能优势,与Nvidia等竞争对手展开竞争[2] - 公司于2024年7月底完成1.25亿美元的C轮过桥融资,使总融资额达到2.46亿美元,并决定独立发展而非被Meta收购[8] 第二代产品RNGD的技术规格 - 针对生成式AI和大型语言模型开发的第二代芯片RNGD由台积电采用5纳米工艺制造,目前正向客户提供样品[3] - 每张RNGD卡配备48GB HBM3显存,提供每秒1.5 TB的显存带宽和512 TFLOPS的FP8性能,功耗最高仅为180瓦[3] - RNGD卡兼具性能、能效和可编程性三重优势,据称在运行大型语言模型时,每瓦性能比Nvidia H100高出三倍[3][5] - 基于RNGD卡的NXT RNGD服务器系统配备八张卡,总计384 GB HBM3内存、每秒12 TB内存带宽,在3 kW热设计功率下提供4 petaFLOPS的FP8性能[4] 核心技术架构创新 - 张量收缩处理器架构的关键创新在于提高抽象层,以张量收缩作为基本基元,而非依赖GPU的低级二维矩阵乘法运算[6] - 该架构通过电路交换提取网络实现灵活高吞吐量的数据访问,促进跨计算单元的数据重用,从而最大限度地减少外部内存传输[7] - 核心技术优势在于最大限度地减少数据移动,因为在DRAM和芯片处理元件间传输数据的能耗比执行计算本身多高达10,000倍[6] - 架构与编译器和软件堆栈共同设计,提供从零开始开发的完整软件生态,包括PyTorch原生即时编译器支持和与OpenAI兼容的API[7] 市场应用与客户反馈 - 公司的每瓦性能优势已获得客户采用,LG AI Research测试表明RNGD能在每个机架上提供约3.5倍的tokens,相比GPU解决方案[7] - 低功耗技术使客户可在标准15kW以下功率限制的机架中安装更强大计算能力,每个机架的tokens数量增加约3.5倍,降低总体拥有成本[8] - OpenAI团队在首尔办公室启用仪式上展示了在RNGD加速器上实时运行的gpt-oss 120B模型,标志着其模型首次在韩国芯片上运行[8] - 公司目前专注于与全球少数重要战略客户达成最终设计协议,并加大RNGD量产力度,计划在2026年初扩大全球客户参与度[9] 人才发展与未来规划 - 公司加强了人才招聘,聘请韩国科学技术院并行系统专家Jeehoon Kang担任首席研究官,领导编译器和软件研究[9] - 聘请前三星副总裁Youngjin Cho担任硬件副总裁,负责加速芯片开发,增强公司的芯片设计能力[9] - 公司正在加大RNGD的量产力度,为2026年初的全球扩张做准备,同时专注于与战略客户达成设计协议而非优先考虑产量[9]
一颗芯片,叫板英伟达