Workflow
Compute-in-Memory
icon
搜索文档
GSI Technology Reports 3-Second Time-to-First-Token for Edge Multimodal LLM Inference on Gemini-II
Globenewswire· 2026-01-29 21:30
公司产品性能表现 - GSI Technology公布了其Gemini-II存内计算处理器的初步基准测试结果 结果显示在边缘处理视频和文本输入的多模态大语言模型时 首次令牌生成时间仅为3秒 [1] - 在Gemini-II生产处理器上运行Gemma-3 120亿参数视觉语言模型时 公司实现了3秒的TTFT 同时AI子系统(包括芯片)功耗约为30瓦 据公司所知 这是在嵌入式边缘处理器上运行的多模态120亿参数模型公开报告的最低功耗结果 [2] - 独立第三方在竞争性嵌入式平台上测试相同工作负载的报告显示 高通骁龙X Elite平台(功耗30瓦)的TTFT约为12秒 英伟达Jetson Thor平台(功耗超过100瓦)的TTFT为3秒 在更低的功耗水平下达到或优于竞争平台性能 表明Gemini-II在功耗和散热受限的边缘环境中具有更优的响应能力和能效表现 [3] 产品技术优势与市场定位 - 公司首席执行官表示 这些基准测试结果凸显了存内计算技术对物理AI的赋能 边缘部署需要在严格的功耗和散热限制下实现快速响应 3秒的TTFT意味着系统可以每三秒生成一次初始响应 这通常足以满足基于视频的应用需求而不错过重要事件 [4] - Gemini-II能够以低功耗实现低延迟多模态推理 支持更广泛的实时应用 从自主系统到在数据中心外运行的智能机器 [4] - 公司认为该性能特征非常适合“物理AI”市场 包括无人机、智慧城市和其他边缘系统 这些场景的工作负载是间歇性的 并受电池寿命、热设计和外形尺寸限制 更低的芯片功耗带来更快的TTFT 可以实现响应更迅速的系统、更长的工作周期和更低的系统总成本 [4] 行业趋势与公司技术架构 - 边缘物理AI代表了AI计算中一个不断增长的细分领域 因为工作负载正从云辅助模型转向本地推理 以改善延迟、可靠性和运营效率 [5] - 公司专有的存内计算架构旨在减少数据移动 而数据移动是传统架构中延迟和功耗的主要来源 [5] 公司业务进展与产品介绍 - 公司的工程团队正继续致力于进一步优化Gemini-II的响应能力 同时与客户和合作伙伴(包括G2 Tech)在系统集成和概念验证活动上进行合作 [6] - GSI Technology是AI革命的先锋 拥有突破性的关联处理单元技术 专为数十亿项数据库搜索和高性能计算中无与伦比的效率而设计 公司的Gemini-I和Gemini-II创新产品提供了可扩展、低功耗、高容量的计算解决方案 重新定义了边缘计算能力 [7]
GSI (NasdaqGS:GSIT) FY Conference Transcript
2026-01-16 01:02
公司概况 * 公司为GSI Technology,总部位于加州桑尼维尔,是一家拥有30年历史的半导体公司,于2007年上市 [3] * 公司最初是SRAM公司,后通过收购进入AI芯片领域,目前拥有SRAM和APU两大产品线 [4] * 公司采用无晶圆厂模式,自成立起就与台积电合作,关系紧密 [3] * 公司员工总数122人,大部分为工程师,将制造和封装等高人力需求环节外包以控制成本 [5] * 公司拥有144项专利,其中85项专门针对APU技术,并持续提交新申请以保护其技术 [5] 财务状况与融资 * 上一财年(截至3月31日)收入略高于2000万美元,本财年预计同比增长20% [5][27] * 截至9月底,公司拥有现金及现金等价物2500万美元,该数字未包含10月份完成的融资 [6] * 公司于10月份完成了一轮净融资4700万美元,用于支持Gemini 2和新产品Plato的研发 [4][27] * 公司市值约为2.7亿美元,内部人士持股比例为21% [6] * 公司已为APU的研发投入约1.75亿美元,资金主要来源于SRAM业务的利润 [4] SRAM业务 * SRAM业务是公司的传统和支柱业务,为APU的研发提供了资金支持 [4] * 公司拥有业内最高密度和最高性能的SRAM产品线,其中第三代和第四代产品为独家供应,无竞争对手 [6] * 由于独家供应,公司的平均销售价格和毛利率多年来持续增长 [7] * 公司利用其商业产品线开发了抗辐射SRAM,进军航空航天市场 [7] * 抗辐射SRAM的平均销售价格在1万至3万美元之间,毛利率均超过90% [9] * 航空航天SRAM市场正在增长,预计将从几年前的20亿美元增长至2032年的近50亿美元 [9] * SRAM市场整体增长平缓,并非高速增长市场 [44] * 公司历史上已制造和出货超过1亿颗SRAM芯片,拥有成熟的量产制造模型 [28] APU技术与产品路线图 * APU是公司的AI芯片,专注于边缘计算市场 [10] * 公司拥有真正的存内计算架构,与竞争对手的“近存计算”有本质区别,其数据在处理时无需在存储器和计算单元间搬运,消除了冯·诺依曼瓶颈,从而在功耗和延迟上具有优势 [10][33][34] * APU芯片上集成了数百万个位处理器,支持大规模并行处理,远超CPU和GPU的核心数量 [11] * APU的位宽分辨率灵活可变,可在1位到百万位之间任意配置,且每个周期都可改变,能精确匹配模型需求,避免资源浪费,尤其适合量化等低比特应用 [13][14] * 公司目前有两代APU产品:Gemini 1和Gemini 2 [15] * Gemini 1主要用于技术展示,需搭配FPGA板卡使用,适用于地面应用 [16] * 康奈尔大学的研究论文显示,在RAG应用中,Gemini 1架构相比英伟达GPU功耗降低98% [17] * Gemini 2可作为独立芯片销售,更贴近边缘,其硬件已完成并进入量产状态 [17][22] * 下一代产品名为Plato,主要针对边缘的大语言模型应用,通过大幅增加外部存储器带宽来应对庞大的数据库 [19][20] * Plato的设计已启动,计划在2027年初完成流片,2027年夏季获得首颗芯片,预计2028年投入量产 [22][29] * 已有合作伙伴与公司探讨Plato之后的下一代产品,希望采用更先进的制程节点 [23] 市场战略与机遇 * 公司战略聚焦于边缘AI市场,该市场预计将从今年的近70亿美元增长至五年后的超过160亿美元 [10] * 应用从云端向边缘转移的驱动力包括:降低云计算成本、满足军事国防等场景的数据本地化安全要求、以及需要实时决策的低延迟应用需求 [21] * 公司早期重点瞄准军事国防市场,视其为“低垂的果实” [22] * 公司强调自身虽是AI领域的新创公司,但拥有成熟的半导体制造经验和量产能力,这在与无人机等需要大批量生产的客户合作时是关键优势 [28] * 向量搜索是APU的核心应用之一,具体场景包括电子商务、人脸识别、物体检测、药物发现中的分子筛选等 [35][36] 客户进展与政府项目 * 公司已获得总额340万美元的“小企业创新研究”计划第二阶段奖项,合作方包括太空发展局和美国空军 [23] * 去年获得了美国陆军的SBIR第一阶段奖项,近期其中一个第二阶段项目获得了71.5万美元的额外扩展资金,用于对Gemini 2进行光束测试 [23][24] * 公司昨日宣布与G2 Tech合作,为美国国防部和另一家未具名的外国国防机构进行概念验证,该POC金额略高于100万美元 [25] * 该POC项目是一个多模态视觉语言模型自主安防响应系统,结合摄像头和无人机,旨在GPS拒止环境下实现自主运行 [37][38] * 在该POC中,Gemini 2的“首令牌时间”为2.5秒,显著优于GPU约6秒的最佳水平,这对于需要快速反应的场景至关重要 [39] * 公司已提交了价值约600万至1000万美元的SBIR提案,正在等待结果 [25] * 公司还提交了“广泛机构公告”提案,此类项目金额可能高达4000万美元 [26] * 公司正在推进一项“战略融资”计划,可能获得1000万至2000万美元的资金,资金来自私人方、政府机构并由AFWERX匹配 [26] * 公司正与主要国防承包商进行积极对话,旨在建立战略合作关系并共同开发产品,此类合作也可能带来研发资金 [26] 软件与生态建设 * 4700万美元融资的一部分将用于构建Gemini 2成功所需的软件 [29] * 软件工作包括开发更多功能库以及编译器工具链,使客户能够使用Python、PyTorch等高级语言编写自己的算法 [45] * POC项目中的算法由公司直接编写和优化,客户无需自行开发 [47] * 编译器工具链的开发是一个持续进行的项目,将随时间逐步发布不同部分 [48] 商业化预期与收入构成 * 在G2 Tech的POC应用中,公司的收入构成包括硬件和软件两部分:Gemini 2芯片的销售(平均售价约1000美元)以及软件算法的授权许可费和持续的订阅费 [41] * APU业务的增长关键在于将概念验证转化为订单,而软件支持是当前需要完善的重点 [44] * 假设夏季的POC演示顺利,原型机可能在年底前交付,量产预计在2027年 [47] * 除了当前的POC,公司通过SBIR项目也在为未来的其他设计获胜奠定基础 [48]