Qualcomm Snapdragon X Elite
搜索文档
GSI Technology Reports 3-Second Time-to-First-Token for Edge Multimodal LLM Inference on Gemini-II
Globenewswire· 2026-01-29 21:30
公司产品性能表现 - GSI Technology公布了其Gemini-II存内计算处理器的初步基准测试结果 结果显示在边缘处理视频和文本输入的多模态大语言模型时 首次令牌生成时间仅为3秒 [1] - 在Gemini-II生产处理器上运行Gemma-3 120亿参数视觉语言模型时 公司实现了3秒的TTFT 同时AI子系统(包括芯片)功耗约为30瓦 据公司所知 这是在嵌入式边缘处理器上运行的多模态120亿参数模型公开报告的最低功耗结果 [2] - 独立第三方在竞争性嵌入式平台上测试相同工作负载的报告显示 高通骁龙X Elite平台(功耗30瓦)的TTFT约为12秒 英伟达Jetson Thor平台(功耗超过100瓦)的TTFT为3秒 在更低的功耗水平下达到或优于竞争平台性能 表明Gemini-II在功耗和散热受限的边缘环境中具有更优的响应能力和能效表现 [3] 产品技术优势与市场定位 - 公司首席执行官表示 这些基准测试结果凸显了存内计算技术对物理AI的赋能 边缘部署需要在严格的功耗和散热限制下实现快速响应 3秒的TTFT意味着系统可以每三秒生成一次初始响应 这通常足以满足基于视频的应用需求而不错过重要事件 [4] - Gemini-II能够以低功耗实现低延迟多模态推理 支持更广泛的实时应用 从自主系统到在数据中心外运行的智能机器 [4] - 公司认为该性能特征非常适合“物理AI”市场 包括无人机、智慧城市和其他边缘系统 这些场景的工作负载是间歇性的 并受电池寿命、热设计和外形尺寸限制 更低的芯片功耗带来更快的TTFT 可以实现响应更迅速的系统、更长的工作周期和更低的系统总成本 [4] 行业趋势与公司技术架构 - 边缘物理AI代表了AI计算中一个不断增长的细分领域 因为工作负载正从云辅助模型转向本地推理 以改善延迟、可靠性和运营效率 [5] - 公司专有的存内计算架构旨在减少数据移动 而数据移动是传统架构中延迟和功耗的主要来源 [5] 公司业务进展与产品介绍 - 公司的工程团队正继续致力于进一步优化Gemini-II的响应能力 同时与客户和合作伙伴(包括G2 Tech)在系统集成和概念验证活动上进行合作 [6] - GSI Technology是AI革命的先锋 拥有突破性的关联处理单元技术 专为数十亿项数据库搜索和高性能计算中无与伦比的效率而设计 公司的Gemini-I和Gemini-II创新产品提供了可扩展、低功耗、高容量的计算解决方案 重新定义了边缘计算能力 [7]