LightInferra
搜索文档
ScaleFlux, FarmGPU, and Lightbits Labs Preview Solution to Solve Long-Context AI Inference at NVIDIA GTC
Businesswire· 2026-03-11 21:22
公司合作与技术方案 - ScaleFlux、FarmGPU和Lightbits Labs三家公司联合发布了一项名为LightInferra的协作架构,旨在解决长上下文AI推理中的内存和I/O限制挑战[1] - 该方案结合了ScaleFlux的高性能NVMe、FarmGPU的托管推理环境以及Lightbits的LightInferra软件,通过智能管理KV缓存持久化,减少延迟、消除GPU停顿并提升基础设施效率[1] - 该技术通过预取关键数据并通过高速RDMA在需要前将其传输至GPU,从而消除传统上限制长上下文性能的停顿,实现更低的首令牌时间、更稳定的实际负载吞吐量以及显著更高的有效GPU利用率[1] 技术优势与性能提升 - 该方案通过将KV缓存扩展并共享到有限的GPU内存之外,使相同GPU能够处理的推理请求数量增加至多3倍[1] - 通过从存储中检索注意力状态而非重新计算,以降低首令牌时间和每个输出令牌时间,从而缓解因上下文窗口扩大而导致的推理停顿[1] - 对于企业而言,这意味着能够以更低的基础设施成本服务更大的模型和更长的对话;对于终端用户,则意味着更快、更流畅、响应更迅速的AI体验[1] 应用场景与生态合作 - 关键探索领域包括AI原生安全与隔离(提供端到端安全,包括KV缓存块加密、租户隔离以及与KMS和TPM的集成)以及降低延迟和提升稳定性[1] - 作为NVIDIA Magnum IO GPU Direct Network的成员,公司视此为与生态系统开放协作的机会,并希望与实际的运营者共同塑造这一合作[1] - FarmGPU首席执行官表示,Lightbits的高速网络存储为长上下文推理解锁了许多新的用例,通过将其托管服务与运行在ScaleFlux NVMe上的Lightbits高性能存储配对,能够降低首令牌时间并提高GPU利用率,从而大幅降低推理的总拥有成本[1] 市场活动与公司背景 - 该解决方案将于2026年3月16日至19日在圣何塞举行的NVIDIA GTC上首次公开演示,展位号为7006[1] - ScaleFlux致力于为AI/ML工作负载以及数据中心、企业和边缘基础设施中的高要求应用提供具有突破性性能、效率、安全性和可扩展性的闪存存储和CXL内存解决方案[1] - Lightbits Labs发明了NVMe over TCP存储协议,并将其原生嵌入其软件定义的块存储中,以提供超低延迟和卓越吞吐量,同时利用商用基础设施,这对于降低大规模数据基础设施的成本和复杂性至关重要[1] - FarmGPU通过提供专为全球AI开发者、创新初创企业和企业量身定制的经济高效、可扩展且高性能的GPU资源,重新定义GPU驱动的云计算的未来[1]