LightInferra - 财报，业绩电话会，研报，新闻

LightInferra

搜索文档

ScaleFlux, FarmGPU, and Lightbits Labs Preview Solution to Solve Long-Context AI Inference at NVIDIA GTC

Businesswire· 2026-03-11 21:22

公司合作与技术方案 - ScaleFlux、FarmGPU和Lightbits Labs三家公司联合发布了一项名为LightInferra的协作架构，旨在解决长上下文AI推理中的内存和I/O限制挑战[1] - 该方案结合了ScaleFlux的高性能NVMe、FarmGPU的托管推理环境以及Lightbits的LightInferra软件，通过智能管理KV缓存持久化，减少延迟、消除GPU停顿并提升基础设施效率[1] - 该技术通过预取关键数据并通过高速RDMA在需要前将其传输至GPU，从而消除传统上限制长上下文性能的停顿，实现更低的首令牌时间、更稳定的实际负载吞吐量以及显著更高的有效GPU利用率[1] 技术优势与性能提升 - 该方案通过将KV缓存扩展并共享到有限的GPU内存之外，使相同GPU能够处理的推理请求数量增加至多3倍[1] - 通过从存储中检索注意力状态而非重新计算，以降低首令牌时间和每个输出令牌时间，从而缓解因上下文窗口扩大而导致的推理停顿[1] - 对于企业而言，这意味着能够以更低的基础设施成本服务更大的模型和更长的对话；对于终端用户，则意味着更快、更流畅、响应更迅速的AI体验[1] 应用场景与生态合作 - 关键探索领域包括AI原生安全与隔离（提供端到端安全，包括KV缓存块加密、租户隔离以及与KMS和TPM的集成）以及降低延迟和提升稳定性[1] - 作为NVIDIA Magnum IO GPU Direct Network的成员，公司视此为与生态系统开放协作的机会，并希望与实际的运营者共同塑造这一合作[1] - FarmGPU首席执行官表示，Lightbits的高速网络存储为长上下文推理解锁了许多新的用例，通过将其托管服务与运行在ScaleFlux NVMe上的Lightbits高性能存储配对，能够降低首令牌时间并提高GPU利用率，从而大幅降低推理的总拥有成本[1] 市场活动与公司背景 - 该解决方案将于2026年3月16日至19日在圣何塞举行的NVIDIA GTC上首次公开演示，展位号为7006[1] - ScaleFlux致力于为AI/ML工作负载以及数据中心、企业和边缘基础设施中的高要求应用提供具有突破性性能、效率、安全性和可扩展性的闪存存储和CXL内存解决方案[1] - Lightbits Labs发明了NVMe over TCP存储协议，并将其原生嵌入其软件定义的块存储中，以提供超低延迟和卓越吞吐量，同时利用商用基础设施，这对于降低大规模数据基础设施的成本和复杂性至关重要[1] - FarmGPU通过提供专为全球AI开发者、创新初创企业和企业量身定制的经济高效、可扩展且高性能的GPU资源，重新定义GPU驱动的云计算的未来[1]

英伟达(US:NVDA)

Long-Context AI Inference

Artificial Intelligence

LightInferra

NVMe over TCP storage protocol

Long-Context AI Inference

Artificial Intelligence

LightInferra

NVMe over TCP storage protocol