Elastic Introduces Native Inference Service in Elastic Cloud

新产品发布 - 公司宣布推出Elastic Inference Service (EIS)，一项用于Elasticsearch语义搜索、向量搜索和生成式AI工作流程的GPU加速推理服务[1] - 该服务作为推理即服务提供，并原生集成于Elastic Cloud中[2] 产品功能与优势 - 服务通过基于API的方式使用NVIDIA GPU，结合公司顶级的Elasticsearch向量数据库，以提供低延迟、高吞吐量的推理[3] - 首个在EIS上提供的文本嵌入模型是Elastic Learned Sparse EncodeR (ELSER)，目前处于技术预览阶段[3] - 服务提供简化的开发者体验，无需模型下载、手动配置或资源调配，并直接与semantic_text和Inference API集成[7] - 服务兼容稀疏向量、稠密向量或语义重新排序，改善了端到端语义搜索体验[7] - 服务提供开箱即用的AI功能，用于数据摄取、调查、检测和分析，简化了生成式AI工作流程[7] - GPU加速推理提供一致的延迟，并且与基于CPU的方案相比，数据摄取吞吐量最高可提升10倍[7] 技术整合与兼容性 - 服务旨在满足市场对GPU加速和集成工作流程的需求，以提供速度、可扩展性和成本效益[2] - Open Inference API为用户提供了连接任何第三方服务的完全灵活性，同时现有的Elasticsearch ML Nodes在采用期间继续受支持[7] 定价与可用性 - 服务采用基于消费的定价模式，按每个模型每百万tokens收费[7] - Elastic Inference Service已在Serverless和Elastic Cloud Hosted部署上可用，所有云服务提供商和区域均可访问EIS上的推理端点[5] - 未来将很快提供对多语言嵌入、重新排序以及近期收购的Jina模型等额外模型的支持[3][5]