英伟达官宣新合作成就:Mistral开源模型提速,任意规模均提高效率和精度

英伟达与Mistral AI合作的技术突破 - 合作核心是Mistral Large 3大型模型在英伟达GB200 NVL72系统上实现相比前代H200芯片10倍的性能提升 [1] - 性能飞跃转化为更好的用户体验、更低的单次响应成本以及更高的能源效率,模型在每兆瓦(MW)能耗下可实现每秒超过500万个token的处理速度 [1] - 小型模型Ministral 3系列针对英伟达边缘平台优化,可在RTX PC、笔记本电脑和Jetson设备上运行,实现云端到边缘的AI应用部署 [1] Mistral Large 3大型模型技术细节 - Mistral Large 3是一个混合专家模型(MoE),拥有675亿总参数和410亿活跃参数,以及25.6万token的上下文窗口 [2] - 该架构仅激活对每个token最具影响力的模型部分,从而在保持精度的同时实现高效扩展 [2] - 通过为大型先进MoE量身定制的优化技术,该模型在英伟达GB200 NVL72上实现了同类最佳性能 [2] 英伟达实现性能优化的关键技术 - 采用Wide Expert Parallelism技术,通过优化的MoE内核、专家分配和负载均衡充分利用NVLink的连贯内存域 [4] - 应用NVFP4低精度推理技术,在保持精度的同时降低计算和内存成本 [4] - 使用Dynamo分布式推理框架,通过分离预填充和解码阶段提升长文本处理性能 [4] 模型部署的兼容性与灵活性 - 该模型已兼容TensorRT-LLM、SGLang和vLLM等主流推理框架 [5] - 开发者可通过开源工具在不同规模的英伟达GPU上灵活部署模型,选择适合自身需求的精度格式和硬件配置 [5] Ministral 3小型模型系列边缘部署优势 - Ministral 3系列包含九个密集型高性能模型,涵盖30亿、80亿和140亿三种参数规模,所有变体均支持视觉功能和多语言 [6] - 在英伟达RTX 5090 GPU上可实现每秒最高385个token的推理速度,在Jetson Thor设备上,vLLM容器在8个并发下可扩展至每秒273个token [6] - 与Ollama和llama.cpp合作优化边缘性能,可在GeForce RTX AI PC、DGX Spark和Jetson等设备上运行,实现低延迟和强数据隐私保护 [6] Mistral AI公司发展与商业化进程 - Mistral AI在2023年成立,于去年9月完成17亿欧元融资,其中ASML贡献13亿欧元,英伟达也参与其中,公司估值达到117亿欧元 [7] - 公司首席科学家强调,经过针对性微调后,小型模型在企业特定用例上往往能匹敌甚至超越大型模型,且成本更低、速度更快 [7] - 已加速商业化进程,与汇丰银行达成协议,并与多家企业签订了价值数亿美元的合同,在物理AI领域与多家机构展开项目合作 [7] 模型的市场可用性 - Mistral Large 3和Ministral-14B-Instruct现已通过英伟达API目录和预览API向开发者开放 [8] - 企业开发者很快还可使用英伟达NIM微服务在任何GPU加速基础设施上轻松部署这些模型,所有模型均可从Hugging Face下载 [8]