公开模型一切,优于DeepSeek-R1,英伟达开源Llama-Nemotron家族
机器之心报道 编辑:+0、刘欣 在大模型飞速发展的今天,推理能力作为衡量模型智能的关键指标,更是各家 AI 企业竞相追逐的焦点。 但近年来,推理效率已成为模型部署和性能的关键限制因素。 基于此,英伟达推出了 Llama-Nemotron 系列模型(基于 Meta AI 的 Llama 模型构建)—— 一个面向高效推理的大模型开放家族,具备卓越的推理能力、推理效 率,并采用对企业友好的开放许可方式。 该系列包括三个模型规模:Nano(8B)、Super(49B)与 Ultra(253B),另有独立变体 UltraLong(8B,支持超长上下文)。 这一系列模型可不简单,不仅具备超强的推理能力,还为企业使用提供开放许可。模型权重和部分训练数据在 Hugging Face 上公开,遵循 NVIDIA Open Model License 和 Llama 社区许可,可商业使用。 Llama-Nemotron 系列模型是首批支持动态推理切换的开源模型,用户在推理时可在标准聊天模式和推理模式之间自由切换,极大地提升了交互的灵活性。 研究主要是利用推理类和非推理类这两类基准测试对 Llama-Nemotron 系列模型进行 ...