英伟达新研究：小模型才是智能体的未来

大模型与小模型对比 - 大语言模型在Agent任务中处理重复、专业化子任务时消耗大量计算资源，成本高、效率低、灵活性差 [1] - 小语言模型在性能够用的前提下，使Agent任务执行更经济灵活 [2] - 实测显示6.7B参数的Toolformer调用API后性能超越175B的GPT-3 [3] - 7B参数的DeepSeek-R1-Distill推理表现优于Claude3.5和GPT-4o [4] 小模型优势 - 体积小巧，可在GPU上高效共享资源，并行运行多个工作负载并保持性能隔离 [8] - 更低显存占用，支持超分配机制，提升并发能力 [9] - GPU资源可灵活划分，实现异构负载弹性调度和整体资源优化 [10] - 优先调度小模型的低延迟请求，预留资源应对大模型调用，优化整体吞吐与成本控制 [11] 任务优化与部署 - Agent任务多为重复性、可预测、范围明确的操作（如文档总结、信息提取、模板编写、工具调用） [14][16] - 为每个子任务选择专业微调的小模型，避免大模型资源浪费 [15][16] - 运行70亿参数小模型比700-1750亿参数大模型便宜10-30倍 [20] - 小模型计算资源占用低，适合本地或边缘部署，大模型依赖中心化云计算 [20] 争议与挑战 - 反对观点认为大模型通用理解能力更强，在专业任务中表现更佳 [22] - 小模型可通过微调达到可靠性，且复杂问题可分解为简单子任务，降低对大模型通用能力的需求 [23][24] - 质疑小模型经济性：大规模部署时大模型的规模经济可能更优 [26] - 行业惯性使创新仍集中在大模型，小模型面临基础设施适配、市场认知度低、评估标准缺失等挑战 [28][29] 转型方法 - 采集大模型运行数据，脱敏后保留使用模式 [32] - 聚类工作负载识别常见子任务 [33] - 选择小模型并匹配GPU分配策略，定制数据微调后部署 [34] - 构建持续反馈闭环优化性能和资源利用率 [35] 行业讨论 - 简单任务（如Amazon产品退款）使用小模型更具成本效益 [36] - 小模型在偏离预设流程时可能不够鲁棒，需预先考虑更多变数 [37] - 小模型遵循"一个程序只做好一件事"的设计哲学，但功能多样性可能增加操作复杂度 [37][38][39]