小模型优化
搜索文档
英伟达4B小模型击败GPT-5 Pro,成本仅1/36
36氪· 2025-12-08 15:23
核心观点 - 英伟达团队开发的4B小模型NVARC在ARC-AGI 2竞赛中以27.64%的公开榜成绩超越GPT-5 Pro的18.3%登顶榜首,其单任务成本仅20美分,约为GPT-5 Pro成本(超过7美元)的1/36,展现出小模型在特定任务上卓越的性价比和性能优势 [1] - 该成就的关键在于采用了零预训练深度学习方法,规避了传统大规模预训练模型的领域偏见和数据依赖问题,并通过创新的合成数据生成与优化策略,在计算资源受限的竞赛环境中实现了高效推理 [3][8] 技术方法与策略 - 团队策略是将复杂的推理工作转移至离线的合成数据管道进行,训练能够在评估时快速运行的较小模型,而非依赖参数堆叠 [8] - 由于Kaggle比赛对计算资源限制严格,团队利用GPT-OSS-120B等大型模型在离线阶段大规模制作高质量的合成谜题,以规避在线推理的高昂算力成本 [10] - 为确保合成数据质量,团队将复杂推理管线拆分为可独立验证的不同阶段,最终建立了一个包含超过325万增强样本的合成数据集,其中每个样本最多有7对输入/输出 [11][12] 模型架构与训练 - NVARC核心推理模块基于改进的ARChitects方法,选用小参数模型Qwen3-4B,并通过对话式模板简化谜题理解 [14] - 训练借助NeMo RL框架和Megatron后端进行监督微调,但取得优异成绩的关键在于测试时微调技术 [14] - 针对ARC-AGI 2“每个任务都是全新规则”的特点,NVARC为每个问题引入LoRA微调技术,使模型在解题前能快速适应,并对解码阶段的DFS算法进行了批处理优化,统一了8种数据增强操作来评估候选解 [14] 数据合成与规模 - 团队从H-ARC、BARC等数据集中搜集现有ARC谜题,并通过混合简单谜题生成更复杂的新谜题来扩充数据 [13] - 构建的合成数据集规模庞大,其中来自NVARC full的数据源贡献了约178.6万个样本,占总样本数325.5万的54.9% [12] - 该方法强调了合成数据规模扩展的重要性,与Scaling Law的理念相呼应 [12] 行业意义与启示 - 在特定领域任务中,经过针对性优化的小模型在性能上可媲美甚至超越全面发力的大模型,并具备成本、速度、适配性与领域聚焦等多重优势 [16] - 该案例表明,将正确的方法应用于正确的场景能实现更大价值,模型设计应趋向“敏捷”,以在特定场景中发挥最大效能 [16][17]