英伟达4B小模型击败GPT-5 Pro！成本仅1/36

文章核心观点 - 英伟达团队开发的4B小模型NVARC在ARC-AGI 2竞赛中以27.64%的成绩超越GPT-5 Pro的18.3%，登顶榜首，其单任务成本仅约20美分，远低于GPT-5 Pro的超过7美元，展现出小模型在特定领域通过方法创新实现高性能与高性价比的潜力 [1][2][4] 竞赛成绩与成本优势 - NVARC在ARC-AGI 2公开榜的成绩为27.64%，显著高于GPT-5 Pro的18.3% [2] - NVARC每任务成本仅约20美分，大约是GPT-5 Pro单任务成本（超过7美元）的1/36，成本优势巨大 [4] 技术路径：零预训练与合成数据 - NVARC采用零预训练深度学习方法，不依赖大规模通用数据集进行前期预训练，规避了预训练模型的领域偏见和数据依赖问题 [5] - 团队将复杂推理移至离线的合成数据管道，通过大规模合成高质量数据来训练较小的模型 [9][10] - 具体方法包括利用GPT-OSS-120B等大型模型大规模制作高质量的合成谜题，并将简单谜题混合生成更复杂的新谜题 [14][15] - 通过分阶段独立验证的复杂推理管线，团队建立了一个包含超过320万增强样本的合成数据集，其中每个样本最多有7对输入/输出 [17][18] - 合成数据集的构建详情如下表所示，最终NVARC full部分包含约178.6万个样本，占总样本数（约325.5万）的54.9% [19] 模型架构与训练方法 - 模型核心推理模块基于改进版ARChitects方法，选用小参数模型Qwen3-4B，并通过对话式模板简化谜题理解 [19] - 训练时借助NeMo RL框架和Megatron后端进行监督微调 [20] - 针对ARC-AGI 2“每个任务都是全新规则”的特点，引入了针对每个问题进行测试时微调（TTFT）的LoRA微调技术，让模型在解题前快速适应 [21] - 对ARChitects方法的改进包括在解码阶段对DFS算法进行批处理优化，修复结果非确定性问题，并统一了8种数据增强操作来评估候选解 [22][23] 方法论的启示与行业意义 - 在特定领域任务中，经过针对性优化的小模型性能不逊色于大模型，并具备成本、速度、适配性与领域聚焦的优势 [25] - 将正确的方法用在正确的地方，可以实现更大的价值，这提示行业关注方法创新而非单纯追求模型参数规模 [25]