Agent微调复活?英伟达开源8B新模型带飞GPT-5:在HLE狂卷37分,还把成本打下来
英伟达英伟达(US:NVDA) 量子位·2025-12-07 12:35

Orchestrator团队 投稿 量子位 | 公众号 QbitAI 当问题又深又复杂时,一味上最强模型既贵又慢。测试时扩展能想得更久,却不一定想得更对。 最近,来自英伟达和香港大学的研究员提出一种新范式:用一个8B小模型当指挥家,把代码解释器、网络搜索、数学模型、甚至更强的大模 型当作乐手,按需编排、分工合作,用强化学习把"正确、便宜、合你心意"三件事同时做到。 在人类最后一场考试(Humanity's Last Exam)上,指挥家 Orchestrator-8B以 37.1% 的成绩超过GPT-5(35.1%),还更省2.5×计算成 本;在τ²-Bench与FRAMES上同样全面领先,成本却只有对手的大约三成。 为什么需要Agent微调? 只靠提示词也可以搭建一个多智能体系统,但是论文发现,依赖提示词的系统,存在着两大偏见: 这两种偏见的存在都会让一个大模型"自我调度"往往失灵:因此,论文提出使用强化学习训练指挥家agent,通过多重奖励来提升效果和效 率。 ToolOrchestra:统一接口 + 多轮编排 + 强化学习三重奖励 实验亮点:更强、更省,还更稳 主赛道: ToolOrchestra的核心 ...