Workflow
工具编排
icon
搜索文档
英伟达巧用8B模型秒掉GPT-5,开源了
量子位· 2025-12-06 13:40
文章核心观点 - 英伟达与香港大学合作开源的Orchestrator-8B模型,通过扮演“工具主理人”角色协调调用各类工具,在多项关键性能测试中超越了GPT-5等顶级大模型,同时实现了更低的成本和更快的运行速度,展示了小模型驱动复合系统的巨大潜力[1][2][23] 模型性能与优势 - **性能超越**:在人类终极考试HLE测试中,Orchestrator-8B得分达37.1%,超过了GPT-5的35.1%[16] - **成本优势**:Orchestrator-8B的成本仅为GPT-5的1/2.5,具体成本为9.2(单位未明确),而GPT-5为30.2[16] - **速度优势**:运行速度比GPT-5快一倍多,具体延迟为8.2(单位未明确),而GPT-5为19.8[16][18] - **综合领先**:在FRAMES、τ²-Bench测试中也取得了SOTA(State-of-the-Art)成绩[18] - **社区热度**:模型在HuggingFace平台受到高度关注,冲到了热门模型前五[4] 技术原理与架构 - **核心功能**:模型自身不直接解题,而是作为“工具主理人”,负责判断、协调并控制调用外部工具的顺序和次数,兼顾效果、成本与用户偏好[6][9][14] - **工具团队**:其协调的工具库包括GPT-5、Claude Opus 4.1等顶级大模型,Qwen2.5-Math等专业数学工具,以及网页搜索、本地检索、代码解释器等实用工具[7] - **训练方法**:采用名为ToolOrchestra的训练方法,核心包括有奖有罚的强化学习以及量身定制的ToolScale数据集[11][12] - **奖励规则**:训练时设立三条强化学习规则:1) 效果奖(解题正确加分);2) 效率奖(花费少、耗时短加分);3) 偏好奖(遵循用户指令如隐私保护、节省成本加分)[15] 行业背景与趋势 - **研究脉络**:行业内在探索让小模型学会调用工具的赛道上已有先例,如谷歌DeepMind的Toolformer(2023年)、MIT与CMU的ToolRL,以及香港大学与微软的Optimal Tool Calls(OCT)[19][20] - **领域关注**:越来越多的研究团队关注并投入该领域,旨在解决大模型成本高、速度慢的落地难题[21][22] - **未来方向**:该模型的成功表明,AI的未来可能并非依赖参数庞大的单一模型,而是通过低成本、高效率的小模型协调专业工具系统来实现高智能[23]