Workflow
智能体组织
icon
搜索文档
AI「智能体组织」时代开启,微软提出异步思考AsyncThink
36氪· 2025-11-05 18:52
核心观点 - 微软团队提出名为“异步思考”(AsyncThink)的新方法,旨在实现LLM从个体智能到“智能体组织”的范式跃迁 [1] - AsyncThink通过“组织者-工作者”协议将内部思考过程组织成可并发执行的结构,以解决现有并行思考方法的高延迟和动态性差等难题 [1][2] - 实验表明,该方法在提高数学推理准确性的同时,将推理延迟降低了28%,并展现出良好的跨任务泛化能力 [1][14][16] 研究方法 - AsyncThink的核心是“组织者-工作者”(Organizer-Worker)思考协议,LLM同时扮演组织者和工作者两个角色 [2] - 组织者负责将复杂问题拆分成子任务,并通过“Fork”和“Join”操作安排任务顺序;工作者负责执行子任务并返回中间结果 [2][4] - 该方法采用两阶段训练过程:冷启动格式微调和强化学习 [4] 训练过程 - 冷启动格式微调阶段使用GPT-4o生成合成训练数据,并对基础LLM进行监督微调,使其掌握AsyncThink框架的组织语法与行动结构 [5] - 强化学习阶段通过改进的群组相对策略优化(GRPO)算法,利用准确性、格式和思考并发奖励来指导模型学习高效、准确的策略 [7][9] 实验评估 - 在多解倒计时任务中,AsyncThink的全对率达到89.0%,显著高于并行思考的68.6%和序列思考的70.5% [11][13] - 在数学推理任务AIME-24和AMC-23上,AsyncThink的准确率分别为38.7%和73.3%,延迟分别为1468.0和1459.5,在保证精度的同时延迟降低约28% [14][15] - 在跨任务泛化实验中,AsyncThink在4×4数独任务上准确率达到89.4%,延迟为2853.0,优于序列思考和并行思考 [16][17] 消融实验 - 格式微调使LLM学会“语言”,即如何Fork与Join;强化学习使LLM学会“策略”,即何时Fork、如何Join才能更快更准;并发奖励则让LLM学会平衡准确率与延迟的效率 [18][19] 未来工作 - 未来研究将围绕扩展智能体的规模和多样性进行,探索异步思考的扩展定律以及由异构专家工作者组成的大型组织 [21] - 将探索递归智能体组织,使工作者可动态提升为子组织者,以解决深度嵌套的复杂问题 [22] - 将研究人类-AI智能体组织,创建人类-AI协作框架,实现混合智能 [23]