华为升级行业Agent算法架构!MindScale自己写prompt和工作流,KV Cache减少5.7倍token
量子位·2026-02-12 15:52

MindScale算法包发布背景与目标 - 行业Agent是提升生产效率、实现价值创造的关键应用形态[1] - 行业应用构建存在高门槛,涉及大量私域知识、专家经验和工具使用逻辑[2] - 业界已提出Skills、OpenClaw等工程框架以降低开发门槛,使得针对Agent应用的多维度算法优化需求凸显[2] - 华为诺亚方舟实验室近期更新了面向行业应用的算法包MindScale,旨在将大模型转化为生产力[2] - MindScale融合了实验室的算法创新基因与华为行业智能化业务实践经验,提供了技术论文与昇腾代码实现,作为上手指南[2] 制约行业Agent发展的核心挑战 - 研究人员识别了四大核心挑战[4] - 挑战一:工作流手工维护,高度依赖专家将业务规则翻译为Agent工作流[7] - 挑战二:历史知识复用难,历史推理路径与反馈无法有效使Agent系统自演进[7] - 挑战三:训推效率瓶颈,大量模型部署与迭代需求及思考路径变长导致成本压力陡升[7] - 挑战四:复杂推理测评,多步、多工具交织推理使得单精度指标无法准确反映模型效果[7] MindScale应对挑战的解决方案 工作流自进化与自动化生成 - 针对工作流开发场景,算法包包含了自进化的Agent算法EvoFabric[5] - SOP2Workflow功能可以从自然语言文档与历史工具库直接生成可执行的Workflow,无需高度依赖专家经验[6] - 采用基于状态图引擎内核的Agent实现,原生支持混编Agent、工具等多种图节点,支持状态的改写和分组融合处理[10] - 图引擎支持DSL文件的导入与导出,实现复杂智能流程的快速复制、迁移与部署[10] - 算法框架可实现基于记忆的演进,利用轨迹记忆和评估结果形成经验优化上下文,使Agent越用越好[10] 提示词自动化优化 - 基于前期发布的prompt在线优化算法SCOPE,可在每步推理之间进行prompt在线优化[11] - SCOPE通过注入萃取历史路径中的有效信息实现提示词快速优化,在HLE和GAIA等场景里可取得20%以上的精度提升[11] - 提出了大模型prompt优化器C-MOP,通过创新的样本选取与梯度更新策略解决文本梯度的冲突问题[11] - C-MOP实现了基于正负例反馈的prompt自动优化,形成了反馈到演进的prompt优化闭环[11] 训推效率优化与算力潜能挖掘 - 在MATH、AIME、GPQA等基准与多款LRM上,TrimR算法在几乎不影响准确率的前提下显著降低推理时延[14] - TrimR在大并发场景最高可实现约70%的提速,实现实际应用场景中的Test Time Scaling[14] - TrimR使用已预训练、指令微调的轻量验证器在线检测并截断无用中间思路,全程无需微调大模型或验证器[19] - 配套工业级异步在线系统,适配大并发生产场景[19] - 提供了新的基于KV Cache的推理方案KV-Embeddings,将其视为免费附赠的轻量表示[16] - KV-Embeddings无需额外计算或存储完整隐状态,在链式表示推理和快慢思考切换等场景中,基于多款主流模型实现性能持平或反超专用embedding模型[16] - 该方案将生成token数最高减少5.7×[16] - KV Cache被视作一块尚未被充分利用的思考缓存,为大模型推理阶段的表示复用打开了新空间[17] 其他创新算法技术 - 在任务记忆、Agentic RAG、通用算法发现框架等多个方向上沉淀了大量经过实战检验的创新算法技术架构[17] 硬件生态适配 - MindScale包含了适配昇腾硬件的代码实现[18] - 该实现可让开发者基于国产算力实现高精度、高效的Agent构建[18]