MindScale
搜索文档
华为升级行业Agent算法架构!MindScale自己写prompt和工作流,KV Cache减少5.7倍token
新浪财经· 2026-02-12 20:13
华为诺亚方舟实验室发布MindScale算法包 - 华为诺亚方舟实验室近期更新了面向行业应用的算法包MindScale,旨在将大模型技术转化为实际生产力 [1][13] - 该算法包融合了实验室的算法创新基因与华为行业智能化业务实践经验,并提供了技术论文与适配昇腾硬件的代码实现 [1][12][13][25] 行业Agent应用的核心挑战 - 行业Agent的普及面临四大核心挑战:工作流手工维护依赖专家经验、历史知识复用困难、训练与推理效率存在瓶颈、复杂推理场景的测评指标不准确 [3][4][16][17] - 工作流手工维护需要专家将业务规则“翻译”为Agent工作流 [4][17] - 历史知识复用难体现在历史推理路径与反馈无法有效使Agent系统自演进 [4][17] - 训推效率瓶颈源于大量模型部署与迭代需求以及思考路径变长带来的成本压力 [4][17] - 复杂推理测评的难点在于多步、多工具交织的推理过程,使得单精度指标无法准确反映模型效果 [4][17] MindScale提供的解决方案与技术特性 - 针对工作流开发,算法包包含自进化的Agent算法EvoFabric,其SOP2Workflow功能可从自然语言文档与历史工具库直接生成可执行工作流 [3][7][16][20] - 工作流生成基于状态图引擎内核,支持混编Agent、工具等多种图节点,并支持DSL文件的导入与导出以实现快速复制与部署 [7][20] - 算法框架具备基于记忆的演进能力,可利用轨迹记忆和评估结果优化上下文,实现Agent性能的持续提升 [7][20] - 在提示词优化方面,提供了SCOPE算法,可在每步推理间进行在线优化,在特定场景取得**20%以上**的精度提升 [7][20] - 同时提出了“大模型prompt优化器”C-MOP,通过创新策略实现基于正负例反馈的prompt自动优化闭环 [8][21] 算力效率优化与硬件适配 - MindScale注重面向行业场景的训练与推理效率优化 [10][23] - 其TrimR(工业级思维链动态压缩算法框架)在MATH、AIME、GPQA等基准测试中,几乎不影响准确率的前提下显著降低推理时延,大并发场景最高可实现约**70%** 的提速 [10][14][23][26] - TrimR通过一个预训练的轻量验证器在线检测并截断无用中间思路,无需微调大模型,并配套工业级异步在线系统以适配大并发生产场景 [14][26] - 提供了新的基于KV Cache的推理方案KV-Embeddings,将其视为一种轻量表示,在链式表示推理等场景中性能可持平或反超专用模型,同时将生成token数最高减少**5.7倍** [12][25] - MindScale包含了适配昇腾硬件的代码实现,支持基于国产算力构建高精度、高效的Agent [12][25]
华为升级行业Agent算法架构!MindScale自己写prompt和工作流,KV Cache减少5.7倍token
量子位· 2026-02-12 15:52
MindScale算法包发布背景与目标 - 行业Agent是提升生产效率、实现价值创造的关键应用形态[1] - 行业应用构建存在高门槛,涉及大量私域知识、专家经验和工具使用逻辑[2] - 业界已提出Skills、OpenClaw等工程框架以降低开发门槛,使得针对Agent应用的多维度算法优化需求凸显[2] - 华为诺亚方舟实验室近期更新了面向行业应用的算法包MindScale,旨在将大模型转化为生产力[2] - MindScale融合了实验室的算法创新基因与华为行业智能化业务实践经验,提供了技术论文与昇腾代码实现,作为上手指南[2] 制约行业Agent发展的核心挑战 - 研究人员识别了四大核心挑战[4] - 挑战一:工作流手工维护,高度依赖专家将业务规则翻译为Agent工作流[7] - 挑战二:历史知识复用难,历史推理路径与反馈无法有效使Agent系统自演进[7] - 挑战三:训推效率瓶颈,大量模型部署与迭代需求及思考路径变长导致成本压力陡升[7] - 挑战四:复杂推理测评,多步、多工具交织推理使得单精度指标无法准确反映模型效果[7] MindScale应对挑战的解决方案 工作流自进化与自动化生成 - 针对工作流开发场景,算法包包含了自进化的Agent算法EvoFabric[5] - SOP2Workflow功能可以从自然语言文档与历史工具库直接生成可执行的Workflow,无需高度依赖专家经验[6] - 采用基于状态图引擎内核的Agent实现,原生支持混编Agent、工具等多种图节点,支持状态的改写和分组融合处理[10] - 图引擎支持DSL文件的导入与导出,实现复杂智能流程的快速复制、迁移与部署[10] - 算法框架可实现基于记忆的演进,利用轨迹记忆和评估结果形成经验优化上下文,使Agent越用越好[10] 提示词自动化优化 - 基于前期发布的prompt在线优化算法SCOPE,可在每步推理之间进行prompt在线优化[11] - SCOPE通过注入萃取历史路径中的有效信息实现提示词快速优化,在HLE和GAIA等场景里可取得20%以上的精度提升[11] - 提出了大模型prompt优化器C-MOP,通过创新的样本选取与梯度更新策略解决文本梯度的冲突问题[11] - C-MOP实现了基于正负例反馈的prompt自动优化,形成了反馈到演进的prompt优化闭环[11] 训推效率优化与算力潜能挖掘 - 在MATH、AIME、GPQA等基准与多款LRM上,TrimR算法在几乎不影响准确率的前提下显著降低推理时延[14] - TrimR在大并发场景最高可实现约70%的提速,实现实际应用场景中的Test Time Scaling[14] - TrimR使用已预训练、指令微调的轻量验证器在线检测并截断无用中间思路,全程无需微调大模型或验证器[19] - 配套工业级异步在线系统,适配大并发生产场景[19] - 提供了新的基于KV Cache的推理方案KV-Embeddings,将其视为免费附赠的轻量表示[16] - KV-Embeddings无需额外计算或存储完整隐状态,在链式表示推理和快慢思考切换等场景中,基于多款主流模型实现性能持平或反超专用embedding模型[16] - 该方案将生成token数最高减少5.7×[16] - KV Cache被视作一块尚未被充分利用的思考缓存,为大模型推理阶段的表示复用打开了新空间[17] 其他创新算法技术 - 在任务记忆、Agentic RAG、通用算法发现框架等多个方向上沉淀了大量经过实战检验的创新算法技术架构[17] 硬件生态适配 - MindScale包含了适配昇腾硬件的代码实现[18] - 该实现可让开发者基于国产算力实现高精度、高效的Agent构建[18]