Workflow
TriangleMix
icon
搜索文档
微软研究院杨玉庆:Agent 的注意力系统|Attention
36氪· 2025-09-05 11:42
技术优化方法 - TriangleMix是一种免训练、适用于超长输入的Attention模式组合,通过浅层致密、深层三角稀疏的结构设计显著降低预填阶段延迟[2] - 该方法在32K–128K长度下将首Token延迟降低12%–32%,Attention核延迟提升3.7×–15.3×[2] - 通过梯度敏感性分析裁剪无用Middle Q-K区块,仅保留Streaming与末尾聚合区域,复杂度从O(N²)降至O(N)[2][5] 性能表现 - 在Llama‑3.1‑8B‑Instruct模型中将每层内核延迟从750ms压缩至49ms,加速比例达15.3×[10] - 在Llama‑3.1‑8B‑Instruct和Llama‑3‑8B‑262K上应用后62.5%层时保留99.7%原始性能[8] - 在RULER和LongBench等基准测试任务上与Dense attention保持几乎相同的准确率表现[10] 系统架构创新 - 团队主攻智能体原生系统,包括Agent优化中间件、多模态结构融合和人群敏感系统设计[22][24][25] - 提出Parrot系统针对智能体系统计算图优化,传统推理系统面向单次请求优化,而智能体需考虑整个任务链条[15][16] - 开发POML框架实现对象类型自动Token转换,类似前端开发的HTML语言和前端框架[20] 信息检索机制 - Attention被视为Token级别的内积检索,构成可微分搜索引擎,每个Token进行查询增强[32] - 相比Embedding检索具有三大优势:Token级别细粒度、千维级别多视角表达、构建连续推理路径[33][34] - Attention机制成为AI系统最具策略性的控制中心,决定信息调取、保留和匹配方式[27][35] 多模态应用 - 稀疏注意力机制适用于多模态模型,Attention+Memory架构成为多模态系统通用骨架[45] - Video-RAG系统通过事件图处理原始视频信息,在图上进行检索和游走回答用户问题[45] - 主流模态间Token化和对齐基本实现,包括视觉、声音及WiFi感知信号等前沿模态[45] 存储优化策略 - 性能瓶颈来自庞大且不断增长的KV Cache系统,100K-1M上下文长度下TTFT呈平方级别上升[41][47] - 优化策略聚焦写入与读取结构化、语义感知,构建GPU+CPU+RAM混合KV Cache体系[48] - "挑着读"上限高于"挑着写",阅读时选择性加载可更智能、更任务相关[48] 人群服务应用 - 针对视觉障碍开发者优化Agent反馈策略和交互结构,提升编程体验[68] - 开发个性化认知训练框架"忆我"Reme,为认知障碍提供早期预防和非药物干预新方法[68] - Agent系统目标成为人的"第二操作系统",特别关注技术依赖高但传统系统难以覆盖的用户[67][69]