KV-Cache - 财报，业绩电话会，研报，新闻

KV-Cache

搜索文档

用「传心术」替代「对话」，清华大学联合无问芯穹、港中文等机构提出Cache-to-Cache模型通信新范式

机器之心· 2025-10-29 15:23

文章核心观点 - 清华大学等研究团队提出了一种名为Cache to Cache（C2C）的全新多智能体通信范式，该范式通过直接交换和融合大语言模型的KV-Cache来实现智能体间的“脑对脑”交流，旨在解决传统文本通信（T2T）方式存在的信息丢失、语义模糊和巨大延迟问题 [2] - C2C方法在多个基准测试中展现出显著优势，相比T2T通信实现了3%-5%的正确率提升以及平均两倍的速度提升，为构建高效的多智能体系统提供了新的技术基础 [2][12][29] - 该方法具备良好的泛化能力，未来有望在多智能体协作、多模态融合、推理加速及隐私保护等多个场景中发挥关键作用，推动智能体交流从低效文本中转迈向高效“思想同步” [36][37][38][39] 多智能体系统现有通信方式的局限性 - 当前多智能体系统主要依赖Text to Text（T2T）方式进行信息传递，即通过生成交流文本来实现智能体间的通信 [2][6] - T2T通信方式存在三大核心问题：信息丢失（高维多維语义被压缩到一维文字序列时造成损失）、语义模糊（自然语言本身的模糊性难以通过标准化模版完全解决）以及巨大延迟（需要逐个token生成文本） [2][7][8] - 这些局限性极大地限制了模型间传递丰富语义上下文的效率，尤其是在处理复杂任务和开放协作场景时 [7] C2C通信范式的核心机制与技术细节 - C2C的核心思想是将模型的KV-Cache作为传播媒介，KV-Cache天然包含模型对话过程中的多维语义信息，无需额外二次处理，且在不同模型间具备良好的可转换性与通用性 [2][11] - 该机制的核心组件是C2C-Fuser，其设计采用残差式信息注入结构，包含投影层、动态权重层和可学习门控三部分，旨在自适应地将Sharer模型的信息以残差方式注入Receiver模型，防止破坏Receiver原有语义 [16][17][18] - 为确保不同模型（不同系列、尺寸）间KV表示的兼容性，C2C引入了模型对齐机制，包括Token对齐（通过字符串重新编码实现）和Layer对齐（采用“末端对齐”策略优先保障深层语义融合） [19][26] - 训练过程中，团队冻结Sharer和Receiver的参数，仅训练C2C融合器模块，采用类似SFT的next token prediction损失，确保信息传递的稳定高效 [20] C2C方法的性能与效率优势 - 在准确性方面，C2C相比单智能体表现有显著提升，针对三种不同的Sharer模型，平均准确率分别提升11.00%、9.64%和11.88% [31] - 与T2T通信方式相比，C2C在平均准确率上分别额外提升了5.36%、4.15%和3.06% [31] - 在效率方面，C2C由于省去了中间文本的生成步骤，相比T2T在推理时间上实现了显著加速，加速比分别达到约3.46倍、1.51倍和14.41倍 [29] - 具体实验数据显示，在MMLU-Redux任务中，当Sharer为Qwen2.5-0.5B时，C2C将Receiver的准确率从T2T的41.03%提升至42.92%，同时将响应时间从1.52秒大幅降低至0.40秒 [28] 实验设置与验证 - 训练数据选自通用微调语料库OpenHermes2.5的前50万个样本，以确保C2C Fusers的泛化能力 [22] - 实验涵盖了多种模型组合，包括不同系列（Qwen2.5、Qwen3、Llama3.2、Gemma3）、不同规模（0.6B～14B）以及不同专业领域（通用、代码、数学）的模型 [23] - 基线方法包括T2T通信、query-level routing（根据问题难度动态选择模型回答）以及单模型独立回答，用于全面对比C2C的性能 [24][27][28] - 评测基准包括OpenBookQA（科学常识推理）、MMLU-Redux（多领域专业知识）、ARC-C（复杂科学推理）和C-Eval（中文多学科知识）等多个任务 [28][30] 未来应用前景 - C2C有望在多智能体系统中实现协作效率与效果的大幅提高，进一步提升智能体系统的响应与处理速度 [36] - 该方法可应用于多模态的便捷融合，通过对齐并融合语言模型、视觉-语言模型（VLM）及视觉-语言-动作（VLA）策略的缓存，驱动更精确的理解与决策执行 [36] - 与推理加速方法（如推测解码、token级路由）整合，可进一步降低延迟与推理成本，增强小模型的表现 [37] - 在隐私保护方面，C2C可支持隐私感知的云—边协作，云端模型传输经挑选的KV-Cache段以提升边端能力，减少带宽并降低数据泄露风险 [38] - 与隐空间推理结合后，有望实现完全在高维语义空间的模型推理与沟通协作，减少计算开销 [39]

多智能体系统

KV-Cache

Artificial Intelligence

Cache-to-Cache（C2C）模型通信范式

多智能体系统

KV-Cache

Artificial Intelligence

Cache-to-Cache（C2C）模型通信范式

Manus回应撤离中国市场原因

第一财经· 2025-07-19 15:34

Manus战略调整与技术路线 - 公司近期撤出中国市场并清空国内社交账号内容，全力转战海外市场，官方解释为经营效率调整及国际化布局[1] - 联合创始人季逸超发布技术博客，从技术角度回应战略调整，总结Agent研发经验教训[1] - 技术侧重点转向上下文工程，通过构造"记忆"与流程实现产品快速迭代，核心目标是节省底层模型训练成本并提高训练效率[1] 上下文工程的技术细节 - 上下文在大模型中指任务处理时的参考信息集合，可增强模型理解能力、任务性能及输出连贯性[2] - 月之暗面Kimi创始人杨植麟认为无损长上下文是实现个性化交互的关键，用户交互历史本身就是最佳个性化过程[2] - KV-Cache命中率是Transformer模型推理阶段的效率核心，高命中率可提升推理效率、优化资源利用率并降低计算成本[2] 公司技术路线的决策背景 - 基于Peak Labs创业教训：团队曾投入开放信息提取模型研发，但GPT-3与Flan-T5的出现使自研模型失去竞争力[3] - 当前策略放弃基座模型研发，选择使用开源基础模型训练端到端Agent或基于前沿模型上下文能力构建Agent[3] - 经历四次Agent框架调整才实现局部最优解，反映上下文工程实施的复杂性[3] 当前技术策略的局限性 - 依赖外部多模型组合与工程优化，在任务连贯性与准确性上弱于OpenAI专用端到端训练的ChatGPT Agent[4] - OpenAI底层模型优势吸引开发者与用户至大厂平台，创业公司虽在垂直领域有空间，但面临市场份额争夺挑战[4] - Agent行业存在同质化严重、商业模式不明、成本高企等问题，上下文工程亮点不足以形成显著差异化[4]

上下文工程

KV-Cache

Artificial Intelligence

Agent

上下文工程

KV-Cache

Artificial Intelligence

Agent