长上下文技术

搜索文档
Gemini 2.5 Pro 负责人:最强百万上下文,做好了能解锁很多应用场景
Founder Park· 2025-06-30 19:47
长上下文技术优势 - Gemini系列在百万级长上下文处理上具有显著领先优势,尤其是Gemini 2 5 Pro能直接遍历整个项目代码,带来差异化体验[1] - 长上下文将引发产品交互革新并创造全新应用场景[2] 当前技术瓶颈与发展方向 - 百万级token上下文质量未达完美前,盲目扩大规模意义有限[3][5] - 成本下降后千万级token上下文将成为标准配置,对编码等场景产生革命性影响[3][35] - 当前主要瓶颈在于短上下文模型中信息源间存在注意力竞争[8] 记忆机制差异 - 权重内记忆(in-weights memory)存储预训练知识但难以更新,上下文内记忆(in-context memory)更易修改[6] - 三类需上下文补充的知识:时效信息/私人信息/罕见事实(互联网出现少于2次的内容)[7] RAG协同效应 - RAG通过向量检索实现海量信息粗筛,与长上下文精细处理形成互补而非替代关系[10][11] - 企业级数十亿token知识库场景仍需RAG,两者协同可提高信息召回率[11] 推理能力关联 - 长上下文能力与推理表现存在深层联系,输出反馈输入可突破网络深度限制[14] - Agent既消耗长上下文记录状态,又能主动提供上下文获取服务[15][16] 开发者实践建议 - 问题应置于上下文末尾以利用缓存机制,前置会导致每次请求重新处理[22] - 避免将长上下文作为"数据垃圾桶",无关信息会降低多关键信息检索性能[23] - 上下文缓存可使后续请求成本降低75%,特别适合固定文档/代码库场景[20][21] 评估体系演进 - "大海捞针"式单信息检索测试已过时,强干扰环境/多关键信息检索成为新重点[27] - 检索与合成评估(如文本总结)更能体现真实能力,但自动化评估仍具挑战性[28] 成本与规模限制 - 千万级token推理测试已获良好质量数据,但单次服务器启动成本过高制约商业化[30] - 百万级上下文质量优化优先于规模扩张,完美质量将开启未知应用场景[34] 未来三年展望 - 千万级token上下文将使AI编码助手完整处理大型项目,超越人类程序员工作模式[35] - 算法创新与推理工程并重,需专业团队解决百万级token服务化难题[36]