上下文

搜索文档
苹果开发者自曝用Claude完成95%开发,开发应用已上架
量子位· 2025-07-07 17:35
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 苹果开发者自曝用AI开发应用程序, Claude含量95% ! 事情是这样的,一位苹果开发者最新发布了一款用于调试MCP服务器的原生macOS应用 Context —— 一款几乎完全由 Claude Code 构建的应用程序。 作者 indragiek 从2008年就开始为Mac开发软件。 这次,他的目标是使用Apple的SwiftUI框架,打造一款在macOS平台上使用起来很顺手且实用的开发者工具。 与以往不同的是,Claude Code承担了Context项目95%的工作量,indragiek声称: 在这个 20000行 代码的项目中,我亲手编写的代码估计 不到1000行 。 "工程师"Claude也是好起来了,能给苹果打工(doge)。 调侃归调侃,下面让我们来"学习"一下这位开发者是怎么用Claude的。 苹果开发者教你"驯服"Claude 作为一名经验丰富的工程师,Indragie像许多同行一样,拥有一个"烂尾项目"list。 尽管能够构建项目原型,但最后20%的交付工作往往耗费巨大时间和精力,导致项目搁置。 所以,他已经6年未能成功发布任何一个 ...
腾讯研究院AI速递 20250707
腾讯研究院· 2025-07-06 22:05
Grok 4性能突破 - Grok 4在HLE测试中得分45%,超越Gemini 2.5 Pro和Claude 4 Opus [1] - 采用"第一性原理"构建推理机制,从基本公理层面分析问题 [1] - 将分Grok 4和Grok 4 Code两个版本,强化编码能力,预计7月4日后发布 [1] Gemini CLI功能升级 - 新增音视频输入功能扩展多模态交互能力,目前支持文本/图片/PDF处理 [2] - 增强Markdown功能并集成VSCodium/Neovim编辑器,提升开发体验 [2] - 技术栈升级至Ink 6和React 19,优化历史记录压缩算法提高性能 [2] 昆仑万维奖励模型 - Skywork-Reward-V2系列刷新七大评测榜单,参数规模6亿至80亿 [3] - 采用两阶段迭代数据甄选流水线,从4000万样本筛选2600万高质量数据 [3] - 1.7B小参数模型性能接近70B大模型,证明高质量数据可抵消参数限制 [3] DeepSeek R1开源进展 - 德国TNG开源DeepSeek-TNG-R1T2-Chimera模型,基于三大模型混合开发 [4] - 推理效率比R1-0528提升200%,降低推理成本且主流测试表现更优 [5] - 创新AoE架构利用MoE细粒度结构,通过权重插值优化子模型性能 [5] Excel Agent技术突破 - Shortcut成为首个超越人类的Excel Agent,10分钟解决世锦赛难题 [6] - 功能兼容性近乎完美,可处理金融建模/数据分析/像素艺术等复杂任务 [6] - 早期预览阶段存在格式化弱/长对话不佳/复杂数据易宕机等局限 [6] Sekai视频数据集 - 上海AI Lab开源5000+小时第一人称视频,覆盖101国750城 [7] - 分为真实世界Sekai-Real和虚拟场景Sekai-Game,含多维标签 [7] - 基于数据训练Yume模型支持键鼠控制视频生成,助力视频研究 [7] 医疗AI突破 - ChatGPT识别MTHFR A1298C基因突变,被称为医疗界AlphaGo时刻 [8] - 微软MAI-DxO系统诊断NEJM病例准确率85%,是医生的四倍 [8] - 医疗AI正成为全流程解决方案,开启AI+医生共治模式 [8] 上下文工程兴起 - 上下文工程取代提示工程成为AI智能体成功关键因素 [9] - 关注为LLM提供完整系统包括指令/历史/工具等全方位信息 [9] - 智能体失败多因上下文问题而非模型本身 [9] AI重塑市场调研 - 生成式AI将1400亿美元传统调研转变为持续动态竞争优势 [10] - AI原生公司构建"虚拟社会"模拟用户行为,实现实时低成本调研 [10] - CMO认为70%准确率+实时更新比传统方式更具商业价值 [10] 企业AI创业趋势 - 企业级AI需解决真实环境中用户行为不可预测等"最后一公里"问题 [11] - 顶尖AI公司年增长率达10倍以上,受益于采购行为变革 [11] - 通过数据权威/工作流锁定/垂直整合等方式构建竞争壁垒 [11]
Karpathy:我不是要造新词,是「上下文工程」对 Agent 来说太重要了
Founder Park· 2025-07-04 21:10
上下文工程概念 - 决定AI应用效果的关键在于提供完整且恰当的上下文而非单纯优化提示词[3] - 上下文工程是一门精妙的艺术与科学需精准填充信息包括任务描述示例RAG多模态数据工具等[7] - 上下文窗口需平衡信息量与相关性过量或不足均影响性能[7] 与提示词工程的区别 - 提示词仅为用户输入的文本指令如让ChatGPT总结文本[16] - 提示词工程是系统化设计测试优化提示词的方法论类似软件工程[17] - 上下文工程是动态系统设计在正确时间以正确格式提供信息与工具[19] - 三者关系:提示词是输入文本提示词工程优化过程上下文工程构建动态系统[20] 重要性体现 - AI Agent效能核心取决于上下文质量而非代码复杂度[24] - 案例对比:普通Agent仅处理简单请求而优质Agent整合日历历史邮件等上下文实现高效响应[25] 落地策略分类 写入上下文 - 草稿板机制持久化保存任务计划避免token截断[31] - 长期记忆跨会话存储如ChatGPT的生成式记忆[32][35] 筛选上下文 - 从草稿板或记忆中提取相关片段如少样本示例或指令[37][38] - 工具选择采用RAG技术提升3倍准确率[41] - RAG挑战包括代码索引与语义分块需结合知识图谱检索[42] 压缩上下文 - 自动摘要技术处理长交互如Claude Code的95%窗口压缩[43] - 修剪策略包括硬编码规则或训练专用裁剪模型[46] 隔离上下文 - 多Agent架构分配独立上下文窗口专注子任务[48][50] - 沙盒环境隔离消耗性资源如HuggingFace的CodeAgent[53][54] - 运行时状态对象选择性暴露字段实现隔离[55] 行业动态 - Andrej Karpathy强调工业级LLM应用中上下文组件复杂性被低估[10] - LangChain与DeepMind工程师推动上下文工程方法论标准化[3][56]
登上热搜!Prompt不再是AI重点,新热点是Context Engineering
机器之心· 2025-07-03 16:01
上下文工程的核心概念 - 将LLM视为通用的、不确定的文本生成函数而非拟人化实体 强调其无状态特性 需通过输入文本来控制输出[4][5][8] - 上下文工程的核心在于构建有效输入文本系统 而非依赖单句"魔法咒语"式的提示词工程[9][11] - LLM被类比为新型操作系统 需要为其准备完整运行环境而非零散指令[13] 上下文工程的技术要素 - 采用自动化系统构建"信息流水线" 从多源自动抓取整合数据形成完整上下文[15][17] - 工具箱包含四大核心工具:指令下达、知识记忆管理、检索增强生成(RAG)、智能体自主查资料[19][21] - RAG技术通过知识库检索防止模型幻觉 确保回答基于事实[19] - 智能体技术实现动态信息获取 自主判断需求并整合多源数据[21] 工程实践方法论 - 采用科学实验式流程 分"从后往前规划"和"从前往后构建"两阶段实施[23][24][25] - 实施路径:明确输出目标→倒推所需输入→设计自动化生产系统[26] - 模块化开发流程:依次测试数据接口、搜索功能、打包程序 最终进行端到端系统测试[30] - LangChain生态提供实践支持 包括LangGraph和LangSmith等工具[29][31]
Gemini 2.5 Pro 负责人:最强百万上下文,做好了能解锁很多应用场景
Founder Park· 2025-06-30 19:47
长上下文技术优势 - Gemini系列在百万级长上下文处理上具有显著领先优势,尤其是Gemini 2 5 Pro能直接遍历整个项目代码,带来差异化体验[1] - 长上下文将引发产品交互革新并创造全新应用场景[2] 当前技术瓶颈与发展方向 - 百万级token上下文质量未达完美前,盲目扩大规模意义有限[3][5] - 成本下降后千万级token上下文将成为标准配置,对编码等场景产生革命性影响[3][35] - 当前主要瓶颈在于短上下文模型中信息源间存在注意力竞争[8] 记忆机制差异 - 权重内记忆(in-weights memory)存储预训练知识但难以更新,上下文内记忆(in-context memory)更易修改[6] - 三类需上下文补充的知识:时效信息/私人信息/罕见事实(互联网出现少于2次的内容)[7] RAG协同效应 - RAG通过向量检索实现海量信息粗筛,与长上下文精细处理形成互补而非替代关系[10][11] - 企业级数十亿token知识库场景仍需RAG,两者协同可提高信息召回率[11] 推理能力关联 - 长上下文能力与推理表现存在深层联系,输出反馈输入可突破网络深度限制[14] - Agent既消耗长上下文记录状态,又能主动提供上下文获取服务[15][16] 开发者实践建议 - 问题应置于上下文末尾以利用缓存机制,前置会导致每次请求重新处理[22] - 避免将长上下文作为"数据垃圾桶",无关信息会降低多关键信息检索性能[23] - 上下文缓存可使后续请求成本降低75%,特别适合固定文档/代码库场景[20][21] 评估体系演进 - "大海捞针"式单信息检索测试已过时,强干扰环境/多关键信息检索成为新重点[27] - 检索与合成评估(如文本总结)更能体现真实能力,但自动化评估仍具挑战性[28] 成本与规模限制 - 千万级token推理测试已获良好质量数据,但单次服务器启动成本过高制约商业化[30] - 百万级上下文质量优化优先于规模扩张,完美质量将开启未知应用场景[34] 未来三年展望 - 千万级token上下文将使AI编码助手完整处理大型项目,超越人类程序员工作模式[35] - 算法创新与推理工程并重,需专业团队解决百万级token服务化难题[36]
上下文就是一切!行业热议话题:提示工程是否应该改名
歸藏的AI工具箱· 2025-06-26 19:40
核心观点 - 上下文工程是比提示工程更准确描述LLM应用核心技能的术语 强调为LLM提供完成任务所需的所有上下文 [1] - 工业级LLM应用中 上下文工程是精心填充上下文窗口的艺术与科学 需包含任务描述 少样本 RAG 多模态数据 工具 状态历史等多维度信息 [1] - 上下文工程师需具备对LLM"心理"的引导性直觉 通过持续优化提示词和上下文内容来建立模型边界认知 [2] 行业动态 - Shopify CEO和Andrej Karpathy推动"上下文工程"术语替代"提示工程" 因其更准确反映岗位核心技能 [1] - Cognition和Anthropic在AI Agent构建中均强调上下文管理是关键 Anthropic指出数百轮对话需精细策略 [3] 重要性分析 - 不充分上下文共享导致子Agent工作不一致或冲突假设 过长上下文限制LLM回忆能力 GPT-4o多轮对话准确率仅50% [4] - 语音AI Agent中上下文膨胀增加延迟(目标中位延迟800ms) 函数调用准确性在多轮对话中显著下降 [4] 优化策略框架 - Lance Martin定义上下文工程为伞状学科 涵盖指令上下文(提示/记忆) 知识上下文(RAG) 操作上下文(工具流) [5] - 提出三大策略:压缩(保留高价值Token) 持久化(存储检索系统) 隔离(划分上下文边界) [5] 压缩技术实践 - Claude Code在上下文窗口使用超95%时自动压缩 Anthropic多Agent研究生成工作阶段摘要 [7] - Cognition的Devin使用专用微调模型进行上下文压缩 显示技术门槛较高 [7] 持久化系统构建 - 存储方式:Claude Code用CLAUDE.md文件 Cursor/Windsurf用规则文件 Letta/Mem0用嵌入式文档 Zep/Neo4J用知识图谱 [10] - 保存策略:Claude Code用户手动更新 Reflexion论文提出Agent轮次后反思生成 ChatGPT等产品实现自动记忆生成 [11][12] - 检索机制:小规模直接载入(如CLAUDE.md) 大规模需选择性检索(向量搜索/图检索) GPT-4o曾因检索错误注入非意图位置信息 [14][15] 隔离管理方案 - 上下文模式:用Pydantic模型替代臃肿消息列表 隔离高Token内容并按需获取 深度研究Agent将messages与sections分离 [18][20] - 多Agent架构:OpenAI Swarm库实现关注点分离 Anthropic研究显示隔离上下文多Agent性能比单Agent高90.2% 但Token消耗增15倍 [21] - 环境隔离:HuggingFace的CodeAgent在沙箱执行代码 隔离生成对象(如图片)但保留变量引用能力 [22] 行业实践经验 - 工具先行原则:建立Token追踪机制作为基础 Anthropic建议"像Agent一样思考"明确状态模式 [23] - 可并行化任务优先采用多Agent Anthropic案例显示子Agent无需严格协调时效率显著提升 [26] 发展趋势 - 上下文管理是AI Agent核心 需平衡性能(如GPT-4o 50%准确率) 成本(15倍Token消耗) 准确性(函数调用) [24] - LLM本质是无状态函数 最佳输出依赖最佳输入设计 清晰表达需求与语境构建决定响应质量 [25]
提示词工程、RAG之后,LangChain:上下文工程开始火了!
机器之心· 2025-06-25 12:06
上下文工程概述 - 上下文工程是构建动态系统以合适格式提供准确信息和工具,使LLM能合理完成任务[5][9] - 该概念并非全新,近两年已被智能体构建者广泛关注[2] - 传统提示工程侧重设计提示语,但应用复杂度提升后单纯依赖提示已无法满足需求[3] 上下文工程核心特征 - 系统性:需整合开发者、用户、交互记录等多来源数据[10] - 动态性:多数上下文动态生成,提示逻辑需随动调整[11] - 准确性:缺乏正确上下文是智能体表现不佳的主因[12] - 工具适配:需提供查找信息或执行行动的工具[12] - 格式规范:工具输入参数的结构化程度影响沟通效率[13] 重要性分析 - LLM出错主因从模型能力不足转向上下文传递不当[15] - 现代AI系统需完整结构化上下文而非巧妙措辞[17] - 正成为AI工程师最关键的发展技能[7] 与提示工程差异 - 提示工程是上下文工程的子集[17] - 前者处理静态模板,后者处理动态数据集[17] - 核心指令设计仍是两者的共同重点[18] 实施要素 - 工具使用:外部信息需格式化为LLM易理解形式[20] - 记忆系统:需建立短期对话摘要和长期用户偏好记忆[20] - 检索机制:动态获取信息并插入提示[20] - 格式优化:数据传递方式直接影响模型响应质量[19]
Cache Me If You Can:陈丹琦团队如何「抓住」关键缓存,解放LLM内存?
机器之心· 2025-06-24 22:07
核心观点 - 普林斯顿大学陈丹琦团队提出「KV足迹」作为统一度量标准,用于比较不同KV缓存优化方法的效率[10] - 团队定义「关键KV足迹」为模型性能保持90%以上时的最小KV足迹,确保优化方法实用性[12] - 提出PruLong方法,通过端到端学习注意力头专业化,将KV足迹比先前方法降低12%[15][36] KV缓存问题 - Transformer模型自回归解码时需存储所有先前token的注意力状态(KV缓存),内存消耗随文本长度线性增长[3] - 处理128K token提示时,Llama-3-70B模型需分配42GB内存专用于KV缓存[5] - 现有稀疏注意力方法难以横向比较,因优化目标(预填充/解码阶段)和评估指标不一致[6][9][20] KV足迹度量框架 - 将KV条目分为活跃/非活跃/被驱逐三类,KV足迹定义为所有时间步中未被驱逐条目的归一化比例[24][26] - 支持分块预填充和多轮交互场景的评估,覆盖完整推理流程的内存使用[21][22][23] - 实验显示KV足迹与吞吐量强相关,但具体排名受实现细节影响[27] 现有方法分类 | 方法类型 | 代表技术 | 特点 | |---------|---------|------| | 动态稀疏 | NSA/MoBA | 提升吞吐量但未减少KV内存[29] | | 预填充优化 | MInference/FTP | 加速预填充但不影响解码阶段[29] | | 新近度驱逐 | StreamingLLM/DuoAttention | 固定窗口减少KV占用,可能丢失远距信息[30] | | 后填充驱逐 | H2O/SnapKV | 预填充阶段峰值内存高,长生成场景效果有限[30] | PruLong技术创新 - 训练目标:直接优化下一个token预测损失,而非隐藏状态重建误差[37] - 离散掩码:通过伯努利分布参数化实现端到端二进制掩码学习[38] - 数据改进:采用自然长上下文数据(代码/书籍)替代合成数据[39] - 实验结果:在召回任务中保持原始性能,同时显著降低内存占用[15][36]
亚马逊云科技大中华区总裁储瑞松:企业实现 Agentic AI 价值的关键在于三大技术准备
AI前线· 2025-06-22 12:39
Agentic AI爆发的前夜 - 机器智能已实现跨越式发展,HLE考试正确率从个位数迅速提升至超过20% [1] - Agentic AI将推动从"AI问答"到"AI执行"的范式转变,AI驱动的数字员工将渗透各行业 [1] - 技术拐点类比工业革命,AI将解放人类大脑智力并引发新一轮产业革命 [1] Agentic AI爆发的五大驱动因素 - 大模型已具备类人思考能力,MCP协议实现智能体与环境的标准化交互 [3] - 推理成本两年下降280倍,Strands Agents等SDK使开发效率成倍提升 [3] - 企业数字化基建为AI智能体提供现成API接口,A2A协议将支持多智能体协作 [3] 商业模式创新机遇 - 效仿Uber/Netflix案例,AI将催生订阅制、共享经济等新型商业模式 [5] - Cursor革新编程方式,Perplexity重塑信息获取模式,初创企业加速颠覆传统 [5] - 企业经营重点从成本优化转向AI创新,价值创造重要性超越效率提升 [5] 企业三大技术准备 - 需构建统一AI基础设施,选择具备技术领先性/稳定性/灵活性的云服务商 [7][8] - 数据治理决定AI天花板,需打破孤岛实现企业级数据聚合与质量管控 [7][9] - 策略执行需平衡短期预期与长期影响,技术栈应支持workflow/graph等开发模式 [10] 行业落地关键指标 - 云服务商选择需考量主业专注度、营利性和持续投入能力 [7] - AI就绪数据决定数字员工的决策高度与执行效果 [7][9] - 1-2年内将出现行业级变革,快速迭代的企业将建立持续领先优势 [10]
MiniMax的好日子来了?
虎嗅· 2025-06-18 17:41
核心观点 - MiniMax开源其首个推理模型M1,并邀请用户测试通用Agent,试图在AI Agent爆火的2025年抢占先机 [2][4] - M1模型的核心优势在于100万token输入和8万token输出的长上下文能力,以及工具调用能力,但在常规基准测试中表现中等 [6][22][29] - MiniMax的技术创新包括闪电注意力机制和CISPO强化学习算法,显著降低了训练成本至53.47万美金 [51][55][63] - 公司押注长上下文能力以适配Agent需求,但面临多维度竞争挑战 [67][71][78] 模型能力 M1推理模型 - 支持100万token输入和8万token输出,与Google Gemini 2.5 Pro并列业界第一 [52] - 在TAU-bench(Airline)测试中得分最高,长上下文处理能力处于第一梯队 [48][49] - 实际测试显示其代码生成能力完整但推理链过长,例如成功实现钢琴键盘可视化小游戏但耗时较长 [6][16][21] - 可完整翻译33页PDF并还原格式,但翻译任务非其核心优势 [22][23][28] 通用Agent - 测试案例中能完整交付OpenAI发展历程网页项目,包含信息搜集、代码生成和自检流程 [33][34][37] - 创新点在于利用浏览器测试自开发网站,提升交付质量 [37] - 整体表现中规中矩,未显著超越同类产品 [31][32][39] 技术创新 - 采用线性注意力架构的闪电注意力机制,处理100万token输入时延迟仅为传统softmax attention的1/2700 [54][55] - CISPO强化学习算法收敛速度达竞品两倍,训练成本仅53.47万美金(512块H800芯片,三周) [57][59][63] - 生成10万token的算力需求为DeepSeek R1的25%,具备成本优势 [65][66] 行业竞争与战略 - 2025年被业界视为AI Agent爆发年,MiniMax通过长上下文能力切入赛道 [4][70][71] - 公司多模态原生模型基础可支持Agent商业化,但需平衡技术优势与用户体验 [76][78] - 行业竞争焦点包括端到端学习、工具调用、多模态能力和主模型性能 [75][77]