系统提示学习 - 财报，业绩电话会，研报，新闻

系统提示学习

搜索文档

36氪· 2025-10-27 13:13

持续学习的背景与路径 - 大型语言模型界正集体尝试突破持续学习和元学习能力的天花板，目标是实现模型的自我进化[1] - 实现持续学习的关键在于模型的“记忆”深度和可塑性，主流方法可归纳为三条主要路径[2] 路径一：改变上下文 - 通过修改模型的“工作记忆”，即上下文学习，使模型在当前对话中学会解决特定问题[4] - 最新进展是“系统提示学习”，模型通过语言层面的总结与归纳来反思成功与失败，并更新系统提示词以提升未来能力[4] - 此方法通过影响模型底层行为指令，使学习成果得以沉淀，解决了上下文学习浮于表面的问题[6] 路径二：引入外部记忆库 - 通过检索增强生成给模型配备外置数据库，持续学习体现在模型有能力更改、积累和维护此外部记忆库[7] - 谷歌DeepMind的“Reasoningbank”研究打造了一个“高级大脑记忆库”，存储从经验中总结出的“方法论”和“避坑指南”，而非零碎事实[7] - Anthropic的Claude Skill功能结合了上述两层方法，让智能体通过总结经验来学习新技能[9] 路径三：参数层面更新 - 此最根本的路径因训练开销巨大或方法不稳定而长期进展缓慢，例如强化学习和轻量化监督微调[9] - Meta AI的新论文《通过稀疏内存微调实现持续学习》为这条路径带来了根本性改变[9][11] 监督微调的挑战与Meta的解决方案 - 监督微调面临“灾难性遗忘”的根本矛盾，即学习新知识时会破坏存储旧知识的参数[11] - Meta提出的稀疏内存微调方法核心思想是只更新与“新知识”相关而与“旧知识”无关的参数[11] - 解决方案第一步是改造架构，将标准Transformer中的一些前馈网络层替换为拥有100万个“微型专家”的内存层，提供精细控制力[12][14][15] - 第二步引入TF-IDF算法精准定位既重要又安全的参数，即对新知识至关重要且不负责通用知识的参数[16][17][18][19][21] - 第三步进行稀疏更新，在反向传播时只允许梯度流向TF-IDF得分最高的Top-t个内存槽位，例如仅更新100万个槽位中的500个[22] 新方法的效果与优势 - 在学习新事实后测试原有任务表现，新方法仅导致分数下降11%，而LoRA下降71%，全量微调下降89%[23] - 新方法在学习能力上相当或更优，并在稳定性上具有压倒性优势，几乎治愈了监督微调的核心痛点[25][28] - 存储1000个新事实仅需占用约500个内存插槽，显示该方法具有持续学习海量新知识的巨大潜力[26] - 训练成本上，每一步需要更新的参数数量也远少于LoRA，降低了优化器的内存开销[26] 不同路径的比较与未来展望 - 非参数化学习路径存在根本尴尬，模型像依赖外部教科书或自己笔记的学生，未能真正内化知识[29] - 研究指出上下文学习泛化能力有限，因其过度关注统计特征而非任务根本规律[29] - 参数更新路径是更根本的解决方案，Meta的方案使其变得安全、稳定和可控[30][31] - 该进展意味着监督微调的春天可能来临，模型有望从静态工具转变为在经验流中不断成长的智能体[31][32]

Meta Platforms(US:META)

Artificial Intelligence

Artificial Intelligence

YC AI 创业营第一天，Andrej Karpathy 的演讲刷屏了

Founder Park· 2025-06-18 22:28

软件演进与LLM特性 - 软件3.0时代以提示工程为核心，正在逐步取代代码编程（1.0）和神经网络（2.0），大量软件将被重写 [7][10][13] - LLMs具备高智商但存在认知缺陷，类比为"心智问题人类模拟系统"，当前最大问题是缺乏"认知自我知识" [7][15][50] - 记忆功能对LLMs至关重要，需存储全局问题解决策略而非随机事实，可显著提升效能与数据利用率 [7][54] LLM基础设施属性 - LLMs类似公共基础设施，具有晶圆厂特性：巨额资本支出、深度技术研发、工艺节点复杂度高 [20][23][29] - LLMs具备操作系统属性，可复制/修改/分发，形成复杂软件生态，存在闭源供应商（如GPT/Claude）与开源生态（如Llama） [26][36][44] - LLMs应用路径逆向：从消费者到企业再到政府，不同于传统技术普及路径 [41][42] 产品设计与自主性 - Autonomy Slider概念允许按场景调节自主程度，如Cursor的Agent模式、Perplexity研究层级、特斯拉自动驾驶等级 [60][65][69] - 人机协作采用生成-验证循环：模型负责代码生成，人类通过GUI简化验证流程，需限制AI决策边界 [18][71] - 演示与产品存在巨大差距，可靠产品需满足works.all()而非works.any() [73][75] 行业趋势与嘉宾观点 - Y Combinator CEO指出2024年录取率0.8%，独角兽比例12%，强调创业者需务实高效并与用户紧密沟通 [94] - OpenAI CEO Sam Altman认为AI Agent是下一波浪潮，ChatGPT将演变为平台整合第三方工具 [101][103][104] - Anthropic联合创始人提出缩放定律仍是AI核心原则，任务长度处理能力每7个月翻倍 [112][115] - 特斯拉CEO Elon Musk预测超级智能可能在1-2年内出现，未来将有约10个主要AI实体 [149][153] 技术挑战与突破 - LLMs存在锯齿状智能现象：能解决复杂数学问题但可能答错简单比较题 [49][50] - 顺行性遗忘症问题可通过系统提示学习解决，形成新的学习范式 [54] - DeepMind科学家强调架构设计对性能影响比数据扩展大100倍，需聚焦清晰目标 [129][134]

AI也需要"记笔记"：Karpathy从Claude 1.6万字提示词中看到的未来

歸藏的AI工具箱· 2025-05-12 16:28

系统提示词对比分析 - Claude的系统提示词长达16,739个单词，远高于OpenAI的ChatGPT中o4-mini系统提示的2,218个单词（仅为Claude的13%）[2][3] - Claude的提示词包含大量非结构化修改痕迹，疑似针对热点事件或问题修复的临时补丁，维护复杂度高[5] - 提示词中工具定义占比最高，详细规定了14个MCP工具的使用规范（如谷歌Drive搜索说明超1700字），其次是用户偏好和风格指引[8] 大语言模型学习范式革新 - 当前LLM主要依赖预训练（获取广泛知识）和微调（优化行为习惯），均需调整模型参数[9] - Karpathy提出"系统提示学习"新范式：类比人类通过显式笔记总结经验，而非直接改写大脑参数[10] - 理想状态下模型应自动生成/优化提示词，但当前Claude提示词仍完全由人工编写，效率低下[10][18] 系统提示学习的潜在价值 - 优势包括：更高维的数据利用（通过显式复盘吸收反馈）、更强的任务泛化能力[19] - 可能解决LLM现存痛点：如《记忆碎片》式依赖参数记忆，缺乏外部备忘录机制[12] - 需攻克技术难点：自动编辑提示词算法、提示编辑系统的自学习机制、显式知识向参数习惯的转化[20] 提示工程实践启示 - 结构化指令效果更优：Claude提示词使用列表/格式/示例，明确工具调用规则和用户交互边界[8][15] - 精准指令胜于模糊表达，需具体说明需求与限制条件（如知识截止日期、诗歌创作规范）[8][14] - 提示工程本质是沟通技巧延伸，非高深技术，普通用户可通过学习Claude提示词提升效果[16][17] 行业资源链接 - Karpathy推文探讨系统提示学习[21] - 第三方网页解析Claude提示词内容与结构[21]

Artificial Intelligence

Artificial Intelligence

Claude