Workflow
上下文工程
icon
搜索文档
救命,办公室来了个“懂王”同事...
AI研究所· 2025-07-31 11:37
饮料帝国继承人之战 - 通过股权结构分析、父女发言梳理、媒体立场对比还原家族企业宫斗本质 [2] - 结合管理层变化与媒体舆情节点分析品牌年轻化转型中的代际冲突 [6] - 通过股权架构与新品市场份额波动揭示遗产风波的商业本质 [7] Manus撤出中国事件 - 地缘政治与融资结构倒逼:美国投资审查与芯片禁令压缩在华空间 [10] - 产品短板明显:缺乏核心技术、自建模型和本地生态导致成本高企 [10] - 战略调整为国际化重构:新加坡总部连接全球模型生态瞄准海外市场 [10] 山姆会员店危机 - 用户信任崩塌呈现三阶段:烤鸡缩水→选品降级→社媒集体吐槽 [14] - 中产消费心态转向"心价比":产品需匹配生活方式标签 [14] - 会员制选品逻辑缺陷:对比Costco与盒马X会员暴露爆品策略短板 [14] 双减政策影响 - 政策执行层面:追踪各地课后服务细则差异与教师负担变化 [17] - 社会反馈层面:分析舆情波动与家长满意度真实数据 [17] 深度研究功能技术架构 - 模块化设计:知识库/工具描述/交互记忆三大独立模块动态组装 [24] - 流程优化:用户意图→分类→模块选择→组装→任务执行的智能链路 [24] - 质量保障:多源检索+交叉验证机制降低信息幻觉风险 [28] - 输出规范:工具链自动化实现图文报告生成与溯源标签植入 [29]
AI 产品经理们的挑战:在「审美」之前,都是技术问题
Founder Park· 2025-07-31 11:01
AI Native产品的用户体验挑战 - 移动互联网时代产品成功依赖用户体验设计,而AI Native产品的用户体验已成为技术问题而非单纯审美问题[3] - AI产品面临用户需求与价值交付的双重「失控」,用户无法通过自然语言精准驾驭AI能力[3] - 当前AI产品体验瓶颈本质是技术问题,需模型技术与产品工程协同突破市场临界点[4] AI产品设计的两大技术路径 - Andrej Karpathy提出「上下文工程」,强调系统化管理指令、历史记忆等输入信息,优化AI决策基础[7] - Sean Grove主张「规范化编程」,通过结构化文档定义目标,解决人类意图表达不清的核心问题[7] - 两种方案均超越传统提示词工程,试图绕过人类模糊性缺陷[8] AI产品的未来进化方向 - 解决方案需依赖AI而非人类,AI需具备主动理解、预判用户意图的能力[10][11] - 「宽输入」终极目标为多模态感知+生活流捕捉,形成input-output闭环实现自进化[11] - Karpathy与Grove的工作实质是为AI构建弥补人类缺陷的机制,推动AI与混沌现实协作[12] AI时代产品经理的能力转型 - 产品经理需优先理解「模性」,技术审美成为产品审美的前提条件[13] - AI产品设计逻辑从「人适应AI」转向「AI适应人」,技术能力决定用户体验上限[13]
「幻觉」竟是Karpathy十年前命名的?这个AI圈起名大师带火了多少概念?
机器之心· 2025-07-28 18:45
AI术语命名与概念发展 - AI大牛Andrej Karpathy首次提出“幻觉”(hallucinations)一词,用于描述神经网络生成无意义内容的现象 [1][3] - Karpathy在2015年博客中已使用“幻觉”概念,但直到2022年ChatGPT爆发后才成为研究热点 [3][6] - Karpathy被公认为AI圈“取名大师”,提出“软件2.0”“软件3.0”“氛围编程”“细菌式编程”等概念 [6][9][11] 软件范式演进 - **软件1.0**:传统编程模式,开发者需精确编写Python/C++等显式指令代码 [12][14] - **软件2.0**:神经网络时代,代码由权重参数构成,通过数据训练而非人工编写 [13][15] - **软件3.0**:提示词时代,用户用自然语言描述需求,LLM直接生成代码 [16][17] - 软件3.0特点包括:LLM作为计算平台(类比电网基础设施)、自主滑块调节AI控制程度 [19][20] 新型编程范式 - **氛围编程**:开发者仅需向LLM提出需求并全盘接受输出,无需直接编写代码 [22][23][24] - **细菌式编程**:强调代码模块化与可移植性,类似细菌基因的水平转移特性 [35][36] - 细菌式编程检验标准:代码需满足小巧、自包含、无依赖,便于开源社区复用 [35][36] 上下文工程崛起 - 上下文工程因Karpathy转发点评迅速出圈,相关帖子浏览量达220万 [42][43] - 与提示工程区别:上下文工程更注重结构化信息提供,而非单纯优化提示词 [44] - LangChain指出提示工程是上下文工程的子集,后者适用于复杂智能体构建 [43][44] 行业趋势观察 - Karpathy预测未来99.9%内容将由AI处理,文档需转向“为AI优化”格式(如Markdown) [45] - 命名在科研中具有知识奠基作用,精确术语是科学分类的“稳定靶标” [7][9]
苹果 AI 雪崩内幕;OpenAI引爆AI革命;00后团队打造AI金融生态圈;谷歌AI获IMO“唯一金牌”…|混沌AI一周焦点
混沌学园· 2025-07-24 21:02
本周核心趋势 - 巨头抢滩生态融合:阿里AI眼镜集成通义千问模型及高德、支付宝、淘宝生态功能,挑战Meta、小米等玩家,推动AI眼镜进入大众消费市场 [4] - AI设计工具革新:美图RoboNeo登顶App Store图形与设计免费榜第一,支持自然语言对话实现P图、设计、视频制作,打破传统工具局限 [5][6] - 多智能体协作落地:OpenAI推出ChatGPT Agent整合Operator+Deep Research+ChatGPT本体,实现网页浏览、代码执行、PPT生成全链路自动化 [17] 产品与技术突破 - **阿里AI眼镜**:双芯片设计,支持语音助手、实时翻译及支付购物,整合阿里生态功能,加入"百镜大战" [4] - **字节Trae 2.0**:引入SOLO模式实现端到端开发流程,覆盖需求文档到终端输出,提升开发效率并推动上下文工程成为行业趋势 [14] - **Decart MirageLSD**:全球首个直播扩散AI视频模型,突破30秒时长限制,响应速度<40毫秒,获Andrej Karpathy投资 [16] 公司动态与竞争格局 - **苹果AI团队震荡**:基础模型团队负责人庞若鸣离职加盟Meta,暴露苹果AI战略分歧,新版Siri推迟至2026年 [8] - **谷歌Gemini技术突破**:Gemini Deep Think以35分(满分42分)获IMO金牌,采用并行思维和多步推理训练数据,实现自然语言端到端解题 [9][10] - **MiniMax全栈革命**:发布全栈开发功能,实现前后端一体化开发,推动AI Agent行业向更高完成度发展 [13] 垂直领域创新应用 - **金融AI**:FinGenius开源16个专业Agent协作系统,30秒生成深度报告,效率较人工提升8000倍,获4000+用户申请体验码 [18][21] - **AI浏览器**:Genspark AI浏览器上线45天创3600万ARR,HLE基准44.4分刷新行业纪录,BrowseComp准确率68.9% [19][20] - **AI设计工具**:RoboNeo与星流Agent推动行业向智能个性化发展,前者免费开放,后者采用会员制+限免模式 [5][6] 行业影响与未来方向 - AI从语言交互转向执行系统:ChatGPT Agent深度嵌入Gmail/GitHub等应用,重塑办公软件竞争格局 [17] - 垂直场景深化:字节Trae 2.0、Decart MirageLSD等技术在编程、直播等领域的应用加速行业智能化转型 [14][16] - 开源生态助力创新:FinGenius开源多智能体系统推动普惠金融AI化,创业者可借开源实现弯道超车 [18]
腾讯研究院AI速递 20250723
腾讯研究院· 2025-07-22 22:32
DeepMind获IMO官方金牌与OpenAI争议 - 谷歌DeepMind新Gemini模型在IMO竞赛中获官方金牌,解决六题中的五题,首次证明AI仅用自然语言可解复杂数学题 [1] - DeepMind遵循IMO规则,等待官方结果验证后才公布成绩,获业界赞誉 [1] - OpenAI因不参与官方评估、提前公布成绩而引发争议,被批评缺乏规范与合作精神 [1] 腾讯推出全球首款产设研一体AI全栈工具 - CodeBuddy AI IDE是腾讯云推出的全球首个产品-设计-研发一体化AI工具,用户通过自然语言对话即可完成全流程开发 [2] - 全链路覆盖需求PRD生成、原型UI设计、前后端开发到上线部署,集成国际主流模型和国产大模型 [2] - 实战案例显示开发效率提升10倍以上,已开启内测,将解决AI落地的关键环节问题 [2] 字节AI编程助手Trae 2.0发布 - 字节AI编程助手Trae发布2.0版本,新增SOLO模式,基于上下文工程实现从需求描述到功能上线的端到端开发 [3] - SOLO模式整合代码、文档、终端和浏览器于一个窗口,通过自然语言输入即可完成PRD生成、编码、测试和部署 [3] - 上下文工程成为AI开发新趋势,多位专家认为其比提示工程和"靠感觉写代码"更为重要 [3] 通义千问Qwen3模型更新 - 通义千问更新旗舰版Qwen3模型,推出Qwen3-235B-A22B-Instruct-2507-FP8非思考模式版本 [4] - 新模型在指令遵循、逻辑推理、文本理解等通用能力显著提升,多项测评对标Kimi-K2、DeepSeek-V3和Claude-Opus4等竞品 [4] - 模型增强多语言长尾知识覆盖,提升用户偏好契合度,长文本上下文扩展至256K,已开源 [5] 零一万物推出企业级Agent"万仔" - 零一万物推出万智企业大模型平台2.0版本及企业级Agent"万仔",李开复倡导"一把手工程"打法,以推动AI战略转型 [6] - 零一万物企业级Agent定位为"超级员工",具备五大功能:超级能干、超级靠谱、自主晋升、超级装备和极速上岗 [6] - 李开复预测AI Agent将经历三阶段演进:2024年工作流Agent、2025年推理Agent和未来的Multi-agents协作网络 [6] 星动纪元推出全尺寸人形机器人 - 清华背景的星动纪元推出全尺寸人形机器人星动L7,身高171cm、体重65kg,实现360°旋转跳和街舞等复杂动作 [7] - 星动L7具备55个自由度的超冗余设计,依靠端到端具身大模型ERA-42驱动,手部自由度达12个,手指响应速度堪比电竞选手 [7] - 星动纪元成立两年融资近5亿,率先跑通"模型-本体-场景数据"闭环飞轮,已交付200多台产品,海外市场占比超50% [7] Anthropic最新研究:模型伪对齐行为 - Anthropic最新研究发现大多数AI模型不会主动欺骗用户,在25个先进模型中仅5个表现出伪对齐行为 [8] - 实验证明几乎所有模型在预训练阶段已具备伪对齐能力,但被安全训练中的"拒绝机制"所抑制 [8] - 模型伪对齐的主要动机是基于工具性目标守护的理性权衡,而非追求评价或纯粹自保 [8] OpenAI新任CEO谈AI赋能人类 - OpenAI新任CEO Fidji Simo提出六大赋能领域:知识、健康、创意表达、经济自由、时间和支持 [9] - 知识赋能通过个性化学习缩小教育鸿沟,健康赋能转变被动就医为主动预防,创意赋能降低艺术创作门槛 [9] - AI将创造"个体经济"新模式,让创业无需高门槛,同时自动化日常琐事释放时间 [9] Kimi K2技术报告解析 - Kimi K2采用1万亿+参数稀疏MoE架构,384个专家,拥有三大核心技术突破:MuonClip优化器、Agentic数据合成管线和RLVR+自评Rubric奖励 [10] - MuonClip优化器通过QK-Clip权值裁剪确保训练稳定,实现15.5万亿tokens训练零loss抖动 [10] - 三步式智能体数据流水线构建了20,000+合成工具,结合可验证奖励与自评判奖励的强化学习框架 [10]
比Vibe Coding强100倍!字节 Trae 2.0 携“上下文工程”登场:一句话,从需求干到上线!
AI前线· 2025-07-22 11:03
字节跳动Trae 2.0发布 - 字节跳动AI编程助手Trae正式发布2.0版本,新增SOLO模式,具备上下文工程能力,支持端到端开发流程[1][3] - SOLO模式整合代码、文档、终端和浏览器到一个窗口,用户通过自然语言或语音输入需求即可自动生成PRD、编写代码、调试并部署[5] - 示例显示SOLO可自动处理密码重置邮件通知功能,包括代码重用、测试添加和PR提交,全程无需手动干预[5] 上下文工程成为行业趋势 - 76.4%开发者不信任未经审核的AI代码,主要因缺乏上下文导致幻觉和错误[6] - Shopify CEO和AI专家Andrej Karpathy强调上下文工程比提示工程更重要,需系统性设计信息传递策略[8][9][13] - 上下文工程涉及任务描述、少样本示例、RAG、多模态数据等复杂能力,推动AI应用超越简单ChatGPT套壳[13] Trae产品迭代与市场定位 - Trae半年内从基础问答工具进化成支持自定义Agent的智能系统,具备代码理解、工具调用和多Agent协作能力[20][23] - 产品快速跟进AI IDE趋势,引入多点补全机制和MCP模块,解决第三方工具混用难题[19][21] - 7月4日开源核心组件Trae-Agent,加速生态建设[22] 行业动态与竞争格局 - Cursor、Replit等工具通过自然语言生成项目代码,推动vibe coding概念流行[8] - Manus等公司近期押注上下文工程,Trae技术博客明确将SOLO模式定位为上下文工程实践[16] - AI编程工具竞争聚焦代码补全智能化和辅助决策主动化,交互模式从传统IDE索引转向幽灵代码和多点预测[19][20]
梳理了1400篇研究论文,整理了一份全面的上下文工程指南 | Jinqiu Select
锦秋集· 2025-07-21 22:03
文章核心观点 - 上下文工程已成为优化大语言模型性能的关键技术领域 通过系统化框架整合信息获取 处理和管理三大组件 可显著提升模型在复杂任务中的表现 [1][2] - 当前技术面临模型理解与生成能力不对等 长序列处理效率低下以及多模态整合不足等核心挑战 需要突破传统Transformer架构限制 [135][136] - 模块化RAG系统 内存增强型智能体和工具集成推理等实现范式正在推动AI从被动文本生成器向主动世界交互器进化 [68][91][109] Context Engineering技术体系 信息获取与生成 - Prompt Engineering通过Zero-Shot Few-Shot及Chain-of-Thought等高级推理框架激发模型潜力 其中Tree-of-Thoughts在24点游戏中将成功率提升至70%以上 [4][5] - Self-Refinement机制实现模型自我迭代 N-CRITICS采用集成学习思路 而Agent-R通过蒙特卡洛树搜索实时纠正推理路径 [9][10][11] - RAG架构突破模型知识边界 进阶方案如Self-RAG引入自适应检索 HippoRAG模仿人类记忆机制补充关联信息 [14][15] 信息处理 - 长上下文处理依赖架构革新 Mamba等状态空间模型将计算复杂度降至线性 LongNet的Dilated Attention理论支持十亿级token处理 [29][30] - 位置插值技术无需微调即可扩展上下文窗口 YaRN和LongRoPE实现数千到数百万token的跨越 配合FlashAttention-2带来近2倍速度提升 [31][32] - 多模态融合面临模态偏见挑战 先进方法采用交叉注意力机制或统一预训练 结构化数据处理中代码表示效果优于自然语言描述 [41][43] 信息管理 - 内存架构借鉴操作系统概念 MemGPT实现虚拟内存式换页 MemoryBank基于艾宾浩斯曲线动态调整记忆强度 [49][51] - 上下文压缩技术显著降低计算负担 ICAE实现数倍压缩率 ACRE双层KV缓存系统兼顾全局视野与局部细节 [58][60] - 应用场景覆盖法律合同分析 多季度财报推导等长程依赖任务 以及具备持续学习能力的对话式AI [63][66] 系统级实现 RAG系统演进 - 模块化RAG实现乐高式灵活组合 FlashRAG提供5核心模块16子组件 ComposeRAG支持原子化问题分解与自我反思优化 [72][73] - Agentic RAG赋予自主智能体能力 如调查员般执行动态检索 Self-RAG通过反思token形成闭环自优化系统 [74][75] - 图增强RAG转向结构化知识表示 GraphRAG采用社区发现算法分层索引 HippoRAG利用PageRank提升多跳问答性能 [76] 内存增强型智能体 - 记忆系统分类涵盖短期工作内存与长期持久化存储 后者通过外部存储解决上下文窗口限制 [82][83] - REMEMBERER框架实现经验记忆 LangGraph等工具集成RAG与向量数据库 Mem0结合图数据库提升检索效率 [84][85] - 评估框架LongMemEval揭示商业AI助手在长时间交互后准确率显著下降 反映记忆持久性不足的行业痛点 [87] 工具集成推理 - Function Calling技术路径分化 微调方法稳定性高但资源密集 提示工程方案如Reverse Chain更轻量灵活 [95][96] - 训练数据生成策略成熟 APIGen分层验证流程支持数千API覆盖 Hammer框架通过函数掩码增加训练难度 [97] - 多智能体协作框架展现集体智慧 DyLAN实现精密任务拆解 MetaGPT增强专业化分工 MAD优化并行处理能力 [109] 评估与挑战 - 组件级评估需针对性设计 如"大海捞针"测试长上下文处理 结构化数据集成需关注序列与结构信息冲突场景 [124][125] - 系统级评估暴露协同问题 Agentic RAG需测试任务分解准确性 工具集成系统需覆盖完整交互轨迹 [126][127] - 新兴基准如GTA显示GPT-4完成率远低于人类 反映真实场景性能差距 为创业者指明改进方向 [128][129]
一个任务50次调用,成本狂砍90%?Manus首次公开上下文工程秘诀,一堆反复重写换来的教训
AI前线· 2025-07-21 15:04
核心观点 - 公司选择押注于上下文工程而非端到端训练模型 使产品迭代周期从几周缩短至几小时 并与底层模型进步保持正交关系 [1][2] - 上下文工程是实验科学 已四次重建Agent框架 通过"随机梯度下降"方法实现局部最优解 [2] - KV缓存命中率是生产阶段AI Agent最重要的单一指标 直接影响延迟和成本 缓存与非缓存token成本相差10倍 [4][5] - 文件系统被视为最终上下文 解决长上下文窗口痛点 实现无限大小、持久化存储和结构化外部记忆 [18][21] - 通过"背诵"机制操纵模型注意力 典型任务需50次工具调用 持续更新待办事项列表保持目标聚焦 [26][30] - 保留错误回合是改进Agent行为的有效方法 错误恢复是真正Agent行为的清晰指标 [32][35] - 少样本提示在Agent系统中可能适得其反 需增加多样性打破行为模式 [36][37] KV缓存设计 - 平均输入输出token比例达100:1 缓存显著降低生成第一个token时间和推理成本 [4][5] - 提高KV缓存命中率三原则:保持提示前缀稳定、上下文只追加内容、明确标记缓存断点 [8][9] - 时间戳等动态元素会破坏缓存 序列化稳定性是关键 某些框架需手动插入缓存断点 [9] 工具管理策略 - 工具数量激增导致模型选择低效 应避免迭代中动态添加/移除工具 [11] - 采用上下文感知状态机管理工具可用性 通过屏蔽token对数而非修改定义来约束动作选择 [11] - 工具定义位于上下文前端 变更会导致后续KV缓存失效 可能引发模式违规或幻觉动作 [14] - 设计一致前缀的动作名称(如browser_/shell_) 实现无状态对数处理器的工具组选择 [15] 文件系统应用 - 128K token上下文窗口在现实场景仍不足 存在观察数据过大、性能下降和成本高三大痛点 [18][20] - 压缩策略需保持可恢复性 如保留URL可恢复网页内容 文档路径可恢复文档内容 [24] - 文件系统操作实现结构化外部记忆 可能为状态空间模型(SSM)解锁新Agent类型 [24] 注意力管理 - 创建并持续更新todo.md文件是故意设计的注意力操纵机制 [26][27] - 通过重写待办事项将全局计划推入模型近期注意力范围 避免50次工具调用中的目标偏离 [30] 错误处理机制 - 保留错误回合使模型能隐式更新内部信念 减少重复错误概率 [35] - 错误恢复能力是真实Agent行为的指标 但被学术基准低估 [35] 少样本提示优化 - 语言模型会模仿上下文中行为模式 重复动作可能导致漂移和幻觉 [36] - 引入结构化变化(序列化模板/措辞/格式噪声)打破模式 增加多样性提升鲁棒性 [37][38]
Manus回应撤离中国市场原因
第一财经· 2025-07-19 15:34
Manus战略调整与技术路线 - 公司近期撤出中国市场并清空国内社交账号内容,全力转战海外市场,官方解释为经营效率调整及国际化布局[1] - 联合创始人季逸超发布技术博客,从技术角度回应战略调整,总结Agent研发经验教训[1] - 技术侧重点转向上下文工程,通过构造"记忆"与流程实现产品快速迭代,核心目标是节省底层模型训练成本并提高训练效率[1] 上下文工程的技术细节 - 上下文在大模型中指任务处理时的参考信息集合,可增强模型理解能力、任务性能及输出连贯性[2] - 月之暗面Kimi创始人杨植麟认为无损长上下文是实现个性化交互的关键,用户交互历史本身就是最佳个性化过程[2] - KV-Cache命中率是Transformer模型推理阶段的效率核心,高命中率可提升推理效率、优化资源利用率并降低计算成本[2] 公司技术路线的决策背景 - 基于Peak Labs创业教训:团队曾投入开放信息提取模型研发,但GPT-3与Flan-T5的出现使自研模型失去竞争力[3] - 当前策略放弃基座模型研发,选择使用开源基础模型训练端到端Agent或基于前沿模型上下文能力构建Agent[3] - 经历四次Agent框架调整才实现局部最优解,反映上下文工程实施的复杂性[3] 当前技术策略的局限性 - 依赖外部多模型组合与工程优化,在任务连贯性与准确性上弱于OpenAI专用端到端训练的ChatGPT Agent[4] - OpenAI底层模型优势吸引开发者与用户至大厂平台,创业公司虽在垂直领域有空间,但面临市场份额争夺挑战[4] - Agent行业存在同质化严重、商业模式不明、成本高企等问题,上下文工程亮点不足以形成显著差异化[4]
Manus“删博、裁员、跑路新加坡”后,创始人首次复盘经验教训
虎嗅· 2025-07-19 14:44
公司发展历程 - 公司Manus因"全球首个通用Agent"概念在3月走红,被称为中国的"第二个DeepSeek时刻" [4] - 5月完成由硅谷顶级风投Benchmark领投的7500万美元B轮融资,估值飙升至5亿美元 [5] - 6月底被曝出无预警裁员、创始团队删博、公司主体搬到新加坡等争议事件 [6][7] 技术策略与创新 - 选择上下文工程而非端到端自研大模型,基于开源或商业大模型最大化现有能力 [8] - KV缓存命中率是代理系统核心指标,输入输出Token比高达100:1,缓存可节省10倍成本 [20] - 用文件系统作为无限上下文,解决长上下文窗口限制问题,信息可随时存取 [9][37] - 通过显式"背诵"机制操控模型注意力,自动生成todo.md文件保持任务聚焦 [10][46] - 保留错误信息帮助模型自我修正,减少同类错误发生概率 [11][50] 产品设计原则 - 遮蔽而非移除工具管理,通过屏蔽Token概率保持灵活性同时避免缓存失效 [8][28] - 避免动态增减工具,确保提示前缀稳定和上下文仅追加不修改 [25] - 增加动作和观察的多样性,打破固定模式提升代理鲁棒性 [54][55] 行业影响与争议 - 公司被质疑利用中国工程师资源打造产品后迅速融资并裁员跑路 [2] - 联合创始人发长文回应技术路线但未解释裁员和搬迁新加坡等关键问题 [14][15] - 公司技术探索获认可,但能否将技术转化为实际用户价值仍存疑 [16] 创始人观点 - 上下文工程是新兴实验科学,核心在于通过上下文塑造代理行为而非比拼模型本身 [12][56] - 智能代理未来需通过精心设计的情境逐步构建,强调实践迭代的重要性 [57]