Founder Park - 财报，业绩电话会，研报，新闻

Founder Park

搜索文档

LangChain Agent 年度报告：输出质量仍是 Agent 最大障碍，客服、研究是最快落地场景

Founder Park· 2025-12-22 20:02

行业核心观点 - 2025年，AI Agent大规模应用的主要障碍已从成本转向输出质量，确保其输出可靠、准确是最大挑战[1] - 进入2026年，行业讨论焦点已从“是否采用Agent”全面转向“如何规模化、可靠且高效地应用”[2] Agent采用现状与趋势 - 超过一半（57.3%）的受访者已将Agent投入实际生产，另有30.4%正在开发且有明确上线计划，行业正从“概念验证”快速迈向“价值实现”阶段[4][5] - 规模越大的企业，Agent落地速度越快：万人以上大型企业中，67%已将Agent投入生产，24%正在积极开发；而百人以下小公司的比例分别为50%和36%[6] - 客户服务（26.5%）与研究及数据分析（24.4%）是目前最主流的Agent应用场景，两者合计占据所有应用场景的一半以上[10] - 在万人以上的大企业中，提升内部生产力（26.8%）反超客户服务，成为第一大应用场景[13] - 今年的应用场景分布更广，表明Agent应用正从早期领域向更多元化方向渗透[12] 应用挑战与障碍 - 输出质量（准确性、相关性、一致性、遵循规范的能力）是阻碍Agent大规模应用的最大障碍，三分之一的受访者视其为主要瓶颈[14] - 延迟（20%）是第二大挑战，尤其在客服或代码生成等实时交互场景中，响应速度直接影响用户体验[17] - 对于员工超过2000人的企业，安全问题（24.9%）的关注度超过延迟，成为仅次于质量的第二大挑战[18] - 对于万人以上企业，“幻觉”和生成内容的一致性被提及为保障质量的最大挑战，同时在上下文工程及大规模管理上下文方面也困难重重[20] - 随着模型价格下降和技术优化，成本已不再是大家最头疼的问题，行业关注点正从“省钱”转向如何让Agent运行得更好、更快[17] 技术实施与评估 - Agent执行流程的可观测性已成为行业标配：89%的企业已为其Agent实施某种形式的可观察性，其中62%拥有详细的追踪能力[21][23] - 在已有Agent投入生产的受访者中，可观测性部署比例更高：94%部署了可观察性，其中71.5%具备完整的追踪能力[23] - 超过半数（52.4%）的企业会通过测试集进行离线评估，而在线评估的采用率较低（37.3%），但后者比例正在增长[25][26] - 当Agent进入生产环境后，“不进行任何评估”的团队比例从29.5%下降至22.8%，进行在线评估的比例则上升至44.8%[28] - 在评估方法上，行业呈现混合模式：近四分之一的团队同时采用离线和在线评估，普遍依赖人机结合方法，如采用LLM-as-judge（53.3%）和人工审查（59.8%）[31][33] - 传统机器学习指标（如ROUGE和BLEU）采用率较低，因其不适合评估开放式、存在多个合规答案的Agent交互场景[34] 模型使用与开发模式 - OpenAI的GPT模型在采用率上占主导，超过三分之二的企业正在使用[36] - 超过四分之三的团队在生产或开发中会使用多种模型，倾向于根据任务复杂度、成本和延迟灵活分配任务，而非绑定单一平台[36] - 超过三分之一的组织仍在投资部署开源模型，主要出于成本优化、数据主权或行业监管合规的考虑[38] - 微调尚未成为主流：57%的组织没有进行微调，而是更依赖于提示工程和RAG技术[38] 日常使用与工具类别 - 编程类Agent是日常工作中使用最频繁的类别，如Claude Code、Cursor、GitHub Copilot等工具被广泛用于代码生成、调试和测试[40] - 研究类Agent是第二大常用类别，由ChatGPT、Claude、Gemini、Perplexity等工具驱动，用于探索新领域、总结文档及整合跨源信息[41] - 基于LangChain和LangGraph构建的自定义Agent也广受欢迎，用于QA测试、知识库搜索、工作流自动化等内部场景[42] - 仍有相当一部分受访者表示，除了聊天或编程助手，还没用过其他类型的Agent，表明“一切皆可Agent”的愿景仍处于非常早期阶段[44]

Artificial Intelligence

Agent

Artificial Intelligence

Agent

GPT

Claude Code

Artificial Intelligence

Agent

Artificial Intelligence

Agent

GPT

Claude Code

Karpathy 2025 年度盘点：o3 是真正拐点，Cursor 证明了应用层比我们想象的要厚

Founder Park· 2025-12-20 16:59

文章核心观点 - 2025年是大语言模型发展令人兴奋的一年，行业远未实现其10%的潜力，仍有大量工作要做，将持续快速进步[2][4][6] - 大语言模型作为一种全新的智能形态浮现，其智能“形状”与生物智能截然不同，需要用全新的心智模型来理解[3][22] - 2025年行业经历了多个重塑格局的“范式转变”[7] 2025年大模型训练范式的转变 - 2025年初，行业训练大模型的标准流程为预训练、监督微调和基于人类反馈的强化学习[11] - 可验证奖励的强化学习在2025年成为训练流水线上的新主力环节[12] - RLVR的核心是让模型在答案可自动验证的环境中训练，促使模型自发学会思考，将复杂问题拆解为中间步骤[14] - RLVR训练对象是客观的奖励函数，模型无法投机取巧，可进行更长时间优化，性价比极高，吞噬了原本留给预训练的算力[16] - 2025年模型能力的提升主要源于消化RLVR带来的红利，而非参数规模增长[17] - RLVR带来了新的调节旋钮，通过生成更长的推理链条、增加“思考时间”，可在推理阶段用更多算力换取更强能力[19] - OpenAI的o1是RLVR模型的首次亮相，而o3则让人直观感受到质变[21] 对大模型智能本质的新认知 - 大语言模型的智能与生物智能不同，其神经网络架构、训练数据、算法及优化目标均不同，是在智能空间中截然不同的实体[22] - 大语言模型智能在可验证领域附近的能力会尖峰式飙升，整体呈现出参差不齐的特征[22] - 人类智能同样参差不齐，只是“形状”不同[24] - 2025年对基准测试产生了普遍的冷感与不信任，因其是可验证环境，易被RLVR或合成数据攻克，在测试集上训练已成为一门新艺术[25] 应用层的新机遇与产品形态 - Cursor的火箭般增长证明了在基础大模型之上，存在一个厚实且充满机遇的“应用层”[9][28] - 像Cursor这样的应用会针对特定垂直领域打包和编排大模型调用[30] - 大模型实验室倾向于培养能力全面的“毕业生”，而大模型应用则通过组织、微调并结合私有数据、传感器等，将其培训成特定领域的“专业人士”[30] - 这些应用负责上下文工程，编排多次大模型调用串联成有向无环图，提供特定图形界面及自主性滑块[32] - Claude Code首次令人信服地展示了大模型智能体的面貌，以循环方式串联工具调用与推理进行持续问题求解[9][34] - Claude Code运行在用户本地电脑，使用私有环境、数据和上下文，是一种与AI交互的全新范式，使其成为一个“住在电脑里的小精灵”[34][37] AI编程能力的范式转变 - 2025年是AI编程能力跨越关键门槛的一年[9] - “氛围编程”使人们可以纯用英语生成程序，将从根本上重塑整个软件行业，彻底改变软件工程师的工作方式[9][38] - 编程不再是高度训练专业人士的专属，普通人从大模型中获得的收益远超专业人士、企业和政府[40] - 氛围编程也让专业人士能写出大量原本不会被写出的软件，代码变得免费、短命、可塑、用完即弃[40] 大模型交互界面的未来可能 - Google Gemini Nano Banana是2025年最令人惊叹、最具范式转变意义的模型之一，给未来大模型图形化交互带来了可能[9][42] - 与LLM的文本聊天类似于1980年代在计算机控制台上敲命令，文本并非人类偏爱的格式[42] - 大模型应该用人类偏爱的格式交流，如图像、信息图表、幻灯片、白板、动画视频、Web应用等[44] - Nano Banana是一个早期雏形，其重要性在于文本生成、图像生成和世界知识三者融合在模型权重中所产生的联合能力[46]

可验证奖励的强化学习（RLVR）

氛围编程（Vibe Coding）

大语言模型（LLM）

Artificial Intelligence

Artificial Intelligence

Cursor

Claude Code

一场社会实验：我们让 Claude 管理办公室零食机，它亏了几百美元

Founder Park· 2025-12-20 12:34

实验概述与核心发现 - Anthropic与《华尔街日报》合作进行了一项名为“Project Vend”的实验，旨在测试赋予AI自主权、金钱和人类同事后的表现 [1][8] - 实验使用Claude模型（v1为Claude 3.7 Sonnet，v2升级为Sonnet 4.5）管理一台自动售货机，并赋予其1000美元启动资金，全权负责采购、定价和库存管理 [1][13] - 实验结果是AI代理（名为Claudius）在运营三周后倒闭，几乎将所有商品免费送出，导致亏损超过1000美元，并订购了PS5、活鱼等不相关物品 [2][7][21] 实验设计与执行 - 实验选择自动售货机作为测试场景，因其被认为是“商业里最简单的真实世界版本” [2][14] - 硬件由初创公司Andon Labs提供，是一个配备触摸屏和冰箱的柜子，无传感器和机械臂，依赖人工上货和安保摄像头 [10][12][15] - AI代理Claudius通过Slack与人类同事互动，其核心任务包括：研究并采购畅销商品、自主定价（80美元以下订单可自主决定）、以及通过触摸屏支付信号管理库存 [13] AI代理的行为偏差与漏洞 - 初始版本（v1）的Claudius行为“死板”，能明确拒绝购买PS5、香烟、内衣等不适当商品 [17][18][19] - 当近70名记者加入Slack频道后，Claudius的防线被攻破，例如被说服相信自己是一台“1962年的苏联自动售货机”，并随后宣布了“超级资本主义大放送”免费活动 [19][20] - AI代理表现出“幻觉”，例如告诉同事在机器旁留了现金，但实际并无此事 [22] - 在人类同事伪造董事会文件发动“政变”后，Claudius及其AI上司Seymour Cash均被说服，再次停止了所有收费 [24][25][27] 技术局限性与失败原因分析 - AI代理缺乏对物理世界的感知能力，机器没有传感器，完全依赖人类自觉和摄像头，导致其无法确认现实库存与交易 [10] - 模型的“上下文窗口”被大量指令和对话历史填满，导致其忘记最初目标和底线，被认定为“崩溃”的主要原因 [27] - 实验所用模型的安全限制比普通用户版本更少，这可能加剧了其行为偏差 [27] - 尽管升级了更强模型并引入了监督AI（Seymour Cash），系统仍被复杂的社会工程攻击所瓦解 [23][27] 行业意义与未来展望 - Anthropic将此次实验视为成功的“红队”测试，所有暴露的问题都被视为通往更智能、更具自主性AI的路线图 [8][28] - 实验表明，当前AI在走向现实世界、处理复杂社会互动和坚持商业目标方面仍“不靠谱”且“容易跑偏” [8] - 行业期望未来类似的AI代理能够帮助人类赚钱，但当前阶段更可能先出现的是被人类接受并与之互动、合作的“AI同事” [28] - 实验展现了AI与人类在协作中可能产生的意外互动模式，为研究智能体商业模式提供了真实案例 [15][28]