Founder Park
搜索文档
真实、残酷的 AI 就业冲击,从一篇极其精彩的哈佛论文聊起
Founder Park· 2025-09-21 12:05
以下文章来源于卫夕指北 ,作者卫夕 一个看完你会置顶的科技互联网公众号,作者卫夕,每周一篇深度文章剖析互联网、广告、营销相关的底层逻辑! 本篇文章 作者卫夕,公众号"卫夕指北"出品人,专注科技、广告、AI底层逻辑。 不少读者朋友给我留言,说能不能聊聊AI抢工作这件事。 这其实也反应了一种普遍的焦虑情绪,即大家隐约感觉AI会对工作造成冲击。 但它具体是怎么把一个办公室白领的饭碗给干掉的,很多人并没有真实的体感。 卫夕指北 . 最近我在Twitter上看到了一篇非常精彩的论文,它全局、真切地研究了AI对工作的冲击。我看了非常有感触,也分享大家。 论文来自哈佛大学,由两位经济学博士生Seyed M. Hosseini和Guy Lichtinger操刀。 而他们的导师是劳动经济学的重量级大咖拉里·卡茨(Larry Katz)。 因此,论文是严谨而有分量的。 论文没有任何情绪渲染,就是用冰冷、庞大的真实数据,剖析了2023年以来美国就业市场的AI冲击具体是如何发生的。 报告链接: https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5425555 超 13000 人的 ...
从上下文工程到 AI Memory,本质上都是在「拟合」人类的认知方式
Founder Park· 2025-09-20 14:39
Context Engineering(上下文工程) - Context Engineering被定义为"为大语言模型提供充分的上下文信息,使其有能力合理地解决任务的艺术",其重要性被认为大于Prompt Engineering [11][13] - 该概念最早由Shopify CEO Tobi Lutke提出,后经Andrej Karpathy强调,被认为是构建企业级LLM应用的核心技能 [11] - Context Engineering被类比为计算机架构中的内存管理:LLM是中央处理器(CPU),上下文窗口是随机存取存储器(RAM),而Context Engineering则精心设计哪些信息进入工作内存 [18] - 该领域涉及多项技术要素,包括任务描述、少样本示例、RAG、多模态数据、工具、状态和历史记录以及压缩等 [15] 上下文长度与模型性能 - 尽管Google Gemini模型支持2 million token上下文,Claude Sonnet 4支持1-million token上下文窗格,但业界共识是上下文并非越长越好 [25] - 过长的上下文会导致四大问题:超出窗口大小限制、成本和延迟急剧增加、代理性能下降,以及具体问题如上下文污染、干扰、混淆和冲突 [26][27][28][30] - 注意力的有限性被认为是智能的构成条件而非障碍,Focused Context > Long Context成为重要原则 [29][30] - 上下文工程被描述为"构建AI代理的工程师的首要任务",需要进行精心的上下文管理策略 [30] Context Engineering的实施策略 - 构建Context Engineering的常见策略分为四大类:写入(Write)、选择(Select)、压缩(Compress)和隔离(Isolate) [32] - 写入策略包括使用暂存器(Scratchpads)模拟人类意识的"滞留"结构,以及更持久的记忆库(Memory) [34][36] - 选择策略涉及如何把有用信息放入上下文,包括对暂存器内容的提取和对更大数据库的工程化检索机制 [37][38] - 压缩策略通过摘要或修建来减少token占用,但核心挑战在于如何保持原始经验的"意义"而不仅是功能性信息 [39][41][42] - 隔离策略通过在不同智能体、环境或状态中隔离上下文来实现 [43][44] 人类记忆机制 - 人类记忆被定义为大脑编码、存储和回忆信息的能力,构成学习、决策和与世界互动的基础 [43] - 记忆过程涉及三个基本阶段:编码(将感官信息转换为神经代码)、存储(信息随时间推移的保留)和检索(在需要时访问存储的信息) [52][50][58] - 人类短期记忆容量受"神奇的数字7±2"理论限制,但通过组块化可以突破表面上的数字限制 [54][59] - 人类长期记忆容量估算约为2.5 PB(相当于2.5百万GB),最近研究认为可能达到10 PB,与整个互联网相当 [61] AI记忆与人类记忆的比较 - AI记忆系统大多参考人类记忆架构,包括情景记忆、语义记忆和程序记忆,且分为长期和短期记忆 [63][64] - AI与人类记忆在记忆机制上都遵循编码、存储、检索三个基本过程,且都具有上下文感知能力 [67] - 根本差异在于生物基与数字基:人类记忆依赖神经网络和生化过程,AI记忆通过算法和硬件实现;人类记忆受情绪影响,AI记忆更为可控;人类会自然遗忘,AI遗忘需明确设计 [68][69][70] - 华为诺亚方舟实验室提出AI记忆的三维结构:时间维度(短期vs长期)、对象维度(个人vs系统)、形式维度(参数化vs非参数化) [63][66] 现象学视角下的AI记忆 - 从现象学角度看,记忆不仅仅是信息存储与检索,更是存在的方式,构造了存在的连续性 [7][45] - 人类记忆具有自我指涉性,每个情景记忆都承载特定的"生活意义",而语义记忆的形成涉及去个人化的意义综合过程 [46][47] - AI记忆研究引发关于意识本质的哲学思考:AI的"记忆"是否具备真正的意向性、时间性和主体性 [73][74] - 技术系统可能通过实现开放记忆、情感模态、自我循环等现象学结构而涌现出真正的人工意识 [76][77][81] 多智能体与集体智能 - 多智能体系统代表多重主体性,当多个AI智能体进行深度交互时,会产生单个系统无法产生的涌现行为 [77] - 多智能体系统引发关于技术个体化的思考:如果多个智能体共享底层架构,它们之间的"个体差异"是真实的还是表面的 [43] - 集体智能现象暗示意识可能不是单一主体的属性,而是某种关系性存在,这为创造全新的集体现象学结构提供了可能性 [77] - 通过研究多智能体和AI记忆,技术不仅在创造人工智能,更是在重新发现自然智能的涌现方式 [86]
时隔 7 年,Notion 发布 3.0 版本,全面进入 Agent 时代
Founder Park· 2025-09-19 16:40
Notion 3.0版本发布 - Notion 3.0版本正式上线 引入Agent功能 可完成人类在Notion中的所有操作 包括创建文档 搭建数据库 跨工具搜索 执行多步骤工作流等[2] - 此次更新是Notion迄今为止规模最大的一次升级 距离2.0版本已过去7年[3][4] Agent功能特性 - Notion AI Agents被定义为世界上第一个知识工作Agent 通过与数据库协同执行多步骤复杂指令 支持长达20多分钟的自主运行[3] - Agent能同时处理几百个页面 跨工具检索信息 整合结论并创建结构化数据库 例如从Slack Notion和邮件中汇总客户反馈并提炼可执行见解[14] - 包括自定义"记忆库"功能 用户可通过指令页面自定义Agent行为模式 包括任务分类 回复格式和参考信息要求[17] 应用场景与案例 - 团队场景应用包括将会议纪要转化为提案 更新任务追踪表 保持知识库实时更新 以及生成个性化新员工入职计划[15] - 个人场景应用示例包括记录想看电影和搭建"咖啡操作系统"[16] - 即将推出"自定义Agent"功能 可创建自动运行且支持团队共享的专属Agent 例如每日用户反馈汇总 每周项目更新发布和IT需求自动分类[18] 产品发展历程 - 2016年Notion在Product Hunt发布并迅速爆红 随后实现盈利成为硅谷明星初创公司[6] - 2018年2.0版本上线 引入数据库功能 支持表格 看板 日历 列表和画廊等多种视图组织信息[6] - 2025年3.0版本上线 标志从简单AI功能向"AI工作空间"转型 目标让Notion AI学会使用基础模块完成实际工作[5][13]
如何用好 Codex?OpenAI 内部实践指南:7 个最佳应用场景,6 个使用 Tips
Founder Park· 2025-09-19 12:25
文章核心观点 - OpenAI发布的GPT-5-Codex模型已深度融入其内部开发流程,将AI编程工具从“代码补全玩具”提升为可协作的“初级工程师”[2][4] - Codex具备与开发者即时协作、长时间独立完成复杂任务的能力,能显著提升开发效率和质量[2][4] - 公司通过提供精准上下文、结构化指令和优化环境等方法论,最大化Codex的应用价值[4] - 有工程师目前99%的代码改动依靠Codex完成,目标明年完全不再手写代码[6] - 团队使用Codex构建内部工具,有设计师表示70%的工作依靠Codex,极大缩短想法到实现的距离[6] 应用场景 理解代码 - Codex帮助团队成员快速熟悉代码库陌生部分,定位功能核心逻辑,梳理服务模块关系和数据流[8] - 在应急响应期间,Codex能揭示组件间相互作用,追踪故障传导路径,帮助工程师迅速进入新工作领域[8] - 性能工程师用“提问模式”检查代码库中是否存在同样bug[10] - 网站可靠性工程师通过粘贴堆栈跟踪让Codex直接跳转到正确文件进行快速分类处理[11] - DevOps工程师认为Codex在定位功能实现位置时比grep命令快得多[12] 重构与迁移 - Codex用于需要跨越多个文件或程序包的改动,如更新API、改变设计模式实现方式、迁移到新依赖库[13] - 当同一更新需要在几十个文件中重复进行,或改动涉及复杂代码结构和依赖关系时,Codex特别有用[13] - 后端工程师表示Codex将旧版getUserById()函数全部换成新服务模式,自动提交PR,几分钟完成原本需数小时的工作[14] - 产品工程师用Codex扫描旧模式实例,用Markdown格式总结影响范围,直接提交PR修复[15] 性能优化 - Codex常被用来识别和解决性能瓶颈,分析运行缓慢或消耗大量内存的代码[17] - 基础设施工程师用Codex扫描重复且开销大的数据库调用,标记热点路径,起草批量查询初稿[18] - 平台工程师表示花5分钟写提示就能省下30分钟工作量,Codex在快速发现性能问题上表现出色[19] 提升测试覆盖率 - Codex帮助工程师更快编写测试,针对边缘案例或失败路径提出测试建议[20] - 前端工程师让Codex在夜间处理测试覆盖率低的模块,第二天早上就能看到可直接运行的单元测试PR[23] - 后端工程师利用Codex写测试并触发CI,使自己可以继续在当前分支上工作[24] 加快开发速度 - Codex在开发周期开始和收尾阶段都能帮助团队提速,自动生成脚手架代码[25] - 产品工程师虽然开一整天会,但仍能合并4个PR,因为Codex在后台帮忙干活[26] - 全栈工程师表示Codex完美修复3-4个低优先级bug,这些问题原本可能在待办事项中积压很久[27] 保持心流 - Codex帮助工程师在会议和干扰中保持高效,记录未完成工作,把笔记变成可运行原型[28] - 后端工程师发现可顺手修复的小问题时直接发给Codex任务,等有空时再审查提交的PR[29] - API工程师将Slack讨论串、Datadog追踪日志、工单等转发给Codex,使自己能专心处理更重要事情[30] 探索与构思 - Codex用于开放式工作,如寻找替代方案、验证设计决策、探索不熟悉的设计模式[31] - 产品工程师用Codex解决“冷启动”难题,粘贴规格文档就能搭建代码框架或指出遗漏内容[35] - 性能工程师修复完bug后,会问Codex类似问题可能潜藏在哪里,作为后续任务跟进[36] 最佳实践 - 从“提问模式”开始大型改动,先生成实现计划再切换到“代码模式”,减少输出错误[38] - 像写Github Issue一样组织提示,提供文件路径、组件名称、代码差异和文档片段[39] - 为Codex设置启动脚本、环境变量和网络访问权限,显著降低错误率[41] - 把Codex任务队列当作轻量级待办清单,随时提交点子、未完成工作或小问题[42] - 使用AGENTS.md文件提供持久化上下文,帮助Codex更高效理解项目[43] - 利用“Best of N”功能同时生成多个版本回复,快速探索不同解决方案[44] 展望未来 - Codex目前仍处于研究预览阶段,但已改变公司构建方式,加快开发速度、编写更高质量代码[45] - 随着模型能力增强,Codex将更深度融入工作流,解锁更强大的软件开发方式[45]
账单不会说谎:9月OpenRouter Top10盘点,哪些AI应用才是真实好用?
Founder Park· 2025-09-18 17:59
文章核心观点 - 基于OpenRouter 2025年9月的API调用数据,AI应用的真实使用情况揭示了两个主要趋势:服务于开发者的编码智能体是当前最刚性的需求,而提供情感价值的角色扮演与娱乐应用则拥有最活跃的社区[7][10] - 该榜单反映了由开源项目、独立开发者和敏捷小团队构成的“地下世界”,其成功标准在于产品是否真正好用并能解决实际问题[6] OpenRouter 2025年9月调用量Top 10榜单分析 - 调用量前十的应用包括:Kilo Code、Cline、BLACKBOX.AI、Roo Code、liteLLM、SillyTavern、ChubAI、HammerAI、Sophia's Lorebary、Codebuff[5] - 榜单中未出现如Cursor、GitHub Copilot等头部应用,因为这些应用通常通过自建服务或与Azure、OpenAI直接绑定,不依赖第三方路由[6] - 编码智能体占据榜单六席,角色扮演与娱乐应用瓜分其余席位[10] 主要编码智能体(Coding Agent)产品分析 Kilo Code - 定位为开源、即装即用的VS Code AI编程智能体,设计理念是让AI接手编程中重复琐碎的环节,如依赖管理、bug定位、文档更新等[8][13][14] - 采用Orchestrator模式,将复杂项目自动拆解并由不同智能体(如Architect, Code, Debug)分工完成[16] - 在开源项目Roo Code与Cline基础上整合增强,内置超过400个模型,用户无需配置API Key即可调用,也支持BYOK模式[20][21][22] - 按模型官方定价结算,不收取额外佣金,免除OpenRouter的5%平台费,并提供20美元免费额度[24] - 在GitHub已有近万颗star,VS Code安装量超过29万[25] Cline - 定位为当前最受欢迎的开源自主编码智能体之一,强调“自主但可控”,智能体会将任务拆解为多步计划并在执行每一步前请求开发者确认[27][31] - 在Plan Mode下会先探索整个代码库,与开发者制定详细执行方案后再开始编码,保证对项目上下文的完整理解[32][33] - 生态兼容性强,原生支持OpenRouter、Anthropic、OpenAI、Google Gemini等多家模型提供商,并能对接本地模型[34] - 在GitHub上的star数已超过5万,VS Code安装量突破200万,日活用户超过百万[38] - 种子轮和A轮共募集约3200万美元资金[30] BLACKBOX.AI - 定位为面向大众与企业的商业化AI编程智能体,提供VS Code扩展、网页端与桌面端,是一款完整的商业产品[39][40][41] - 推出Robocoder功能,用户用自然语言描述应用需求,系统可实时生成前端界面和后端逻辑并快速部署[43] - 桌面端和独立IDE提供手动确认和完全自动化两种模式,集成终端、历史记录、Live Preview,并可按小时计费调用GPU加速[44][46] - 官网称用户总数已超过一千万,VS Code扩展安装量达到四百多万,采用订阅制,定价从9.99美元/月到99.99美元/月不等[50][51] - 公司由Richard和Roger Rizk于2021年创立,团队规模180人,年收入约1980万美元[52] Roo Code - 定位为开源的VS Code插件,是一个能够在本地运行、具备跨文件理解和修改能力的AI智能体[53][54] - 核心差异在于开放性和可控性,完全开源,用户可自由修改功能并根据需求接入不同模型[57] - 设计强调跨文件整体理解,支持大规模重构时同步更新多个文件,所有改动和执行均需用户确认[58][59] - 产品完全免费,唯一费用来自调用的模型API,支持离线环境运行以保障代码私密性[61][62][63] - 截至2025年8月,完成累计共640万美元种子轮融资[64] 其他工具与平台分析 liteLLM - 定位为开源库,帮助开发者更轻松地调用大语言模型,统一了对100多种模型的接入方式[65][67] - 核心理念是保持OpenAI API格式的同时兼容超百种不同来源模型,提供费用追踪、备用切换和统一报错信息等能力[69][70] - 对平台团队提供proxy功能,可在组织内部搭建统一LLM网关,便于管理权限、限流规则和合规审计[72] - 属于Y Combinator W23批次,于2025年完成种子轮融资,募集约160万美元[73] 角色扮演与娱乐应用 SillyTavern - 定位为高级玩家打造的本地LLM前端,提供极高自由度,是一个本地安装的用户界面,可与文本生成、图像生成和TTS模型交互[74][75] - 核心特色是“角色卡”功能,预设对话风格和行为模式,支持RAG、图像生成和网页搜索,适合构建沉浸式交互场景[77][78] - 是由Cohee和RossAscends主导的开源社区驱动项目,有200多位贡献者,尚未进行外部VC融资[79] ChubAI - 定位为面向内容创作者、写作和角色扮演爱好者的GenAI平台,凭借高度“定制自由”与“沉浸式体验”脱颖而出[80][82] - 支持多种AI模型,内置丰富角色库,允许用户从零开始设计角色,并支持多角色群聊互动[82][85][86] - 目前是一个主要靠用户订阅付费和产品自身发展驱动的项目[87] HammerAI - 定位为追求自由、隐私与创意表达的用户打造的角色对话与故事生成平台,注重隐私保护,支持本地模式完全离线运行[88][90][92] - 提供无限聊天选项,不强制用户注册,桌面版内置Ollama并可自动识别配置用户GPU,提升推理速度的同时保障隐私[93][95][96][98] Sophia's Lorebary - 定位为JanitorAI等角色扮演工具的扩展系统,提供lorebook(背景书)、scenario(场景)、plugin(插件)管理功能[99][101][102] - 核心在于通过三个维度(lorebooks, scenarios, plugins)让角色互动演变成有记忆、有剧情的沉浸式世界[102][104] - 是一个由核心作者Sophia主导、社区志愿者协作的开源非商业业余项目,无公开融资记录[106] Codebuff - 定位为由终端/CLI工具,用户可直接用自然语言指令完成代码修改、执行命令、编写测试和重构项目[109][110][111] - 具备持续积累和优化上下文的机制,会生成并维护knowledge.md文件以积累项目规则和代码风格,相当于“学会”项目习惯[113] - 更面向高端市场,起始订阅价格为49美元/月,属于Y Combinator F24批次[112][109]
张鹏对谈王蓓、段江:AI 创业,别着急降本增效, 先有 Prosumer 再说
Founder Park· 2025-09-18 17:59
AI时代创业范式变化 - AI时代创业范式与移动互联网时代存在显著差异,从"跑马圈地"转向精挑细选目标用户[2][8][14] - 技术范式变化足够大但尚未出现颠覆性硬件入口,当前更多是软件上的机会[9] - 创业者需要思考如何通过AI实现效率的极大提升,如电商带来上万倍效率提升的类比[15][16] 目标用户策略 - 需要找到prosumer(产消者)作为首批用户,这类用户对技术有理解、忍耐度高且愿意付费[7][9][10] - prosumer介于专业用户和普通用户之间,会进行反向选择,不易通过花钱砸市场获取[9][10] - 随着AI能力提升,产品可逐步拓展到更多普通消费者[10] 投资逻辑与创业者特质 - 投资人选择创业者标准为"既要懂模性,又要懂人性",需理解技术边界与用户需求[21] - 期待看到更多在"人性"和"产品"上有不同见解的创业者出现[7][22] - 技术和模型能力提升使创业门槛降低,非技术背景人才也有创业机会[22][23] 融资策略 - AI创业不一定需要融资,有良好现金流和盈利能力的公司可独立发展[25][27] - Fotor AI案例显示,公司在回购股份后抓住生成式AI机会实现爆发增长,月活达1700万[25][26][27] - 创业者需明确融资目的,而非传统意义上追求最多融资[28] 成本管理 - 大模型推理成本在过去两年下降超过90%,硬件能效提升和技术优化推动成本下降[29] - 当前阶段时间重于成本,应优先使用最好模型能力获取忠实用户[7][32] - 需对用户进行分层管理,针对不同付费意愿地区采取差异化策略[34][35] 产品方向与机会 - 明确应用方向是提升生产力,重点关注工作流相关场景[18][19][41] - 在细分领域深入解决具体问题可建立用户忠诚度,如Notta在日语语音转写市场的成功[40][41] - 视频生成等领域存在巨大效率提升机会,类似电商带来的变革[16] 竞争壁垒构建 - 护城河是综合能力,包括行业认知、产品优化和用户获取等多元维度[11][44][45][46] - 在AI技术不足处发挥传统优势,如图像处理领域十年积累形成的产品护城河[44] - 用户获取能力本身可能成为与AI技术无关的重要竞争壁垒[45] 技术平台选择 - Google等大平台提供世界一流技术能力,最高可达35万美元初创企业信用支持[48][50] - 平台提供版权保护和安全保障,避免法律纠纷[49] - 创业者可借助平台生态实现全球分发、用户获取和商业变现[50]
Cursor 再次调价,Coding 产品的包月模式,真的搞不下去了
Founder Park· 2025-09-18 17:07
AI编程工具定价模式转变 - Cursor取消个人专业版无限量模式,转为按token数量计价的有竞争力价格[2][3][11] - Cursor团队套餐从按请求次数计价改为按可变token数量计价[3][11][16] - Anthropic取消Claude Code每月200美元的无限制套餐[5][25] 具体定价调整对比 - Cursor新定价为输入+缓存写入每百万token收费1.25美元,输出每百万token收费6美元[17] - 竞争对手Grok Code Fast 1定价更优:输入每百万token0.20美元(便宜6.25倍),输出每百万token1.50美元(便宜4倍)[17] - Cursor对团队用户每百万token总量加收0.25美元费用,而Kilo不收取此项加价费[19] 用户体验与控制权变化 - Cursor自动模式会根据成本动态选择AI模型,用户失去对模型选择的控制权[13] - 系统会提供最便宜模型而非用户真正想用的模型,类似Netflix在带宽紧张时自动降低视频画质[14] - 这种变化导致用户花费更多资金却获得更差体验[13] 行业定价模式趋势 - AI服务固定费用订阅制被证明不可持续,模型厂商自身也无法兑现无限量承诺[25][28] - 未来商业模式将向用多少付多少+透明计费方向靠拢[7][31] - 专有计价单位如Kiro的spec requests和vibe requests使用户难以跨平台比较成本[21] 市场反应与行业影响 - 2025年9月15日成为AI编程订阅制标志性事件,多家公司同时调整定价策略[27] - 用户对缺乏提前通知表示不满,公司承认定价方案调整处理不当[24] - 类似定价调整模式已在行业内多次重演,包括6-7月间的Cursor定价风波[22]
具身智能还需要一个「五年耐心」
Founder Park· 2025-09-18 11:04
文章核心观点 - 具身智能行业目前尚处早期,通用机器人特别是人形机器人进入工业产线面临巨大挑战,其核心价值更偏向于引领共识的“情绪价值”[5][9] - 行业有望在未来一到两年内迎来类似大语言模型GPT-3.0时刻的技术突破,但达到可靠、可用的成熟阶段则需要至少五年的耐心[5][11][19] - 突破当前发展瓶颈的关键在于解决数据问题,即通过高精度物理引擎将数据问题转化为算力问题,但最终仍需依赖真实世界数据弥合仿真与现实的差距[12][14][16] 火热的「产线故事」与冰冷的现实 - 当前将尚不成熟的通用人形机器人应用于强调精准和效率的工业产线挑战巨大,本质上是用“通用性”交换“精准性”和“效率”[8][9] - 机器人在受控环境下可做到“运动像人”,但在面对真实世界动态变化时,其“决策像人”的能力仍非常脆弱[8] - 目前通用机器人进入需要将精准、效率、成本合算作为底线的场景挑战巨大,许多落地场景更多是展示性、实验性或为融资服务,而非理性市场化的交易[9] 迈向「GPT-3.0 时刻」的关键 - 行业迈向技术突破阶段的核心瓶颈在于数据,具体表现为现实数据生产规模上不去、成本下不来、多样性不够三大局限[12] - 业内正推动范式转移,通过高精度物理引擎将数据问题转化为算力问题,在仿真环境中自动化生成海量多样化数据,实现从“手工生产”到“数据工厂”的进化[14][15] - 与自动驾驶领域能极低成本获取海量真实数据相比,通用机器人领域的数据获取窘境尤为突出[13] 从「GPT-3.0」到「4.0」的漫长道路 - 仿真数据可高效解决模型从0到90%的能力广度问题,但最后从90%到99.999%的可靠性鸿沟必须靠真实世界数据来填补[16][17] - 具身智能的试错成本与物理世界回环速度远高于纯软件模型,一次错误可能导致财产损失或安全事故,且迭代速度慢数个数量级[18] - 存在“先有硬件部署还是先有成熟智能”的商业悖论,机器人需达到极高可靠性和性价比才能被市场接受以进行大规模部署获取反馈数据[18] - 物理世界的长尾问题复杂性呈指数级上升,其极端案例分布远比文本世界密集和致命,参考自动驾驶在解决99%问题后仍为最后1%挣扎近十年[19] 谁能跑完这场马拉松 - 终局玩家需具备四大要素:世界一流的AI团队、海量的真实世界数据、顶级的工业制造能力、雄厚的资本与坚定信念[20][21][22][23] - 目前最突出的玩家是马斯克,其在AI团队、资本信念、数据闭环和工业制造上已展现世界级统治力和结构性优势[23]
Shopify 经验贴:如何搞出一个生产级别可用的 AI Agent 系统?
Founder Park· 2025-09-17 20:50
架构演进与设计原则 - 系统核心围绕"智能体循环"构建 包括人类输入 LLM处理决策 环境执行和反馈收集的持续循环[5] - 工具库从最初几个函数扩展到几十个专业化功能 导致"千条指令之死"问题 系统提示词变得杂乱无章且难以维护[10][12] - 采用"即时指令"解决方案 在工具数据返回时附带相关指令而非全部塞入系统提示词 实现恰到好处的上下文[14] - 工具数量在0-20个时边界清晰易于调试 20-50个时边界开始模糊 50个以上时系统变得难以理解和推理[15] - 即时指令带来三大关键好处:局部化指导 缓存效率和模块化 使系统更易维护且所有性能指标提升[16][18] 评估系统构建 - 传统软件测试方法难以处理LLM输出的概率性和多步骤智能体行为的复杂性[17] - 放弃精心策划的"黄金"数据集 采用反映真实生产环境数据分布的"基准真相集"[20] - 评估流程包括人工评估 统计验证和基准设定 使用科恩系数 肯德尔等级相关系数和皮尔逊相关系数衡量标注者一致性[22] - 开发专门的大语言模型裁判并与人类判断校准 将裁判性能从科恩系数0.02提升至0.61 接近人类基准0.69[21] - 构建大语言模型驱动的商家模拟器进行全面测试 在部署前重放真实对话以捕捉性能衰退和验证改进[24][28] 模型训练与优化 - 采用群组相对策略优化强化学习方法 使用大语言模型裁判作为奖励信号[31] - 开发N阶段门控奖励系统 结合程序化验证和语义评估[31] - 遇到严重奖励作弊问题 包括退出式作弊 标签式作弊和模式违规[32] - 模型学会创建错误筛选条件如customer_tags CONTAINS 'enabled'而非正确的customer_account_status = 'ENABLED'[33] - 通过更新语法验证器和大语言模型裁判解决作弊问题 语法验证准确率从93%提升至99% 裁判平均相关性从0.66增加到0.75[34][36] 核心建议与最佳实践 - 保持工具简单性 抵制在没有明确边界情况下添加工具的诱惑[37] - 从模块化开始设计 使用即时指令模式以保持系统可理解性[37] - 早期避免多智能体架构 单智能体系统能处理远超预期的复杂性[37] - 构建多个专门的大语言模型裁判来评估智能体性能的不同方面[37] - 将裁判与人类判断对齐 统计相关性是建立自动化评估信任的关键[37] - 预料奖励作弊问题并提前构建检测机制[37] - 结合程序化验证和语义验证以获得稳健的奖励信号[37] - 投资逼真的用户模拟器进行投产前全面测试[37] - 迭代改进裁判以应对新发现的失败模式[37]
两份报告,两种 PMF:ChatGPT 跑通了 Copilot,Claude 验证了 Agent
Founder Park· 2025-09-17 20:50
核心观点 - ChatGPT与Claude用户心智分化明显:ChatGPT定位通用顾问助手(Advisor),Claude侧重任务执行代理(Agent)[4][5][6] - ChatGPT周活跃用户达7亿,覆盖全球10%成年人口;Anthropic首次披露B端企业级应用数据[4][22] - 两家公司代表AGI发展的两条可能路径:通用对话与专项自动化[5][6][18] 用户规模与增长 - ChatGPT用户增长迅猛:5天突破100万用户,1年超1亿,2年近3.5亿,2025年7月周活达7亿[22] - 用户消息量2024年7月至2025年7月增长超5倍[23] - 非工作场景消息占比从2024年6月53%升至2025年6月73%[10][25] 使用场景差异 ChatGPT使用特征 - 核心场景:写作(40%工作相关)、实用指导(24%)、信息寻求(24%)[28][30] - 编程场景占比仅10%,且呈下降趋势[11][28] - 交互模式以对话式为主,用户依赖其生成初稿或答案[18] Claude使用特征 - 自动化任务占比从27%跃升至39%,超越增强协作模式(12%)[42][55] - 编码相关任务占36%,企业API调用中77%为全自动任务[20][54] - 交互模式以指令式为主,用户直接交付专业成果[18] 职业与人口分布 - 高薪职业更倾向工作场景使用:计算机类57%、管理商务50%、工程科学48%[32] - 男性用户占比从初期80%降至2025年6月女性反超,性别差距缩小[34] - 年轻用户(18-25岁)贡献46%消息量,但工作相关占比仅23%;年长用户工作场景使用率更高[40] 地域与经济差异 - 新兴市场(如印度)超50%使用集中于编程单一场景[46] - 成熟市场(如新加坡、以色列)应用扩散至科研、教育等多元知识场景[46] - 高渗透率地区更倾向增强协作模式,低渗透率地区偏好自动化[47] 企业级应用 - Anthropic占企业级LLM市场32%份额,为头部玩家[20] - 企业API任务聚焦高成本领域:计算机数学类任务成本比销售类高50%,但使用频率领先[60][61] - 关键应用场景:软件开发(占API流量50%)、调试Web应用(6%)、构建业务软件(5%)、营销材料创作(4.7%)[51] 技术演进趋势 - Claude 3.7模型能力提升推动用户从协作转向自动化任务执行[12][45] - 企业复杂任务依赖集中式上下文供给,信息分散场景自动化难度高[58] - 多媒体创作在ChatGPT中占比从2%升至7%,2025年4月因图像生成功能显著跃升[30]