Workflow
Founder Park
icon
搜索文档
Shopify 经验贴:如何搞出一个生产级别可用的 AI Agent 系统?
Founder Park· 2025-09-17 20:50
架构演进与设计原则 - 系统核心围绕"智能体循环"构建 包括人类输入 LLM处理决策 环境执行和反馈收集的持续循环[5] - 工具库从最初几个函数扩展到几十个专业化功能 导致"千条指令之死"问题 系统提示词变得杂乱无章且难以维护[10][12] - 采用"即时指令"解决方案 在工具数据返回时附带相关指令而非全部塞入系统提示词 实现恰到好处的上下文[14] - 工具数量在0-20个时边界清晰易于调试 20-50个时边界开始模糊 50个以上时系统变得难以理解和推理[15] - 即时指令带来三大关键好处:局部化指导 缓存效率和模块化 使系统更易维护且所有性能指标提升[16][18] 评估系统构建 - 传统软件测试方法难以处理LLM输出的概率性和多步骤智能体行为的复杂性[17] - 放弃精心策划的"黄金"数据集 采用反映真实生产环境数据分布的"基准真相集"[20] - 评估流程包括人工评估 统计验证和基准设定 使用科恩系数 肯德尔等级相关系数和皮尔逊相关系数衡量标注者一致性[22] - 开发专门的大语言模型裁判并与人类判断校准 将裁判性能从科恩系数0.02提升至0.61 接近人类基准0.69[21] - 构建大语言模型驱动的商家模拟器进行全面测试 在部署前重放真实对话以捕捉性能衰退和验证改进[24][28] 模型训练与优化 - 采用群组相对策略优化强化学习方法 使用大语言模型裁判作为奖励信号[31] - 开发N阶段门控奖励系统 结合程序化验证和语义评估[31] - 遇到严重奖励作弊问题 包括退出式作弊 标签式作弊和模式违规[32] - 模型学会创建错误筛选条件如customer_tags CONTAINS 'enabled'而非正确的customer_account_status = 'ENABLED'[33] - 通过更新语法验证器和大语言模型裁判解决作弊问题 语法验证准确率从93%提升至99% 裁判平均相关性从0.66增加到0.75[34][36] 核心建议与最佳实践 - 保持工具简单性 抵制在没有明确边界情况下添加工具的诱惑[37] - 从模块化开始设计 使用即时指令模式以保持系统可理解性[37] - 早期避免多智能体架构 单智能体系统能处理远超预期的复杂性[37] - 构建多个专门的大语言模型裁判来评估智能体性能的不同方面[37] - 将裁判与人类判断对齐 统计相关性是建立自动化评估信任的关键[37] - 预料奖励作弊问题并提前构建检测机制[37] - 结合程序化验证和语义验证以获得稳健的奖励信号[37] - 投资逼真的用户模拟器进行投产前全面测试[37] - 迭代改进裁判以应对新发现的失败模式[37]
两份报告,两种 PMF:ChatGPT 跑通了 Copilot,Claude 验证了 Agent
Founder Park· 2025-09-17 20:50
核心观点 - ChatGPT与Claude用户心智分化明显:ChatGPT定位通用顾问助手(Advisor),Claude侧重任务执行代理(Agent)[4][5][6] - ChatGPT周活跃用户达7亿,覆盖全球10%成年人口;Anthropic首次披露B端企业级应用数据[4][22] - 两家公司代表AGI发展的两条可能路径:通用对话与专项自动化[5][6][18] 用户规模与增长 - ChatGPT用户增长迅猛:5天突破100万用户,1年超1亿,2年近3.5亿,2025年7月周活达7亿[22] - 用户消息量2024年7月至2025年7月增长超5倍[23] - 非工作场景消息占比从2024年6月53%升至2025年6月73%[10][25] 使用场景差异 ChatGPT使用特征 - 核心场景:写作(40%工作相关)、实用指导(24%)、信息寻求(24%)[28][30] - 编程场景占比仅10%,且呈下降趋势[11][28] - 交互模式以对话式为主,用户依赖其生成初稿或答案[18] Claude使用特征 - 自动化任务占比从27%跃升至39%,超越增强协作模式(12%)[42][55] - 编码相关任务占36%,企业API调用中77%为全自动任务[20][54] - 交互模式以指令式为主,用户直接交付专业成果[18] 职业与人口分布 - 高薪职业更倾向工作场景使用:计算机类57%、管理商务50%、工程科学48%[32] - 男性用户占比从初期80%降至2025年6月女性反超,性别差距缩小[34] - 年轻用户(18-25岁)贡献46%消息量,但工作相关占比仅23%;年长用户工作场景使用率更高[40] 地域与经济差异 - 新兴市场(如印度)超50%使用集中于编程单一场景[46] - 成熟市场(如新加坡、以色列)应用扩散至科研、教育等多元知识场景[46] - 高渗透率地区更倾向增强协作模式,低渗透率地区偏好自动化[47] 企业级应用 - Anthropic占企业级LLM市场32%份额,为头部玩家[20] - 企业API任务聚焦高成本领域:计算机数学类任务成本比销售类高50%,但使用频率领先[60][61] - 关键应用场景:软件开发(占API流量50%)、调试Web应用(6%)、构建业务软件(5%)、营销材料创作(4.7%)[51] 技术演进趋势 - Claude 3.7模型能力提升推动用户从协作转向自动化任务执行[12][45] - 企业复杂任务依赖集中式上下文供给,信息分散场景自动化难度高[58] - 多媒体创作在ChatGPT中占比从2%升至7%,2025年4月因图像生成功能显著跃升[30]
Forbes 报道:2.5 亿美元年化收入,硬件销量超百万,Plaud 是怎么赚钱的?
Founder Park· 2025-09-17 13:40
公司财务表现 - 年化收入即将达到2.5亿美元 [4][6] - 公司已经实现盈利,利润率与苹果iPhone的25%水平相当 [6] - 约半数收入来自年度AI订阅服务 [13] - 产品售价为159美元,年度转录服务起价为99美元 [6] 产品与技术 - 最新产品Note Pro在原有基础上升级,配备更大电池和0.95英寸微型屏幕,录音时间更长 [2] - NotePin设备单次充电可录制长达20小时音频,能将录音转化为可搜索文本 [4] - 自2023年推出以来,已售出超过100万台设备 [4] - 产品通过自有软件及ChatGPT等AI工具实现录音转录和总结功能 [4] 市场定位与竞争环境 - 公司专注于商务会议场景,定位为专业工具而非个人偷录设备 [6][11] - 核心用户群体为医生、律师、销售人员等需要频繁开会的职业人群 [10] - 公司采用"深圳硬件+硅谷AI"的运营模式,市场重心完全放在海外 [8][10] - 行业竞争加剧,投资者已向该领域投入近3.5亿美元,新兴公司如Omi和Limitless正在推出可穿戴设备 [5] 商业模式演变 - 从硬件销售转向"硬件+订阅"服务商业模式 [9] - 通过收购旧金山小型初创公司加速进军医疗健康领域 [10] - 公司发展未依赖风险资本,通过自筹资金和100万美元众筹活动启动 [6] 行业趋势与前景 - 科技行业观念转变,AI笔记工具已成为电话会议中常见"参与者" [5] - 创始人预测未来十年每个人都将拥有一款可穿戴AI设备,比智能手机更普及 [7] - 真正具有突破性的新一代AI设备可能由苹果或微软推出,但预计还需要数年时间 [15]
RTE 开发者社区 Demo Day、S 创上海科创大会,近期优质 AI 活动都在这里
Founder Park· 2025-09-16 21:22
AI行业活动概览 - 硅星人与中关村科学城公司及中关村创业大街联合主办ACC 2025 AI创造者嘉年华 活动时间为2025年9月17日至21日 地点设于中关村创业大街 [4] - 活动包含主街区舞台表演 围炉对谈及落日辩论等环节 汇聚20余家社区 50余家企业及百家媒体共建实践剧场 [4] - 设置60余个展位集市与AI人才角 面向AI Builder群体开放报名 [5] 语音AI专项活动 - RTE开发者社区于9月22日在上海西岸数字谷举办Voice Agent Camp 展示17个语音AI项目 [5] - 演示项目覆盖AI语音客服 AI陪伴 AI调研访谈及智能硬件等多元场景 面向语音AI从业者与实时多模态AI创业者 [5] 科技创新峰会 - Slush China于2025年9月23日至24日在上海西岸艺术中心主办S创上海2025 设立六大舞台涵盖绿色科技 健康医疗等领域 [6] - 活动包含路演大赛与乐队演出 面向初创企业团队及关注AI与云计算投资的行业研究者 [6] 云栖大会AI主题展 - 阿里云与Founder Park合作 于9月24日至26日在杭州云栖小镇会展中心设立Z世代创新者专属展区 [6][7] - 展区将集中呈现50位Z世代创新者的AI作品 预计吸引全球6万名参会者 [7]
2 亿美元 ARR,AI 语音赛道最会赚钱的公司,ElevenLabs 如何做到快速增长?
Founder Park· 2025-09-16 21:22
估值 66 亿美元,首个 1 亿美元 ARR 耗时 20 个月,而第二个 1 亿美元 ARR 仅用 10 个月。 AI 音频独角兽 ElevenLabs 可以说是欧洲发展速度最快的 AI 创企。 随着语音模态正在成为人与技术交互的重要接口,AI 语音赛道的竞争也尤为激烈,Murf.ai、Play.ht、 WellSaid Labs......尤其是在 OpenAI、Google、微软这些科技巨头的围攻下,ElevenLabs 能够「跑」出来 十分艰难。在初期融资阶段,ElevenLabs 几乎被所有接触的投资人拒绝;在验证市场需求时,挨个给 YouTuber 发了几千封邀请邮件,得到的肯定回复寥寥无几。 ElevenLabs 是如何从一家「小公司」快速成长为 AI 语音领域独角兽的?ElevenLabs 的 CEO Mati Staniszewski 在一场播客对谈中,回顾了其创业历程以及心得经验: 超 13000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。 邀请从业者、开发人员和创业者,飞书扫码加群: 当技术研发到一定阶段,最终都会走向商品化,仅靠研发优势是不够的,必须要靠产品力。11 ...
OpenAI发布GPT-5-Codex:独立编码7小时,能动态调整资源,token消耗更少
Founder Park· 2025-09-16 11:24
产品发布与定位 - OpenAI发布专用于编程任务的新模型GPT-5-Codex,属于GPT-5的特殊版本,专为智能体编程重新设计 [3][4] - 该模型具备双模特长,不仅响应速度快且可靠性高,小任务几乎即时响应,大任务可持续执行数小时 [5][6] - 内部测试显示可连续7小时完成大规模重构任务 [7] 性能表现与效率提升 - 在SWE-bench验证和代码重构任务上,GPT-5-Codex准确率达51.3%,显著超过GPT-5-high的33.9% [9][10] - 后10%用户请求中token消耗量比GPT-5减少93.7%,前10%高复杂度请求中思考耗时达到两倍 [12][13] - 代码审查能力增强,不正确评论从13.7%降至4.4%,高影响力评论从39.4%提升至52.4%,平均每个PR评论数从1.32降至0.93 [16][18] 技术架构与设计理念 - 模型采用动态调整资源机制,根据不同任务复杂度自适应分配计算资源 [9][12] - 提出"Harness"概念,强调模型与外部环境(工具、IDE、终端等)的集成框架重要性,确保模型可执行实际任务 [23][28][34] - 延迟控制低于1.5秒,支持多模式交互包括终端、IDE编辑、GitHub及Cursor集成 [30][32] 内部工具与生态建设 - 内部孵化工具包括10x(终端异步执行工具)、Agents.md(项目环境说明文件)和Code Review Agent(PR审查工具) [36][37][39][40] - Code Review Agent在内部试点中实现数十个PR审查且几乎零bug发布 [41][42] - 编程智能体市场竞品包括Cursor、Claude Code CLI、Gemini CLI及国内腾讯CodeBuddy、阿里Qwen3-Coder、字节TRAE等 [50][51][52] 行业趋势与战略方向 - 编程领域正向"AI写大部分代码+人类监督架构"模式演进,开发者角色转向战略设计与创意指挥 [43][44] - 2025年被视为智能体之年,编程智能体成为行业竞争焦点,国内外厂商均加速布局同类产品 [49][53] - OpenAI通过GPT-5-Codex正式加入编程智能体市场竞争,但面临Cursor、Claude Code等已建立认知的产品挑战 [45][54]
张小珺对话OpenAI姚顺雨:生成新世界的系统
Founder Park· 2025-09-15 13:59
文章核心观点 - 语言是人类实现泛化的核心工具,是构建通用人工智能系统的最本质要素 [4][7][77] - AI Agent发展已进入下半场,重点从模型训练转向任务定义和环境设计 [5][62][63] - 创业公司最大机会在于设计新型人机交互界面,而非重复ChatGPT模式 [110][112][113] - 未来AI生态将呈现既单极又多元格局,由不同超级应用共同定义智能边界 [5][146][154] 姚顺雨背景与研究历程 - 清华姚班本科、普林斯顿博士,2019-2024年在普林斯顿攻读博士学位 [13] - 2016年接触多模态嵌入技术后转向深度学习,2018年系统性开始深度学习研究 [14][15] - 博士期间从计算机视觉转向语言模型研究,因认为语言是实现AGI的更核心方向 [15] - 专注Language Agent研究6年,2024年加入OpenAI [4][19] AI Agent技术演进 - 技术发展三阶段:符号主义AI(规则系统)→深度强化学习(环境特定)→大语言模型(泛化推理)[40][41][43] - 语言智能体与传统Agent本质区别在于具备推理能力从而实现泛化 [36][38][39] - ReAct框架成为最通用方案,实现推理与行动的协同 [26][50] - 代码环境是数字智能体最重要的"手",提供天然机器表达形式 [53][54][55] 任务与环境设计 - 当前瓶颈从方法创新转向任务定义和环境设计 [62][63] - 优秀任务需具备:结果导向奖励机制、基于规则的白盒评估、可解释性 [64][66][71] - 任务分类标准:可靠性需求型(如客服)vs创造力需求型(如证明猜想)[70][72] - 评估指标需区分Pass@k(多次尝试成功率)和Pass^k(每次成功率)[74] 产业发展与创业机会 - 模型能力溢出为创业公司创造机会,关键在于设计新型交互界面 [110][112] - 成功案例包括Cursor(编程副驾驶)、Manus(通用交互)、Perplexity(研究型搜索)[117][127][129] - 数据飞轮形成需三个条件:自主训练能力、清晰奖励信号、数据好坏分离 [123][124] - 成本不是核心瓶颈,真正关键在于找到价值超过成本的应用场景 [139][141] 未来生态展望 - OpenAI五级能力划分:聊天机器人→推理者→智能体→创新者→组织者 [44][45] - 未来12-24个月趋势:Chatbot系统自然演进为Agent系统,新型Copilot应用涌现 [165][166] - 记忆系统(Memory)将成为核心竞争壁垒,特别是上下文管理能力 [51][158][159] - 最终生态将由多个超级应用共同定义,呈现中心化与分布式并存格局 [146][152][154]
RAG 的概念很糟糕,让大家忽略了应用构建中最关键的问题
Founder Park· 2025-09-14 12:43
文章核心观点 - Chroma创始人Jeff Huber批判RAG概念 认为其将检索、生成、结合硬性拼接导致概念混淆 且市场过度简化RAG为向量搜索[5][6][7] - 提出Context Engineering是AI应用构建的核心 通过动态管理上下文窗口内容提升模型性能[4][7][8] - 指出LLM存在Context Rot现象:随着Token数量增加 模型注意力分散且推理能力下降[5][8][13] - 强调未来检索系统将向持续检索和Embedding空间内操作演进[5][41][48] Context Engineering定义与价值 - Context Engineering属于AI工程学子领域 核心任务是在每一步生成时动态决定上下文窗口内容[7] - 包含内外双循环机制:内循环单次生成选择内容 外循环随时间积累优化信息选择策略[7] - 被视作头部AI初创公司核心能力 在聊天、文档等静态场景中尤为重要[4][9] - 与Agent概念存在交叉但无需刻意区分 因Agent定义尚不明确[9][10][12] RAG概念批判 - RAG本质仅为检索 其概念包装导致开发者困惑[5][6][7] - 市场对RAG存在误解 简化为单一向量搜索操作[5][7] - Chroma团队主动避免使用RAG术语[6] Context Rot现象分析 - LLM性能随Token数量增加而衰减 模型遵循指令能力下降[8][13][16] - 在SWE-Bench等多轮交互数据集中发现Token膨胀导致指令遗漏[13] - 实验室常选择性宣传基准测试结果 回避模型缺陷披露[14][15] - 不同模型衰减程度差异显著:Sonnet 4表现最佳 Qwen3次之 GPT-4.1和Gemini Flash衰减更快[16] Context Engineering技术实践 - 当前主流做法仍将全部内容塞入上下文窗口[23] - 采用两阶段检索优化:首阶段通过向量/全文/元数据过滤将候选从数万缩减至数百 第二阶段用大模型重排选出最终30个片段[25] - 重排成本极低:100万输入Token成本约0.01美元 因使用轻量模型[25] - 大模型重排将成趋势 专用重排模型可能边缘化[26][27] 多工具协同检索 - 索引本质是写入性能与查询性能的权衡[29] - 代码搜索中85%-90%查询适用正则表达式 Embedding可额外提升5%-15%效果[37][38] - Chroma原生支持正则搜索并优化大数据量性能 新增forking功能实现毫秒级索引复制[30][31] - 工具选择取决于用户熟悉度:已知名称时全文搜索高效 语义模糊时需Embedding匹配[34][35][36] 未来检索系统演进 - 检索将持续停留在潜在空间 避免返回自然语言[40][41] - 从"检索-生成"单次交互转向生成过程实时检索[41] - 需解决技术约束:检索器冻结或语言模型无法更新导致体验差[42] - GPU内存分页等硬件优化是5-10年方向[48] 记忆与Context Engineering关联 - 记忆本质是Context Engineering的结果 核心是将合适信息放入上下文窗口[50][53] - 生成式记忆与提示式记忆依赖相同数据源和反馈信号[53] - 避免过度类比人类记忆类型 强调压缩技术实用性[56][58][59] - 离线处理与再索引有价值 可通过后台计算优化系统[59][61] 生成式基准测试方法论 - 构建黄金数据集(查询-片段对)可量化评估检索策略[61][62] - 大模型可自动生成查询-片段对 解决人工标注不一致问题[63] - 小规模高质量数据集(数百条)即产生高回报 无需百万级数据[64][65] - 建议团队通过标注派对快速构建基准数据[65][66] Chroma产品定位 - 核心为解决AI应用从Demo到生产的工程化难题[69][70] - 定位为现代AI搜索基础设施 专注检索引擎构建[72][74] - 云产品采用无服务器架构 实现30秒建库、按实际使用量计费[82][83][84][86] - 免费额度支持10万文档导入和10万次查询[86][87] 搜索系统特性演进 - 现代性体现在分布式架构:读写分离、存储计算分离、Rust编写、租户模式[74] - AI搜索四维差异:工具技术、工作负载、开发者群体、结果消费群体[76] - 语言模型可消化数量级多于人类的信息 直接影响系统设计[76] 创业理念与设计哲学 - 创业需聚焦热爱领域 与优秀团队服务目标客户[90] - 设计体现文化一致性 创始人需作为品味把关人防止品牌分裂[98][99][100] - 信奉"做事方式即一切方式"原则 保持全环节体验统一[98][99]
下周二:Agent 搭建好了,来学学怎么极限控制成本
Founder Park· 2025-09-14 12:43
AI Agent成本控制挑战 - AI Agent产品开发上线后面临高额Token消耗成本 单次对话交互可能消耗数万甚至数十万Token [2] Cloud Run解决方案优势 - 无服务器平台Cloud Run可根据请求量实现自动伸缩 在无流量时实现零成本运行 [3] - 平台能在几秒内从零实例扩展到数百上千实例 响应实时请求量变化 [7][9] - 通过"无请求即零成本"模型可将AI Agent运行成本降至为零 [7][9] 技术分享会内容 - Google Cloud专家将分享Cloud Run开发技巧和极致成本控制方法 [4] - 通过真实场景模拟演示请求量 实例数和响应延迟的变化 展示平台伸缩能力 [9] - 分享会面向AI初创企业 出海企业技术负责人 AI产品经理及开发者群体 [9] 行业应用案例 - 会议笔记产品Granola通过简化产品设计获得市场成功 [10] - 无法律背景创业者通过调研100位律师创建估值7亿美元AI法律公司 [10] - Sensor Tower报告显示AI应用用户以年轻男性为主导 垂类应用面临颠覆压力 [10]
数据、IP、境外实体,到底先抓谁?一文讲清 AI 出海合规全流程
Founder Park· 2025-09-12 18:06
产品出海,找到 PMF 之后,下一步就是解决合规和法律问题。 合规的事情,说起来复杂,做起来,也复杂。 数据、知识产权、实体公司、招聘、税务、交易框架、地缘政治…… 听起来就头大。 我们特别邀请到了两位企业出海方面的资深律师,以及 AI 法律类产品的创业者,聊了聊当下科技公 司、AI 创企「出海」面临的合规风险、典型案例及应对方法。 在进行了一些脱敏处理后,Founder Park 整理了本次沉淀内容,很实在的内容,建议收藏。 嘉宾介绍: 超 13000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。 邀请从业者、开发人员和创业者,飞书扫码加群: 李慧君,北京嘉润律师事务所高级合伙人 李然,北京嘉润律师事务所律师 杨帆,WiseLaw 智法数科首席增长官 进群后,你有机会得到: 01 比如,你要在当地聘请当地员工,是否需要有当地实体?或者外派中国员工出去,有没有要求说聘请一 个中国员工就必须按一比一的配比雇佣当地员工?其实每个国家背后的理念是相似的:不仅希望你有个 名头去投资做生意,更希望你的投资能实实在在地造福于他的就业市场或消费者群体,带来新的就业机 会。 产品出海前, 必须要考虑的「四部 ...