Workflow
海外独角兽
icon
搜索文档
Palantir 创始工程师深度分享:FDE 模式是 Agent 时代的 PMF 范式
海外独角兽· 2025-10-14 20:08
FDE模式的核心定义与价值 - FDE是前沿部署工程师,作为技术人员驻扎客户现场,填补产品功能与客户需求之间的差距,目标是为客户交付有价值的结果而非单纯软件或服务[6] - FDE本质上是站在企业内部进行产品探索的过程,以规模化方式去做那些不易规模化的事,因此通用底层产品同样重要[3] - FDE模式与咨询或on-prem不同,它通过可扩展方式为每个客户定制解决方案,同时依托通用平台实现规模化复用[3] FDE模式的起源与Palantir实践 - Palantir因早期为情报部门搭建系统时无法直接接触用户而发明FDE模式,通过展示demo收集反馈并现场定制解决方案[7] - FDE模式由早期成员Shyam Sankar提出,将产品做成高度可定制平台,派驻员工现场理解用户并做本地化改造[8] - FDE团队分为Echo团队和Delta团队:Echo作为嵌入式分析师负责客户关系和需求挖掘,Delta作为部署工程师快速编写代码落地解决方案[10][11] - FDE模式使合同规模随时间推移越来越大,利润率从负转正,实现可重复价值交付[18] FDE团队的人才画像与组织建设 - Echo团队需要领域专家和"反叛者"特质,能识别现有工作方式不足并推动阶跃式变化[13] - Delta团队需要擅长快速原型开发的人才,注重在规定时间内交付可用成果而非代码完美性[13][14] - FDE培训实质是创业公司创始人培训,Palantir校友已创办或掌管350多家科技公司,其中至少十多家达独角兽级别[14][15] - 最成功的FDE模式创业公司通常由Palantir背景人员运营,因FDE运作机制与标准软件公司有显著差异[29] FDE模式与产品平台的协同 - 产品团队需把握产品愿景,将现场做法抽象为可服务多客户的通用功能,避免过度特化[19] - Palantir Ontology平台通过高度通用数据库模式支持定制化,仅保留对象、属性、媒体和链接等基础元素[20][22] - 产品人员需在更高抽象层思考,使专用功能能跨客户复用,例如构建对所有拥有某种属性对象都适用的通用操作[23] - FDE模式中产品应为现场交付成果提供杠杆,且产品杠杆数量应随时间增加[34] FDE模式在AI Agent时代的应用 - AI Agent领域缺乏现成标准化产品,需大量产品探索工作,且只能从企业内部实践出发,这恰好契合FDE模式特点[3][27] - FDE模式在AI时代可能成为创业公司新的组织范式和PMF模式,因AI能力进展快但采用速度慢,需方法论填补差距[24][42] - AI领域存在巨大异质性,需将市场视为不同细分市场,为每个细分市场开发新技术并可跨市场引用[25][26] - FDE模式销售基于成果而非软件安装,定价复杂且合同规模逐步扩大,与标准SaaS模式形成鲜明对比[29][33] FDE模式的操作策略与衡量标准 - FDE模式需聚焦解决客户CEO前五大优先问题之一,以获得高层支持绕过组织内阻碍[9][31] - 关键衡量指标是合同规模或交付成果的价值,而非每个客户的定制工作量[33] - Demo驱动开发在FDE语境中效果显著,通过展示流程创造客户渴望,迫使产品功能协同工作[36][37] - FDE模式要求公司成为学习型组织,持续在客户需求多维空间中进行梯度上升[38]
AGI 路线图第二阶段:游戏即模型训练|AGIX PM Notes
海外独角兽· 2025-10-13 20:04
AGIX指数定位与愿景 - AGIX指数旨在捕获AGI(通用人工智能)时代的beta和alpha收益,定位为衡量AGI科技范式的重要指标,类比于互联网时代的Nasdaq100指数[2] - AGI被视为未来20年最重要的科技范式转换,将重塑人类社会运行方式[2] - 「AGIX PM Notes」系列旨在记录对AGI进程的思考,与AGIX builders共同参与技术革命[2] 指数表现概览 - AGIX指数本周下跌1.51%,但年初至今上涨30.67%,自2024年以来累计上涨91.04%[5] - AGIX指数表现显著优于主要市场指数:标普500本周跌2.79% YTD涨11.41%,纳斯达克100本周跌3.00% YTD涨15.31%,道琼斯本周跌2.60% YTD涨6.90%[5] - 指数内部板块表现分化:半导体与硬件板块本周下跌1.99%权重24.34%,基础设施板块本周上涨0.28%权重40.32%,应用板块本周上涨0.20%权重30.28%[6] AI发展路线图与游戏训练价值 - AI落地路线图目前仅进展到第一阶段"AI for Productivity",AI作为生产力工具在编程、写作、文档生成等领域应用[10] - 第二阶段定义为"Gaming as Training",游戏环境为AI训练提供理想场景:可操作环境支持高频低成本试错、明确规则破除视频压缩率问题、支持人类参与互动[10][11] - 游戏产品化可能实现游戏即训练,收集人机互动协作数据,超越当前聊天机器人初级形态[10] Dreamer系列研究突破 - Dreamer v1(2019年)首次让agent在隐状态空间进行"想象",通过模型预测未来规划行为,被视为通用AI潜在路径[12] - Dreamer v2扩展到Atari环境,用纯世界模型方式达到人类水平[12] - Dreamer v3实现泛化性能突破,在Minecraft中自主完成收集钻石任务,为跨领域学习奠定基础[13] - Dreamer v4仅用未经标注离线视频数据集获取知识,数据量比OpenAI video pretraining少100倍但性能大幅提升,单块H100 GPU可实现实时推理[14] 多模态数据与应用前景 - Dreamer方法可能开启多模态原始数据训练通用agent新范式,通过任务目标重构多模态数据焦点[15] - 类似方法可应用于Computer Use等场景,利用大量电脑使用数据集和稀疏奖励标注训练大型模型[15] - 该方法使在数百万不同场景训练机器人成为可能,无需处理现实世界机器人损坏问题[15] 对冲基金资金流向与市场动态 - 对冲基金持续增持全球股票,资金从新兴市场转向发达市场,北美和日本表现突出[15] - 北美市场买盘由TMT板块带动,剔除TMT后呈净卖出,AI半导体净敞口位于100百分位高点,软件仅处2020年以来第12百分位[16] - 对冲基金回补热门零售股空头头寸,该指数自8月初累计上涨约38%[17] - 日本市场买入力度居全球之首,与年初至今最大单周买盘规模持平[17] 主要AI公司动态 - Nvidia获美国批准向阿联酋出口价值数十亿美元AI芯片,股价创历史新高[18] - Google推出Gemini Enterprise对标Microsoft,标准版与Plus版每位用户每月30美元,Business版21美元[19][20] - Tesla因手部与手臂设计问题暂停Optimus机器人量产,涉及电机过热、抓握力不足等技术瓶颈[21] - Amazon推出新版AI代理工具"Quick Suite",挑战ChatGPT与Copilot[21] 企业服务与医疗AI进展 - Salesforce推出Agentforce IT Service挑战ServiceNow,采用多Agent系统分析历史工单实现预测性服务[22] - Tempus入选ARPA-H ADAPT项目,提供CRO与测试服务推进精准癌症治疗[23] - CoreWeave推出Serverless RL平台,训练速度提升约1.4倍,成本较本地H100环境降低约40%[24] 个股评级与目标价调整 - Roblox评级从"卖出"上调至"中性",过去一年股价涨幅超200%,近六个月涨120%,市值873亿美元[24] - Bernstein将Datadog目标价从147美元上调至170美元,维持"跑赢大盘"评级[25] ETF复制机制解析 - ETF复制指数方式影响成本、跟踪误差和风险特性,主要分为物理复制和合成复制两大类[25][26] - 物理复制包括完全复制和抽样/优化复制,合成复制通过掉期合约获得指数表现[26] - 完全复制理论上跟踪误差最低但成本较高,合成复制在特定资产类别可能降低成本但存在对手方信用风险[28] - 极端市场环境下,不同复制方式表现差异显著,需综合费用、流动性等多因素考量[29]
深度讨论 Online Learning :99 条思考读懂 LLM 下一个核心范式|Best Ideas
海外独角兽· 2025-09-30 20:06
Online Learning的战略意义 - Online Learning被视为通往L4+级别智能和AGI的关键路径,其长期预期是让模型在长程任务上出现新的scaling law,从而实现智能水平的极大提升[4][5] - 该技术范式的核心在于推动模型突破现有人类知识上限,通过自我探索(self-exploration)和自我奖励(self-rewarding)实现自主知识生成,避免在人类知识内循环[5] - Online Learning代表了一种新的交互和推理形式,能够动态迭代整个AI系统智能,在实现极致个性化的同时推动模型能力持续进化[4][16] 概念定义与技术路径 - 当前对Online Learning的定义存在非共识,主要可拆分为两类:目标与手段明确的Lifelong Learning,以及目标明确但手段不清晰的Meta Online Learning[9][10] - 技术路径上存在两条不完全重合的路线:直接通过RL和环境交互实现Lifelong Learning,或先做好Meta Learning再实现Lifelong Learning,后者可能提供更高上限[11][12] - Online Learning不同于Online RL,更强调模型在test-time具备学习能力,且实现方法不一定通过training,凡能让系统在交互中改变未来行为的机制都可称为Online Learning[13][14] 实践案例与瓶颈分析 - Cursor的代码补全模型训练可能是Online Learning的现实实践,团队每2小时迭代更新模型,直接使用真实用户反馈而非专门训练reward model[6][8] - 核心瓶颈在于Reward信号获取和模型in-context learning能力不足,简单场景如代码补全Reward明确易获取,而复杂场景如多步Agent任务Reward稀疏难定义[23][24] - Online Learning非常依赖从环境或用户交互中提取reward,但现实中许多任务缺乏清晰reward信号,未来发展方向应是让模型具备自我生成reward的能力[25] 实现机制与技术架构 - Online Learning可通过两种机制实现:in-context learning(fast weight)和in-weights learning(slow weight),前者支持快速适应,后者提供持久记忆[26][27] - 架构上需要设计能持续收集新数据并影响输出的体系,确保策略能随新数据不断优化,同时模型需具备数据筛选能力以提升学习效率[29][30] - Memory是Online Learning的重要组成部分,即使模型参数不变,记忆积累也能改变策略,未来需发展自主context engineering和记忆管理能力[32][33] 行业应用与评估范式 - Coding等高反馈、任务明确领域可能率先展现Online Learning雏形,因反馈明确、信息密度高、数据获取成本低且环境高度可控[18] - 推荐系统已实现分钟级更新,但非端到端架构限制学习效率,端到端生成式推荐系统才可能让Online Learning真正发挥作用[36][37] - 评估范式需变化,关键指标是性能提升斜率而非最终分数,可通过"新游戏"测试模型在全新环境中的即时学习过程[45][46]
经验时代的 Scaling Law|AGIX PM Notes
海外独角兽· 2025-09-29 20:03
AGIX指数定位与表现 - AGIX指数旨在衡量通用人工智能(AGI)这一未来20年最重要的科技范式转换,定位类似于互联网时代的纳斯达克100指数[2] - 截至统计时,AGIX指数年初至今上涨27.70%,自2024年以来累计上涨86.70%,显著跑赢标普500指数(上涨12.96%和39.29%)和纳斯达克100指数(上涨16.58%和45.53%)[5] - 指数权重构成中,基础设施板块占比最高达39.99%,应用板块占比31.27%,半导体及硬件板块占比23.67%[6] AI技术范式演进 - 当前大语言模型(LLM)存在范式缺陷,主要问题在于缺乏目标驱动能力和实际体验学习能力,无法从连续互动中自主理解世界[10] - 视频模型可能成为重要过渡路径,如Veo 3模型展示出零样本学习能力,通过预测像素序列学习物理和因果规律,具备类似思维链(CoT)的帧序列链(CoF)能力[11] - 生成式视频模型本质上是视觉模拟器,能够预测动作带来的画面变化,为机器人提供视觉直觉,类似人类心理模拟的想象过程[12] - Pieter Abbeel的Daydreamer研究表明,通过"想象"模型算法,四足机器人仅用1小时就学会从仰躺到行走,被推倒后10分钟内学会翻身[12] 资本市场动态 - 北美市场出现动能反转,对冲基金降低方向性风险,全球股票出现净卖出,主要集中在北美和亚洲(日本除外)市场[13] - 美国多空基金净杠杆从59%的高位降至53%,但总杠杆上升至216%,接近近十年高位[14] - 亚洲基金表现领先,月度至今上涨3.2%,而美洲基金面临较大挑战,欧洲基金表现坚挺[15] 行业重要进展 - Oracle将参与TikTok美国业务投资,预计持有约50%股份,并负责开发管理新版TikTok算法,作为安全中介[15][16] - Instagram月活跃用户达到30亿里程碑,较2022年披露的20亿用户增长显著,Reels短视频功能是增长关键驱动力[16] - OpenAI、Oracle和SoftBank将投资5000亿美元新建五座AI数据中心,推进Stargate项目,总容量目标为10吉瓦[17][18] - Marvell Technology CEO表示公司定制芯片业务明年营收无缺口,预计下财年数据中心业务增长率为18%[19] - Cloudflare推出与美元挂钩的稳定币NET Dollar,旨在支持AI驱动互联网的新商业模式[20] - OpenAI在ChatGPT中推出Pulse功能,可在用户睡眠时生成5-10条个性化资讯摘要[21] ETF跟踪误差分析 - 跟踪误差衡量ETF回报与指数回报差异的波动性,是标准差层面的度量,不同于简单的累计收益差异(跟踪差异)[22] - 影响跟踪误差的主要因素包括管理费用、交易成本、现金头寸拖累、抽样误差、估值方法差异等[23][24] - 对于被动型指数ETF,较低的跟踪误差意味着更稳定的指数复制能力,但需结合费用、规模、流动性等指标综合评估[25][27] - 不同类型ETF的跟踪误差水平差异较大,大盘指数ETF可能仅几个基点,而新兴市场或债券ETF可能高达1%以上[26][29]
深度讨论 Pulse:OpenAI 超越 Google之路的开始 |Best Ideas
海外独角兽· 2025-09-28 21:15
文章核心观点 - OpenAI发布的ChatGPT Pulse功能将LLM交互从被动转变为主动,基于用户个性化上下文主动推送内容和建议,为ChatGPT提供了新的想象空间,并可能使其成为国民级应用 [3][4] - Pulse功能通过降低使用门槛、提升用户粘性、构建数据飞轮效应,有望显著提高ChatGPT的日活跃用户,并可能在未来1-2年内推动电商广告业务的进展 [5][7][9] - 该功能代表了AI Agent交互的未来形态,即从单纯工具转变为全天候个性化助手,并可能引发算力需求、推荐系统范式、硬件控制权等多个层面的行业变革 [11][12][18][22] Pulse是ChatGPT走向国民应用的开始 - Pulse让ChatGPT从被动变为主动,通过读取用户邮箱、日历、消息等数据主动处理事务,大幅降低使用门槛 [4] - 主动推送能力使ChatGPT有机会成为微信级别的国民应用,DAU/MAU比例可能从当前的30%-40%提升至接近1:1 [7] - 吉卜力风格AI绘画曾为零营销预算的ChatGPT带来约1亿新增用户,显示击中情感的内容能极大加速普及 [7] - 用户授权同步Gmail、工作邮箱、账单、健康记录后,ChatGPT可管理这些信息,数据积累提升产品效果和用户迁移成本 [8] - ChatGPT日活可能已超过4亿,按当前增速很快达到5-6亿,OpenAI可能提前实现10亿日活目标 [10] - OpenAI从创立之初就定位为to C公司,目前to C属性明显强于to B的API业务 [10] 主动Agent与极致个性化 - Pulse功能可自然融入日常生活,如早晨查看天气时同时查看Pulse整理的待办事项,成为场景化的第二大脑界面 [11] - 利用大模型理解个人上下文和各种数据,Agent在后台分析用户一万小时微信后可能比用户更了解自己 [11] - 未来可能出现个性化模型,即每个人拥有自己的模型,而不仅仅是上下文不同 [12] - Pulse底层需求是让用户从提问转变为日常交流,使ChatGPT成为全天候AI助手,通过鼓励提供信息完善用户记忆 [12] - Pulse是OpenAI的第二个数据飞轮,第一个数据飞轮Memory功能已建立壁垒 [13] - 信息推送需结合记忆和上下文延续性,否则易沦为“今日头条2.0”,只有具备记忆能力才能演化为懂用户的贴身助手 [13] 竞争格局与市场机会 - Pulse产品形态在国内可能是微信的单一大机会,因其掌握用户几乎所有信息,而海外创业公司机会更多 [15] - 今日头条在内容和用户行为数据方面有优势,今年已推出AI内容订阅,Google因打通邮件、Workspace等账号也容易复制Pulse [15] - Pulse类产品头部效应强,需要高密度用户数据,推荐越准确越受欢迎,累积数据越多,其他厂商越难追赶 [16] - OpenAI发布Pulse封住了部分Agent创业公司的发展路径,创业公司机会可能集中在生活化场景或未被ChatGPT捕获的垂直工作信息 [17] - AI产品分为第三方公司利用大模型开发的产品和模型原厂基于自身模型开发的产品,未来发展方向可能不同 [18] - 硬件底层控制权是获取用户信息的重要壁垒,手机厂商在下一代AI OS讨论中考虑合理合规获取更多信息,约80%-90%数据可能来自手机 [18] 端侧计算与算力需求 - 手机是中心化关键数据中心,其他设备数据汇聚到手机,真正“AI手机”可能出现 [19] - Pulse在后台运行,用户不关心吞吐量和延迟,端侧模型可能有开源项目跟进,端侧估值目前偏低但需求强烈 [20] - Pulse将把算力需求提升好几个数量级,被动触发可无限并行处理,输入数据量可无限展开,token消耗量可能比当前人机聊天高出几个数量级 [22] - Pulse可利用数据中心闲时计算,提高GPU利用率,起到削峰填谷作用 [23] - 产品消耗主要资源可能成为市场赢家,Pulse渗透率提升将以新数量级拉升OpenAI的token消耗量,成为消耗token最多的公司是核心指标 [24] - 若不拥有模型或未优化模型,直接做Pulse类产品的token成本会很高 [24] LLM时代的推荐系统 - Pulse使OpenAI兼具上一代推荐系统的反馈信号和用户基础数据,其广告推荐效率可能比Meta、Google、字节跳动高出一个层级 [26] - Pulse突破供给限制,推送内容每个字都是定制,与传统以内容为单位的推荐完全不同,能更全面理解用户潜在意图 [27][28] - 大模型在推荐中应用可能分环节渐进式改造,或端到端处理所有环节,后者减少人工先验但更黑盒化 [29] - 传统推荐算法基于向量关系计算,以CTR为核心目标,而大模型推荐更模仿人的思考路径,回顾对用户的整体印象 [30] - 大模型做推荐因每次遍历memory计算昂贵,成本是瓶颈,解法之一是将记忆分层,热门近期记忆作缓存层,深层记忆需要时调用 [31]
AI X 用户研究:能并行千场访谈的“超级研究员”,正重塑产品决策的未来
海外独角兽· 2025-09-26 14:15
文章核心观点 - AI正在彻底改变用户体验研究行业,将UXR从一种昂贵、耗时、难以规模化的“奢侈品”转变为所有公司都能使用的“基础设施”[2][3][10] - AI驱动的UXR解决方案通过自动化研究流程中的关键环节,解决了传统模式在“深度”与“速度”之间的致命权衡,实现了规模化、高质量的深度用户洞察[4][10][14] - 这一变革创造了巨大的市场机会,并催生了一批以ListenLabs、Outset、Knit为代表的AI-native初创公司,它们正在挑战传统的研究服务巨头和上一代SaaS厂商[4][24][41] 传统用户调研的困境 - 传统UXR流程高度依赖人工,从需求探索、研究到测试验证,耗时漫长,导致企业决策与用户真实需求脱节[5] - 行业面临“深度vs速度”的权衡困境:定性研究能提供高保真洞察但成本高昂耗时,定量研究高效但洞察肤浅[7] - 传统模式采用“黑箱式”一次性交付,研究结果易受主观判断影响,且过去的投入无法形成可累积的智库[7] - 项目交付严重滞后于市场迭代速度,研究成果无法有效反映实时市场需求,与公司战略决策脱节[8] - 传统UXR市场被昂贵低效的人力服务主导,咨询公司如Gartner、McKinsey市值达4000亿美元,而上一代SaaS巨头Qualtrics市值仅为1250亿美元[2] AI-Driven用户调研的定义与优势 - AI将UXR从滞后的、一次性的决策输入,重塑为持续的、动态的工作模式,以应对超个性化时代的需求[10] - AI解决了企业规模扩张带来的悖论:用户越多,企业离真实用户个体越远,通过创建“全球研究团队”实现规模化深度对话[10] - AI大幅削减了专家成本和数据集成开销,将人类研究员从重复性工作中解放,使其专注于高价值的战略驱动角色[11] - 在前期研究环节,AI能整合分析海量信息,在研究启动前精准指出经数据验证的高价值问题,避免早期方向误判[12] - 在受访者招募环节,AI通过算法优势提升效率和质量,精准定位最符合研究需求的参与者,实现访谈价值最大化[13] - AI主持的访谈支持全球范围内千百场并行异步访谈,解决跨语言、时区等障碍,并通过持续微调改善交互体验,无限贴近人类引导[14] - AI可即时完成数据分析、洞察总结和报告制作,自动生成多种格式输出,并附上对应的音视频资料以增强可信度[14] - 观察到的“AI霍桑效应”显示,人们更愿意向AI访谈员敞开心扉,尤其在讨论敏感话题时,能分享更真实、更深层的动机[15] 市场空间测算 - 全球市场调研服务年度总支出达14000亿美元,这还不包含企业内部研究团队的预算[16] - 自下而上测算:用户研究与测试SaaS市场2025年TAM为3897亿美元,AI渗透率约47%,对应AI驱动市场当前规模约1830亿美元[20] - 自上而下测算:以体验管理市场为基础,测算出客户体验研究TAM在2025年约为1414亿美元至2156亿美元[21] - AI通过打破深度研究的准入门槛,将催生远超当前想象的增量市场,任何有产品创新需求的企业都可能采用这些AI工具[22] 行业现状与竞争格局 - 传统巨头如Qualtrics、SurveyMonkey正通过私有化寻求灵活转型,而一些集成AI工具的厂商则因结果质量问题受质疑[24] - 目前尚未出现能完全适配B2B复杂架构需求的通用工具,企业多采用“组合拳”策略,为初创公司创造了窗口期[24] - AI4UXR的主要玩家从研究流程的某一两个重点环节垂直切入,再发展端到端的通用产品[24] - 人类在UXR领域的价值正从“执行者”转变为“战略家”,其重要性转向战略规划与落地所需的创造力、好奇心和战略直觉[25] - 未来竞争关键在于企业级销售能力和产品构建能力,目标客户高度集中在科技软件与快消零售两大行业[29][30][31] - 产品必须构建在高信任层之上,提供数据安全保障和透明度,并最终打造整合整个UX价值链的端到端工作流引擎[33] 商业模式演变 - 商业逻辑正从“卖铲子”转向“卖黄金”,即从提供静态工具转向交付可直接用于决策的洞察[26] - AI-native厂商通过PLG和SLG结合的策略渗透企业,付费方式包括分层订阅制、用量计费及混合模式[26][27] - 更深层的想象空间在于构建由顶级行业专家组成的专有知识网络,规模化触达高价值专家认知,创造壁垒极高的新商业模式[27][28] 重点公司分析:Tier 1 ListenLabs - 交付速度非常快,主打“千场并行”的完整交付,可在6-8小时内完成20+次深度访谈并生成PPT报告[42][46] - 客户类型涵盖大型跨国企业和成长型SMB,主要客户包括Microsoft、Canva、Chubbies等[42][56] - 核心优势包括出色的用户流失访谈功能、与营销工具的深度集成以及丰富的Campaign测试工具[46][47] - 最新融资为2025年4月由Sequoia领投的2700万美元A轮融资,累积融资2700万美元[42][59] Outset - 聚焦交互式原型和多模态可用性测试,提供最全面的用户行为追踪[25][42] - 支持40+种语言,在全流程环节实现无缝翻译且不丢失情感细微差别和文化背景[61] - 核心产品Outset Interactive支持屏幕共享、全平台测试和具备10层追问能力的“Abyss mode”探测模式[61][62] - 最新融资为2025年6月由8VC领投的1700万美元A轮融资,累积融资2100万美元[42][68] Knit - 采用“Researcher-Driven AI”协作模式,强调人类研究者在定义目标、审查优化和添加情感共鸣方面的核心价值,确保高质量结果[25][42][71] - 凭借前身PurPics积累了Gen Z样本库的供给优势,与CPG企业的创新需求形成协同效应[71] - 客户对审计级严谨性有高要求,主要客户包括Amazon、Mars Wrigley、NASCAR等[42][76] - 最新融资为2025年7月由GFT Ventures和Sound Ventures领投的1610万美元A轮融资,累积融资约2000万美元[42][77] 发展方向与策略 - 初创公司需加速构建护城河,包括建立深度企业级销售关系、打造专有高质量用户样本库或探索更底层的Agentic AI工作流[34] - 必须健全安全合规体系,符合GDPR、CCPA等法规,以建立客户信任,这是客户采纳产品的关键考量[35] - AI的角色将从“效率放大器”转向“战略引导者”,通过结合用户样本和企业数据库为产品形态提供预测判断,并随着Agentic AI技术演进实现真正的“独立”思考[35]
Notion、Stripe 都在用的 Agent 监控,Braintrust 会是 AI-native 的 Datadog 吗?
海外独角兽· 2025-09-25 18:33
文章核心观点 - AI Agent从演示走向产品化,开发者面临的核心挑战从模型本身转向如何观测、评估和优化这些黑箱系统[2] - Braintrust公司正将可观测性从传统的"监控指标与日志"重塑为"模型评估与行为追踪",以满足AI时代的新需求[2] - 系统性评估和可观测性将重新定义AI开发领域,并成为AI开发的默认配置,正如CI/CD成为软件开发的默认配置一样[4] - Braintrust凭借其产品力与高执行力,有望成为Agent时代的"新Datadog"[3][4] 产品功能 - Braintrust提供Eval(实验评估)和Ship(线上监控)两大核心模块,让团队能在实验阶段大规模测试不同模型与提示词的组合,并在生产环境持续跟踪模型表现[2][8] - Eval功能聚焦LLM的详细评估,通过多样化的Score方式(包括内置评测规则和自定义规则)帮助开发者衡量AI应用的准确性、一致性和安全性[9][10] - Ship功能实现LLM规模化部署监控,通过抽样实时生产环境中的数据流,跟踪成本、延迟和输出性能表现,并支持安全告警[13] - 2025年下半年推出的Loop AI Workflow是新功能,可将Eval和Ship自动化,帮助生成评估标准、测试数据集和prompt[24][25] - 产品采用Log-Trace-Span层级结构记录AI行为,Trace记录单个请求或交互,Span对应LLM执行中的工作单元[14][19] 市场背景与需求 - LLM市场预计到2030年达到361亿美元,AI平台市场到2030年达到943亿美元,将带动配套评估/观测工具渗透[5] - RAG、Agent、Copilot等技术带来的链路复杂度暴涨,以及合规/风险要求倒逼可追溯性需求[5] - 公司对大模型成本敏感,需要Trace功能来了解大模型的成本使用情况[5] - 传统Observability市场的四大支柱(指标、日志、追踪、性能分析)在AI时代需要扩展以适应LLM的不确定行为方式[4][5] 客群及商业化 - Braintrust拥有约3000家客户,每日进行超过3000次AI Eval评估,顶尖AI团队使用时间达到每天两小时以上[8][33] - 客户主要是将AI深度嵌入核心产品流程的科技公司,如Notion、Zapier、Stripe等头部公司[2][31] - 商业化采用Product-led Growth模式,通过self-service product吸引用户体验后获得自然流量[35] - 付费模式分为免费和PRO(249美元每月)两档,定价核心是以结果评估Score为中心进行阶梯式收费[36] - 估算显示中型用户每年可带来约456万美元收入,而类似GPT的大型用户可带来约5400万美元年收入[38] 团队及融资 - 创始人Ankur Goyal于2023年创立Braintrust,具有连续创业背景(曾创立Impira并被Figma收购)[42][44] - 公司先后完成两轮融资:2023年12月完成510万美元种子轮,2024年10月完成3600万美元A轮融资,投资方包括a16z、Greylock等[45] - 团队规模约11-50人,估值约1.5亿美元,保持每周2-6个更新的产品迭代节奏[42][50] - 团队以高执行力和快速响应客户需求著称,如在一天内完成Gemini AI接入的产品上线[46] 市场竞争 - AI Observability赛道在2024-2025年有多家公司获得融资,典型客户集中在AI Native或AI加速的SaaS公司[53] - 主要竞争对手包括LangSmith(每月3万注册量级)、Datadog、Arize AI、Patronus等[8][54] - Braintrust在LLM eval上具有明显功能优势,评估体系Scorer极其丰富且更精细化,而Datadog更偏向告警和运维管理[59][60] - Braintrust采用request-level tracing架构,一级对象包括evaluation run、prompt-response pair等,更贴近模型能力观测[77] - 产品UX交互体验优秀,SDK设计良好,数据流统一,是胜过其他竞品的重要原因[67][68]
RL Infra 行业全景:环境和 RLaaS 如何加速 RL 的 GPT-3 时刻
海外独角兽· 2025-09-24 13:02
文章核心观点 - RL Scaling 正在推动 AI 从依赖静态人类数据的时代,迈向由 Agent 与环境动态交互产生经验的“体验时代” [2] - 这一范式转变催生了对新基础设施的需求,RL Infra 的核心价值在于弥合模拟训练与真实世界之间的差距,使 AI Agent 在部署前能经历高强度测试 [2] - 行业呈现出两种主流商业路径:横向平台化的 RL 环境公司(目标是成为 AI 时代的“Unreal Engine”)和纵向一体化的 RLaaS 公司(目标是成为垂直行业的“AI-native Palantir”) [3] - 随着趋势演进,行业将迎来 RL 的“GPT-3 时刻”,即 RL 数据规模被拉升到预训练量级 [3][6] RL Infra 的必要性 - 基础模型面临瓶颈,仅依赖静态、人类互联网生成的数据集带来的性能提升呈现边际递减趋势 [6] - AI 社区开始转向 RL 环境交互,通过在模拟环境中试错,模型可以学到长链条推理、复杂决策等 pretrain + SFT 难以获得的能力 [6] - 实现 RL 的规模化需要将交互环境的规模和多样性提升到远超当前的数量级,例如达到“上万年等效任务时长的交互经验数据”,与 GPT-3 的 3000 亿 token 预训练规模相当 [8] - 当前 RL 训练环境非常初级且受限,远不能模拟现实工作的复杂性,存在“生产环境悖论”,即在真实环境中学习高效但风险极高 [9] - 奖励函数设计不精确会导致智能体出现“奖励破解”(reward hacking)问题,在训练环境中表现良好但迁移到实际场景时失败 [10] RL Infra 行业图谱框架 - 当前创业公司主要分为三大类:RL 环境类公司、RL 即服务(RLaaS)公司、以及数据/评估类公司 [12] - **RL 环境类公司**:作为模拟环境的搭建者,提供标准化、可扩展的模拟训练环境和任务平台,目标是将真实工作流“可模拟化” [13] - **RLaaS 公司**:采用类似 Palantir 的深度定制化模式,针对大型企业的具体业务需求提供端到端的 RL 解决方案,单个合同金额可观,可达千万美金级别 [14] - **数据/评估类公司**:专注于为 RL 训练提供高质量的交互数据、评测基准和评估工具,充当“数据军火商”的角色 [15] - 从投资角度看,RL 环境与数据构成一个对冲组合,而 RLaaS 则有望在特定垂直行业孵化出垄断型领军者 [3][15] RL 环境:构建软件的 Unreal Engine - RL 环境的核心是构建一个可以安全、大规模、可复现地生成“经验数据”的工厂,其三大核心要素包括状态管理系统、任务场景和奖励/评估系统 [16] - 环境平台主要有几种形态:针对特定软件工作流的应用级沙盒(如 CRM/ERP 模拟器)、通用的浏览器/桌面环境、以及利用历史数据训练环境模型的“世界模型”思路 [17][18] - **案例:Mechanize**:提出“复制训练”新范式,让 AI Agent 完整复现现有软件功能作为训练任务,并将成功与否通过自动化方式验证,解决了为复杂任务设计奖励函数的难题 [20][21] - **案例:Veris AI**:为企业客户构建其生产环境的“数字孪生”,精确复刻客户独特的内部工具和数据结构,以解决环境安全和训练有效性两大痛点,已完成850万美元种子轮融资 [23][24] - **案例:Halluminate**:提供高度并行的“真实感沙盒”环境覆盖常用企业软件,并配套专有数据集和评估服务,进行“数据驱动的失败模式分析”以加速模型迭代 [27] RLaaS:打造 AI-native Palantir - RLaaS 的服务模式通常涵盖三个关键环节:奖励建模(将抽象业务 KPI 转化为可计算的奖励函数)、自动化评分(搭建评分管道作为 AI 的自动化裁判)、以及模型定制与强化微调(RFT) [30][32][33] - **案例:Fireworks AI**:作为 AI Inference 基础设施公司,其平台允许用户通过一段 Python 代码定义评价函数即可进行 RFT,据称效果可追平顶尖封闭模型,且推理速度提升10-40倍 [34] - **案例:Applied Compute**:由 OpenAI 前研究人员创立,采用高举高打的项目制模式,与少数大企业深度绑定,每单合同可能高达数千万美金,pre-launch 阶段即以1亿美元估值获2000万美元种子轮融资 [36] - **案例:RunRL**:代表民主化方向,提供一键运行 RL 的服务,按节点小时收费($80/node-hour),旨在降低 RL 使用门槛 [36] RL 趋势下的未来展望 - 在线学习(RL 环境)与离线学习(RL 数据)是两种核心路径,前者能生成完美的 on-policy 数据但成本高,后者成本低但存在 off-policy 学习导致的泛化问题 [37][40] - 一个稳健的投资策略是同时布局环境和数据两条路径,以对冲具体实现路径的不确定性 [43] - RLaaS 的 Palantir 模式执行路径清晰:嵌入专家解决核心问题 -> 构建专有数据飞轮 -> 形成极高替换成本的护城河,极有可能在特定垂直行业催生“赢家通吃”的局面 [43][44][45] - 未来格局可能不是由一个巨大平台主导,而是由一系列在各自垂直领域内占据垄断地位的“小 Palantir”构成 [45]
为 OpenAI 秘密提供模型测试, OpenRouter 给 LLMs 做了套“网关系统”
海外独角兽· 2025-09-23 15:52
公司概况与市场定位 - OpenRouter是一家成立于2023年初的模型路由平台,为用户提供统一的API Key来调用各类大语言模型[6] - 公司定位为大语言模型的聚合器和市场,可被视为Stripe与Cloudflare的结合体,提供统一的控制面板来编排、发现和优化所有智能需求[31] - 截至2025年8月,平台已接入超过470个模型,用户可通过OpenRouter管理所有模型的账单[31] - 2025年6月,公司完成4000万美元融资,投后估值达5亿美元,投资者包括a16z和Menlo Ventures[6] 业务模式与核心价值 - 核心业务是模型路由,根据用户的提示词自动或按指定条件(如价格、时延)将请求路由至最合适的模型和供应商[6] - 解决了API调用的三大痛点:缺少统一市场与接口、API不稳定、成本与性能难以平衡[7][9] - 通过接入大量模型(包括同一开源模型的多个供应商)实现自动故障转移,增强了API稳定性[9] - 可将简单任务分配给低成本模型,复杂任务交给高性能模型,帮助用户实现成本与性能的最佳平衡[9] 运营数据与增长表现 - 平台token用量经历高速增长,从2025年初的4050亿增长到8月的32100亿,增长约8倍[6] - 周请求量从年初的4050亿tokens增长到9月的49000亿,增长超过12倍[2] - 闭源模型在平台上占据主导地位,消耗了约70%–80%的token[48] - 开源模型是增长最快的类别,常承担“优化最后一公里”的角色,用户为降低成本或优化特定场景会从闭源转向开源[50] 技术优势与运营策略 - 通过智能负载均衡将请求发送到最适合的供应商,使模型运行时间比直接连接供应商平均提升5%到10%[37] - 整个路由过程仅增加约20到25毫秒的延迟,所有服务部署在离用户服务器很近的边缘节点[37] - 采用token作为核心衡量单位,避免了因模型价格快速下降对排名产生的干扰,并能体现时间维度和实际使用价值[38][40] - 创建了各种路由通道,让用户对模型访问方式保持完全控制,同时提供大量分析数据帮助用户发现有效模型[34][37] 行业影响力与合作伙伴 - 发布的模型用量报告在业内和社交媒体上引发广泛讨论,成为开发者和投资人群体的必读内容[3][10] - 马斯克曾多次引用OpenRouter数据宣传Grok Code,称其调用量突破1万亿次,为平台带来巨大曝光[15] - OpenAI在模型正式发布前会用其他名字在OpenRouter上秘密上线,用于收集开发者反馈,例如GPT-4.1曾以Quasar Alpha名称测试[40][41] - 拥有专门运行开源基准测试的社区,积累了大量小众但有价值的基准测试,为模型提供商提供真实、客观的反馈[43][46] 未来发展方向 - 战略目标是成为智能体(Agent)的最佳推理层,为所有模型添加记忆、网页搜索等有状态的智能体能力[3][57] - 致力于避免供应商锁定,让开发者始终拥有选择权,可以自由切换到更智能的模型[60] - 计划在个人账户层面实现三大功能:开箱即用的记忆功能、更智能的模型选择建议、更深入的响应分析[55][56][57] - 未来可能与其他公司合作或自行构建工具,确保开发者不会感到被束缚,保持对智能体运作方式的控制[57][60]
Agentic Enterprise:生成式软件重新定义企业形态|AGIX PM Notes
海外独角兽· 2025-09-22 18:35
AGIX指数定位与表现 - AGIX指数旨在成为衡量AGI(通用人工智能)时代科技范式转换的重要指标,类似于互联网时代的Nasdaq100指数[2] - 该指数2024年以来累计回报率达92.48%,显著超越标普500的39.72%和QQQ的46.35%[5] - 本周AGIX指数上涨3.11%,表现优于主要股指,其中标普500上涨0.74%,QQQ上涨1.30%,道琼斯指数上涨0.94%[5] - 指数构成中基础设施板块权重最大达45%,应用板块占32%,半导体及硬件板块占23%[6] Living Software范式转变 - 软件正从静态代码集合演化为能够持续学习和自我优化的"Living Software"[10] - Cursor通过在线强化学习实现代码自动补全优化,建议数量减少21%的同时接受率提升28%[10] - 高质量的训练环境比算法本身更为重要,企业场景成为理想的AI训练环境[11] - B2B业务拓展能力在"Living Software"时代可能比单纯AI算法能力更为关键[11] 企业AI应用与竞争壁垒 - 企业通过自有业务数据建立数据飞轮,形成难以复制的竞争壁垒[15] - Stripe训练了全球首个支付领域基础模型,处理超过1万亿美元年支付量,86%的卡片数据为其提供独特优势[14] - 未来每家企业都可能拥有专用大模型,通过持续学习优化企业决策和流程[15] - 企业形态将向"强化学习环境机"演变,人类角色转变为AI教练和流程设计师[16] 训练范式与技术演进 - GPT-5采用自适应推理时长设计,根据任务复杂度调整模型"思考"时间[12] - 模型训练成本大幅降低,DeepSeek的R1模型训练成本仅为29.4万美元[13] - 软件公司倾向于自研模型,基于API的大模型商业模式面临挑战[13] - 数据资源和经验回放成为核心竞争点,企业可累积复用业务流程数据[15] 行业投资与市场动态 - 对冲基金净杠杆率升至57%,为2022年初以来最高水平[17] - 北美对冲基金成为净买方,科技板块呈现净卖出,半导体成为美国市场卖出最多行业[17] - 亚洲市场成为对冲基金买入主力,韩国AI受益股敞口创历史新高,台湾半导体净敞口处于高位[18] - 全球对冲基金本周平均上涨50个基点,美洲多空基金表现突出,上涨105个基点[18] 重大合作与资本投入 - Nvidia投资Intel50亿美元,合作开发AI基础设施与个人计算机产品[19] - OpenAI计划五年投入1000亿美元租用备用服务器,年均服务器租赁费用达850亿美元[20] - Oracle与Meta洽谈200亿美元云计算协议,为AI训练提供算力支持[21] - CoreWeave获得Nvidia63亿美元订单,Nvidia承诺至2032年4月前收购未售出算力容量[22] ETF流动性分析框架 - ETF流动性评估需综合考虑标的资产流动性、二级市场成交量、买卖价差、折溢价等多维度因素[26] - 隐含流动性比表面成交量更能反映真实交易容量,某ETF隐含流动性达6149万份额,折合4.5亿港币/日[27] - 投资者应关注ETF的创建赎回机制及发行人支持度,而不仅追求成交量大或规模大[32] - 买卖盘口情况、折溢价与净值的偏离程度是评估流动性的重要指标[30][31]