Workflow
海外独角兽
icon
搜索文档
AI X 用户研究:能并行千场访谈的“超级研究员”,正重塑产品决策的未来
海外独角兽· 2025-09-26 14:15
文章核心观点 - AI正在彻底改变用户体验研究行业,将UXR从一种昂贵、耗时、难以规模化的“奢侈品”转变为所有公司都能使用的“基础设施”[2][3][10] - AI驱动的UXR解决方案通过自动化研究流程中的关键环节,解决了传统模式在“深度”与“速度”之间的致命权衡,实现了规模化、高质量的深度用户洞察[4][10][14] - 这一变革创造了巨大的市场机会,并催生了一批以ListenLabs、Outset、Knit为代表的AI-native初创公司,它们正在挑战传统的研究服务巨头和上一代SaaS厂商[4][24][41] 传统用户调研的困境 - 传统UXR流程高度依赖人工,从需求探索、研究到测试验证,耗时漫长,导致企业决策与用户真实需求脱节[5] - 行业面临“深度vs速度”的权衡困境:定性研究能提供高保真洞察但成本高昂耗时,定量研究高效但洞察肤浅[7] - 传统模式采用“黑箱式”一次性交付,研究结果易受主观判断影响,且过去的投入无法形成可累积的智库[7] - 项目交付严重滞后于市场迭代速度,研究成果无法有效反映实时市场需求,与公司战略决策脱节[8] - 传统UXR市场被昂贵低效的人力服务主导,咨询公司如Gartner、McKinsey市值达4000亿美元,而上一代SaaS巨头Qualtrics市值仅为1250亿美元[2] AI-Driven用户调研的定义与优势 - AI将UXR从滞后的、一次性的决策输入,重塑为持续的、动态的工作模式,以应对超个性化时代的需求[10] - AI解决了企业规模扩张带来的悖论:用户越多,企业离真实用户个体越远,通过创建“全球研究团队”实现规模化深度对话[10] - AI大幅削减了专家成本和数据集成开销,将人类研究员从重复性工作中解放,使其专注于高价值的战略驱动角色[11] - 在前期研究环节,AI能整合分析海量信息,在研究启动前精准指出经数据验证的高价值问题,避免早期方向误判[12] - 在受访者招募环节,AI通过算法优势提升效率和质量,精准定位最符合研究需求的参与者,实现访谈价值最大化[13] - AI主持的访谈支持全球范围内千百场并行异步访谈,解决跨语言、时区等障碍,并通过持续微调改善交互体验,无限贴近人类引导[14] - AI可即时完成数据分析、洞察总结和报告制作,自动生成多种格式输出,并附上对应的音视频资料以增强可信度[14] - 观察到的“AI霍桑效应”显示,人们更愿意向AI访谈员敞开心扉,尤其在讨论敏感话题时,能分享更真实、更深层的动机[15] 市场空间测算 - 全球市场调研服务年度总支出达14000亿美元,这还不包含企业内部研究团队的预算[16] - 自下而上测算:用户研究与测试SaaS市场2025年TAM为3897亿美元,AI渗透率约47%,对应AI驱动市场当前规模约1830亿美元[20] - 自上而下测算:以体验管理市场为基础,测算出客户体验研究TAM在2025年约为1414亿美元至2156亿美元[21] - AI通过打破深度研究的准入门槛,将催生远超当前想象的增量市场,任何有产品创新需求的企业都可能采用这些AI工具[22] 行业现状与竞争格局 - 传统巨头如Qualtrics、SurveyMonkey正通过私有化寻求灵活转型,而一些集成AI工具的厂商则因结果质量问题受质疑[24] - 目前尚未出现能完全适配B2B复杂架构需求的通用工具,企业多采用“组合拳”策略,为初创公司创造了窗口期[24] - AI4UXR的主要玩家从研究流程的某一两个重点环节垂直切入,再发展端到端的通用产品[24] - 人类在UXR领域的价值正从“执行者”转变为“战略家”,其重要性转向战略规划与落地所需的创造力、好奇心和战略直觉[25] - 未来竞争关键在于企业级销售能力和产品构建能力,目标客户高度集中在科技软件与快消零售两大行业[29][30][31] - 产品必须构建在高信任层之上,提供数据安全保障和透明度,并最终打造整合整个UX价值链的端到端工作流引擎[33] 商业模式演变 - 商业逻辑正从“卖铲子”转向“卖黄金”,即从提供静态工具转向交付可直接用于决策的洞察[26] - AI-native厂商通过PLG和SLG结合的策略渗透企业,付费方式包括分层订阅制、用量计费及混合模式[26][27] - 更深层的想象空间在于构建由顶级行业专家组成的专有知识网络,规模化触达高价值专家认知,创造壁垒极高的新商业模式[27][28] 重点公司分析:Tier 1 ListenLabs - 交付速度非常快,主打“千场并行”的完整交付,可在6-8小时内完成20+次深度访谈并生成PPT报告[42][46] - 客户类型涵盖大型跨国企业和成长型SMB,主要客户包括Microsoft、Canva、Chubbies等[42][56] - 核心优势包括出色的用户流失访谈功能、与营销工具的深度集成以及丰富的Campaign测试工具[46][47] - 最新融资为2025年4月由Sequoia领投的2700万美元A轮融资,累积融资2700万美元[42][59] Outset - 聚焦交互式原型和多模态可用性测试,提供最全面的用户行为追踪[25][42] - 支持40+种语言,在全流程环节实现无缝翻译且不丢失情感细微差别和文化背景[61] - 核心产品Outset Interactive支持屏幕共享、全平台测试和具备10层追问能力的“Abyss mode”探测模式[61][62] - 最新融资为2025年6月由8VC领投的1700万美元A轮融资,累积融资2100万美元[42][68] Knit - 采用“Researcher-Driven AI”协作模式,强调人类研究者在定义目标、审查优化和添加情感共鸣方面的核心价值,确保高质量结果[25][42][71] - 凭借前身PurPics积累了Gen Z样本库的供给优势,与CPG企业的创新需求形成协同效应[71] - 客户对审计级严谨性有高要求,主要客户包括Amazon、Mars Wrigley、NASCAR等[42][76] - 最新融资为2025年7月由GFT Ventures和Sound Ventures领投的1610万美元A轮融资,累积融资约2000万美元[42][77] 发展方向与策略 - 初创公司需加速构建护城河,包括建立深度企业级销售关系、打造专有高质量用户样本库或探索更底层的Agentic AI工作流[34] - 必须健全安全合规体系,符合GDPR、CCPA等法规,以建立客户信任,这是客户采纳产品的关键考量[35] - AI的角色将从“效率放大器”转向“战略引导者”,通过结合用户样本和企业数据库为产品形态提供预测判断,并随着Agentic AI技术演进实现真正的“独立”思考[35]
Notion、Stripe 都在用的 Agent 监控,Braintrust 会是 AI-native 的 Datadog 吗?
海外独角兽· 2025-09-25 18:33
文章核心观点 - AI Agent从演示走向产品化,开发者面临的核心挑战从模型本身转向如何观测、评估和优化这些黑箱系统[2] - Braintrust公司正将可观测性从传统的"监控指标与日志"重塑为"模型评估与行为追踪",以满足AI时代的新需求[2] - 系统性评估和可观测性将重新定义AI开发领域,并成为AI开发的默认配置,正如CI/CD成为软件开发的默认配置一样[4] - Braintrust凭借其产品力与高执行力,有望成为Agent时代的"新Datadog"[3][4] 产品功能 - Braintrust提供Eval(实验评估)和Ship(线上监控)两大核心模块,让团队能在实验阶段大规模测试不同模型与提示词的组合,并在生产环境持续跟踪模型表现[2][8] - Eval功能聚焦LLM的详细评估,通过多样化的Score方式(包括内置评测规则和自定义规则)帮助开发者衡量AI应用的准确性、一致性和安全性[9][10] - Ship功能实现LLM规模化部署监控,通过抽样实时生产环境中的数据流,跟踪成本、延迟和输出性能表现,并支持安全告警[13] - 2025年下半年推出的Loop AI Workflow是新功能,可将Eval和Ship自动化,帮助生成评估标准、测试数据集和prompt[24][25] - 产品采用Log-Trace-Span层级结构记录AI行为,Trace记录单个请求或交互,Span对应LLM执行中的工作单元[14][19] 市场背景与需求 - LLM市场预计到2030年达到361亿美元,AI平台市场到2030年达到943亿美元,将带动配套评估/观测工具渗透[5] - RAG、Agent、Copilot等技术带来的链路复杂度暴涨,以及合规/风险要求倒逼可追溯性需求[5] - 公司对大模型成本敏感,需要Trace功能来了解大模型的成本使用情况[5] - 传统Observability市场的四大支柱(指标、日志、追踪、性能分析)在AI时代需要扩展以适应LLM的不确定行为方式[4][5] 客群及商业化 - Braintrust拥有约3000家客户,每日进行超过3000次AI Eval评估,顶尖AI团队使用时间达到每天两小时以上[8][33] - 客户主要是将AI深度嵌入核心产品流程的科技公司,如Notion、Zapier、Stripe等头部公司[2][31] - 商业化采用Product-led Growth模式,通过self-service product吸引用户体验后获得自然流量[35] - 付费模式分为免费和PRO(249美元每月)两档,定价核心是以结果评估Score为中心进行阶梯式收费[36] - 估算显示中型用户每年可带来约456万美元收入,而类似GPT的大型用户可带来约5400万美元年收入[38] 团队及融资 - 创始人Ankur Goyal于2023年创立Braintrust,具有连续创业背景(曾创立Impira并被Figma收购)[42][44] - 公司先后完成两轮融资:2023年12月完成510万美元种子轮,2024年10月完成3600万美元A轮融资,投资方包括a16z、Greylock等[45] - 团队规模约11-50人,估值约1.5亿美元,保持每周2-6个更新的产品迭代节奏[42][50] - 团队以高执行力和快速响应客户需求著称,如在一天内完成Gemini AI接入的产品上线[46] 市场竞争 - AI Observability赛道在2024-2025年有多家公司获得融资,典型客户集中在AI Native或AI加速的SaaS公司[53] - 主要竞争对手包括LangSmith(每月3万注册量级)、Datadog、Arize AI、Patronus等[8][54] - Braintrust在LLM eval上具有明显功能优势,评估体系Scorer极其丰富且更精细化,而Datadog更偏向告警和运维管理[59][60] - Braintrust采用request-level tracing架构,一级对象包括evaluation run、prompt-response pair等,更贴近模型能力观测[77] - 产品UX交互体验优秀,SDK设计良好,数据流统一,是胜过其他竞品的重要原因[67][68]
RL Infra 行业全景:环境和 RLaaS 如何加速 RL 的 GPT-3 时刻
海外独角兽· 2025-09-24 13:02
文章核心观点 - RL Scaling 正在推动 AI 从依赖静态人类数据的时代,迈向由 Agent 与环境动态交互产生经验的“体验时代” [2] - 这一范式转变催生了对新基础设施的需求,RL Infra 的核心价值在于弥合模拟训练与真实世界之间的差距,使 AI Agent 在部署前能经历高强度测试 [2] - 行业呈现出两种主流商业路径:横向平台化的 RL 环境公司(目标是成为 AI 时代的“Unreal Engine”)和纵向一体化的 RLaaS 公司(目标是成为垂直行业的“AI-native Palantir”) [3] - 随着趋势演进,行业将迎来 RL 的“GPT-3 时刻”,即 RL 数据规模被拉升到预训练量级 [3][6] RL Infra 的必要性 - 基础模型面临瓶颈,仅依赖静态、人类互联网生成的数据集带来的性能提升呈现边际递减趋势 [6] - AI 社区开始转向 RL 环境交互,通过在模拟环境中试错,模型可以学到长链条推理、复杂决策等 pretrain + SFT 难以获得的能力 [6] - 实现 RL 的规模化需要将交互环境的规模和多样性提升到远超当前的数量级,例如达到“上万年等效任务时长的交互经验数据”,与 GPT-3 的 3000 亿 token 预训练规模相当 [8] - 当前 RL 训练环境非常初级且受限,远不能模拟现实工作的复杂性,存在“生产环境悖论”,即在真实环境中学习高效但风险极高 [9] - 奖励函数设计不精确会导致智能体出现“奖励破解”(reward hacking)问题,在训练环境中表现良好但迁移到实际场景时失败 [10] RL Infra 行业图谱框架 - 当前创业公司主要分为三大类:RL 环境类公司、RL 即服务(RLaaS)公司、以及数据/评估类公司 [12] - **RL 环境类公司**:作为模拟环境的搭建者,提供标准化、可扩展的模拟训练环境和任务平台,目标是将真实工作流“可模拟化” [13] - **RLaaS 公司**:采用类似 Palantir 的深度定制化模式,针对大型企业的具体业务需求提供端到端的 RL 解决方案,单个合同金额可观,可达千万美金级别 [14] - **数据/评估类公司**:专注于为 RL 训练提供高质量的交互数据、评测基准和评估工具,充当“数据军火商”的角色 [15] - 从投资角度看,RL 环境与数据构成一个对冲组合,而 RLaaS 则有望在特定垂直行业孵化出垄断型领军者 [3][15] RL 环境:构建软件的 Unreal Engine - RL 环境的核心是构建一个可以安全、大规模、可复现地生成“经验数据”的工厂,其三大核心要素包括状态管理系统、任务场景和奖励/评估系统 [16] - 环境平台主要有几种形态:针对特定软件工作流的应用级沙盒(如 CRM/ERP 模拟器)、通用的浏览器/桌面环境、以及利用历史数据训练环境模型的“世界模型”思路 [17][18] - **案例:Mechanize**:提出“复制训练”新范式,让 AI Agent 完整复现现有软件功能作为训练任务,并将成功与否通过自动化方式验证,解决了为复杂任务设计奖励函数的难题 [20][21] - **案例:Veris AI**:为企业客户构建其生产环境的“数字孪生”,精确复刻客户独特的内部工具和数据结构,以解决环境安全和训练有效性两大痛点,已完成850万美元种子轮融资 [23][24] - **案例:Halluminate**:提供高度并行的“真实感沙盒”环境覆盖常用企业软件,并配套专有数据集和评估服务,进行“数据驱动的失败模式分析”以加速模型迭代 [27] RLaaS:打造 AI-native Palantir - RLaaS 的服务模式通常涵盖三个关键环节:奖励建模(将抽象业务 KPI 转化为可计算的奖励函数)、自动化评分(搭建评分管道作为 AI 的自动化裁判)、以及模型定制与强化微调(RFT) [30][32][33] - **案例:Fireworks AI**:作为 AI Inference 基础设施公司,其平台允许用户通过一段 Python 代码定义评价函数即可进行 RFT,据称效果可追平顶尖封闭模型,且推理速度提升10-40倍 [34] - **案例:Applied Compute**:由 OpenAI 前研究人员创立,采用高举高打的项目制模式,与少数大企业深度绑定,每单合同可能高达数千万美金,pre-launch 阶段即以1亿美元估值获2000万美元种子轮融资 [36] - **案例:RunRL**:代表民主化方向,提供一键运行 RL 的服务,按节点小时收费($80/node-hour),旨在降低 RL 使用门槛 [36] RL 趋势下的未来展望 - 在线学习(RL 环境)与离线学习(RL 数据)是两种核心路径,前者能生成完美的 on-policy 数据但成本高,后者成本低但存在 off-policy 学习导致的泛化问题 [37][40] - 一个稳健的投资策略是同时布局环境和数据两条路径,以对冲具体实现路径的不确定性 [43] - RLaaS 的 Palantir 模式执行路径清晰:嵌入专家解决核心问题 -> 构建专有数据飞轮 -> 形成极高替换成本的护城河,极有可能在特定垂直行业催生“赢家通吃”的局面 [43][44][45] - 未来格局可能不是由一个巨大平台主导,而是由一系列在各自垂直领域内占据垄断地位的“小 Palantir”构成 [45]
为 OpenAI 秘密提供模型测试, OpenRouter 给 LLMs 做了套“网关系统”
海外独角兽· 2025-09-23 15:52
公司概况与市场定位 - OpenRouter是一家成立于2023年初的模型路由平台,为用户提供统一的API Key来调用各类大语言模型[6] - 公司定位为大语言模型的聚合器和市场,可被视为Stripe与Cloudflare的结合体,提供统一的控制面板来编排、发现和优化所有智能需求[31] - 截至2025年8月,平台已接入超过470个模型,用户可通过OpenRouter管理所有模型的账单[31] - 2025年6月,公司完成4000万美元融资,投后估值达5亿美元,投资者包括a16z和Menlo Ventures[6] 业务模式与核心价值 - 核心业务是模型路由,根据用户的提示词自动或按指定条件(如价格、时延)将请求路由至最合适的模型和供应商[6] - 解决了API调用的三大痛点:缺少统一市场与接口、API不稳定、成本与性能难以平衡[7][9] - 通过接入大量模型(包括同一开源模型的多个供应商)实现自动故障转移,增强了API稳定性[9] - 可将简单任务分配给低成本模型,复杂任务交给高性能模型,帮助用户实现成本与性能的最佳平衡[9] 运营数据与增长表现 - 平台token用量经历高速增长,从2025年初的4050亿增长到8月的32100亿,增长约8倍[6] - 周请求量从年初的4050亿tokens增长到9月的49000亿,增长超过12倍[2] - 闭源模型在平台上占据主导地位,消耗了约70%–80%的token[48] - 开源模型是增长最快的类别,常承担“优化最后一公里”的角色,用户为降低成本或优化特定场景会从闭源转向开源[50] 技术优势与运营策略 - 通过智能负载均衡将请求发送到最适合的供应商,使模型运行时间比直接连接供应商平均提升5%到10%[37] - 整个路由过程仅增加约20到25毫秒的延迟,所有服务部署在离用户服务器很近的边缘节点[37] - 采用token作为核心衡量单位,避免了因模型价格快速下降对排名产生的干扰,并能体现时间维度和实际使用价值[38][40] - 创建了各种路由通道,让用户对模型访问方式保持完全控制,同时提供大量分析数据帮助用户发现有效模型[34][37] 行业影响力与合作伙伴 - 发布的模型用量报告在业内和社交媒体上引发广泛讨论,成为开发者和投资人群体的必读内容[3][10] - 马斯克曾多次引用OpenRouter数据宣传Grok Code,称其调用量突破1万亿次,为平台带来巨大曝光[15] - OpenAI在模型正式发布前会用其他名字在OpenRouter上秘密上线,用于收集开发者反馈,例如GPT-4.1曾以Quasar Alpha名称测试[40][41] - 拥有专门运行开源基准测试的社区,积累了大量小众但有价值的基准测试,为模型提供商提供真实、客观的反馈[43][46] 未来发展方向 - 战略目标是成为智能体(Agent)的最佳推理层,为所有模型添加记忆、网页搜索等有状态的智能体能力[3][57] - 致力于避免供应商锁定,让开发者始终拥有选择权,可以自由切换到更智能的模型[60] - 计划在个人账户层面实现三大功能:开箱即用的记忆功能、更智能的模型选择建议、更深入的响应分析[55][56][57] - 未来可能与其他公司合作或自行构建工具,确保开发者不会感到被束缚,保持对智能体运作方式的控制[57][60]
Agentic Enterprise:生成式软件重新定义企业形态|AGIX PM Notes
海外独角兽· 2025-09-22 18:35
AGIX指数定位与表现 - AGIX指数旨在成为衡量AGI(通用人工智能)时代科技范式转换的重要指标,类似于互联网时代的Nasdaq100指数[2] - 该指数2024年以来累计回报率达92.48%,显著超越标普500的39.72%和QQQ的46.35%[5] - 本周AGIX指数上涨3.11%,表现优于主要股指,其中标普500上涨0.74%,QQQ上涨1.30%,道琼斯指数上涨0.94%[5] - 指数构成中基础设施板块权重最大达45%,应用板块占32%,半导体及硬件板块占23%[6] Living Software范式转变 - 软件正从静态代码集合演化为能够持续学习和自我优化的"Living Software"[10] - Cursor通过在线强化学习实现代码自动补全优化,建议数量减少21%的同时接受率提升28%[10] - 高质量的训练环境比算法本身更为重要,企业场景成为理想的AI训练环境[11] - B2B业务拓展能力在"Living Software"时代可能比单纯AI算法能力更为关键[11] 企业AI应用与竞争壁垒 - 企业通过自有业务数据建立数据飞轮,形成难以复制的竞争壁垒[15] - Stripe训练了全球首个支付领域基础模型,处理超过1万亿美元年支付量,86%的卡片数据为其提供独特优势[14] - 未来每家企业都可能拥有专用大模型,通过持续学习优化企业决策和流程[15] - 企业形态将向"强化学习环境机"演变,人类角色转变为AI教练和流程设计师[16] 训练范式与技术演进 - GPT-5采用自适应推理时长设计,根据任务复杂度调整模型"思考"时间[12] - 模型训练成本大幅降低,DeepSeek的R1模型训练成本仅为29.4万美元[13] - 软件公司倾向于自研模型,基于API的大模型商业模式面临挑战[13] - 数据资源和经验回放成为核心竞争点,企业可累积复用业务流程数据[15] 行业投资与市场动态 - 对冲基金净杠杆率升至57%,为2022年初以来最高水平[17] - 北美对冲基金成为净买方,科技板块呈现净卖出,半导体成为美国市场卖出最多行业[17] - 亚洲市场成为对冲基金买入主力,韩国AI受益股敞口创历史新高,台湾半导体净敞口处于高位[18] - 全球对冲基金本周平均上涨50个基点,美洲多空基金表现突出,上涨105个基点[18] 重大合作与资本投入 - Nvidia投资Intel50亿美元,合作开发AI基础设施与个人计算机产品[19] - OpenAI计划五年投入1000亿美元租用备用服务器,年均服务器租赁费用达850亿美元[20] - Oracle与Meta洽谈200亿美元云计算协议,为AI训练提供算力支持[21] - CoreWeave获得Nvidia63亿美元订单,Nvidia承诺至2032年4月前收购未售出算力容量[22] ETF流动性分析框架 - ETF流动性评估需综合考虑标的资产流动性、二级市场成交量、买卖价差、折溢价等多维度因素[26] - 隐含流动性比表面成交量更能反映真实交易容量,某ETF隐含流动性达6149万份额,折合4.5亿港币/日[27] - 投资者应关注ETF的创建赎回机制及发行人支持度,而不仅追求成交量大或规模大[32] - 买卖盘口情况、折溢价与净值的偏离程度是评估流动性的重要指标[30][31]
Stripe x Cursor,硅谷两代“金童”对谈: 未来5年IDE里将不再是代码
海外独角兽· 2025-09-18 20:08
文章核心观点 - 对谈探讨了AI对编程未来的深远影响,认为真正的AI IDE将超越文本编辑器,使开发更侧重于描述需求而非编写具体代码 [11][15][16] - AI的重要价值在于降低大规模代码库的修改成本,其能力可通过代码库的"重量"来衡量,持续重构与美化是关键应用 [3][18][19] - 创业公司的早期技术选型具有长期锁定效应,正确的API和数据模型设计能产生持久的商业影响,Stripe的V2 API重写计划体现了"能统一尽量统一"的理念 [23][25][30][31] Patrick的早期技术实践 - 早期技术探索始于Lisp和Smalltalk,欣赏其完全交互式环境和强大的调试能力,允许在请求处理过程中直接修改代码并恢复执行 [6][7][8] - 首个AI项目是使用Lisp编写的、基于贝叶斯模型的next-word predictor,训练数据来自MSN对话记录,曾在无戒备场景下通过图灵测试 [9][10] - 认为许多被低估的编程语言思想正通过Web Inspector等渠道影响主流,并强调开发环境应超越纯文本编辑器,实现运行时、编辑和代码执行的深度集成 [11][12] 5年后的Cursor形态与AI应用 - 日常将AI用于解答事实性、经验性问题及代码写作,但对AI的写作输出不满意,认为其风格平庸且与个人风格不合 [13] - 未来AI与开发者的互动将更类似编译器或解释器技术的进化,编程语言会走向更高抽象层级,更注重表达"要什么"而非"怎么做" [15][16] - 关注AI在降低代码库重量方面的潜力,设想AI能像夜间清道夫一样自动进行代码优化与重构,提升架构质量 [18][19] - 对Cursor的建议包括深度集成运行时特性与性能剖析信息、强化AI驱动的重构与美化能力、以及提升软件的工艺与美学以避免平庸产物的泛滥 [19] Stripe的技术理念与基础设施 - 早期技术选型如Ruby和MongoDB对公司产生深远影响,为达到金融级可靠性,在基础设施上投入巨大,最终实现99.99986%的API可用性 [26][27] - 认为API和数据模型设计至关重要,会塑造组织结构并影响商业成功,iOS生态的成功被视为正确API设计带来巨大商业影响的案例 [23][25] - 技术选型过程并非总是正式流程,MongoDB的选择源于创始人对SQL的"天然排斥"和追求灵活性,最终成为公司技术栈的定海神针 [28][29] Stripe的V2 API重写计划 - 首次公开V2 API重写计划,核心是统一数据模型以减少特例,将终端客户、子账户等实体统一到同一种表示下,提升效率与一致性 [30][31] - 升级挑战在于确保新API与既有系统全面互操作,需构建转译层并与客户制定可行升级路径,复杂度类似芯片指令集迁移 [31] - 验证设计需由首席API设计师全局负责,并尽早向客户演示获取反馈,通过亲手编写真实集成来感受易用性并防止过度工程化 [32][33] 对生物学的编程展望 - 指出人类从未治愈过复杂疾病,并认为过去受限于实验与认知技术,如今生物学正迎来"读-想-写"的新工具闭环 [20][21][22] - 新工具包括高通量测序技术、神经网络与深度学习的进步、以及CRISPR等基因编辑手段,使在单细胞层面实现完整的研究闭环成为可能 [21][22] - 这种系统化范式有望攻克复杂疾病,其潜力令人充满希望 [22]
超越 Prompt 和 RAG,「上下文工程」成了 Agent 核心胜负手
海外独角兽· 2025-09-17 20:08
Context Engineering 核心概念 - Context engineering 是由 Andrej Karpathy 提出的概念,指在正确时间为 agent 提供正确信息的方法论,覆盖并超越了 prompt engineering 和 RAG,成为 agent 开发的核心胜负手 [2] - 概念定义为"在大语言模型的上下文窗口中放入正好适合它执行下一步所需的信息",核心痛点在于 agent 实际运行中由海量工具调用和长程推理产生的冗长上下文成为性能和成本的巨大瓶颈 [2][4] - Chroma 联合创始人 Jeff Huber 认为 context engineering 是 AI engineering 的子集,包含内循环(即时筛选当前所需 context)和外循环(长期优化确保 context window 只包含相关信息)两个循环 [5] Context Engineering 的必要性 - 典型 agent 任务需要约50次工具调用,生产级 agent 甚至可能需要数百次工具调用,每次调用都会消耗大量 token [7] - 开源 AI 研究助手 Open Deep Research 单次运行可能消耗50万个 token,成本达到1-2美元 [7] - Chroma 报告显示随着 context 长度增加,模型注意力分散,推理能力下降,这种现象称为 context 衰减(context decay) [9] Offload(转移)策略 - 将工具调用的完整 context 转移到外部存储如文件系统,仅返回摘要或 URL 作为标识,显著优化资源利用率 [15][18] - Manus 将文件系统视为终极上下文:大小不受限制,天然持久化,代理可直接操作 [29] - Open Deep Research 通过精心设计的 prompt 生成详尽要点摘要,实现内容压缩的同时保持信息准确还原 [20] Reduce(压缩)策略 - 通过摘要和剪裁减少 context 内容,典型场景是当 Claude Code 95% context window 被占满时自动触发 reduce 机制 [24][26] - Manus 采用可恢复的压缩策略,保留 URL 或文档路径确保信息不永久丢失,避免不可逆压缩导致的信息丢失风险 [28][29] - 关于是否保留错误路径存在争议:Gemini 案例显示幻觉会污染后续决策,但保留错误信息可能让 agent 从失败中学习 [33][36] Retrieve(检索)策略 - 从外部资源检索相关信息加入 context,传统方法包括向量检索、语义检索和 grep 搜索 [40] - Lance Martin 基准测试显示,基于文件工具和简单搜索的检索方法效果优于经典向量检索和 context stuffing(直接输入300万 token 文档) [41][42] - 记忆检索可视为特定 context 下的检索,分为情景记忆、语义记忆、程序记忆和背景记忆四类 [43] Isolate(隔离)策略 - 在 multi-agent 架构中将 context 拆分,避免不同类型信息相互干扰,不同角色 agent 各自管理不同内容 [46][47] - Cognition 认为 multi-agent 架构下 sub-agent 获得足够 context 极其困难,投入大量精力在 context 摘要与压缩上 [49] - Anthropic 与 Cognition 存在分歧:Anthropic 认为 multi-agent 有用,Cognition 认为不要使用 multi-agent,尤其避免用于需要高度协同的 coding 场景 [50] Cache(缓存)策略 - 利用键值缓存机制提高 AI agent 多步骤任务效率和成本效益,Manus 中平均输入与输出 token 比例约为100:1 [55][56] - 使用 Claude Sonnet 时,缓存输入 token 成本为0.30美元/百万 token,未缓存成本为3美元/百万 token,相差10倍 [57] - 缓存只能优化延迟和成本,无法解决 long context 根本问题,当 context 达到十万 token 时模型性能衰减问题依然存在 [57] The Bitter Lesson 的启示 - 计算能力每五年增长十倍,scaling 趋势是推动 AI 进步的关键因素,依赖大量数据和计算的算法比手工特征设计表现更好 [59] - 随着模型能力提升,早期添加的结构化假设可能成为发展瓶颈,应转向更少结构化的通用方法 [60][70] - AI-native 产品如 Cursor 和 Windsurf 从零开始构建,相比将 AI 嵌入现有流程的改造方式更具优势 [70] 实践经验与框架选择 - Lance Martin 从高度结构化流程转向 agent 架构,验证了随着模型能力提升,减少结构化假设的重要性 [69] - 应区分 agent 抽象(高级封装)和底层编排框架(精细控制),后者提供透明可组合节点具有实用价值 [63][67] - 企业客户初期自行搭建,但随着代码管理问题出现,标准化框架如 MCP 为解决协作问题变得必要 [68]
一半美国医生都在用的AI产品,OpenEvidence 是医疗界的 Bloomberg
海外独角兽· 2025-09-16 20:04
文章核心观点 - 医疗是LLM最具潜力的应用场景之一 OpenEvidence通过AI驱动的临床决策支持工具 直击医生对高效实时循证医学知识的需求 解决了传统静态数据库如UpToDate在时效性和交互性上的滞后问题[2] - 公司采用消费级产品设计理念和PLG策略 绕过传统机构采购流程 实现病毒式增长 并成功将商业模式从工具提供转向情境感知的药品营销服务 成为医疗广告市场的直接竞争者[3] - 平台已覆盖超过40%的美国医生 月咨询量从2024年36万次飙升至2025年850万次 增长超过20倍 并获得2.1亿美元B轮融资 投后估值达35亿美元[3] 市场定位与需求 - 医疗差错是美国第三大死因 源于医学知识更新过快 毕业十年医生可能对最新疗法一无所知 且不同年龄段患者最佳疗法差异巨大[2] - 传统静态数据库如UpToDate依赖数千作者手动更新 存在信息滞后问题 而OpenEvidence通过每晚LLM再训练吸收最新文献 提供秒级响应的互动式精准答案[5] - 公司切入临床决策中最复杂关键问题 而非低风险文书工作 重塑医疗技术分发模式 将医生作为个体用户对待[3] 用户增长与参与度 - 平台月活跃医生用户达30-40万 覆盖美国约100万执业医生的40% 每月新增6.5万名认证临床医生注册 已渗透超1万家医院和医疗中心[41] - 月处理医生咨询量达850万次 2025年7月数据较2024年36万次增长超过20倍 过去一年查询量增长37倍[16][3] - 医生平均每次会话停留13.3分钟 比Doximity长4倍 比传统药企代表互动时间长7倍 树立医生参与度新标杆[14] 竞争优势与技术壁垒 - 拥有高质量专有医学知识库 与《新英格兰医学杂志》《美国医学会杂志》及专科期刊建立内容合作 合法使用受版权保护的同行评审内容进行模型训练[18] - 采用更小更专业的模型策略 在USMLE考试中错误率比通用LLM低77% 减少幻觉问题 首个得分超过90%的AI系统[38][40] - 数据来源仅限政府机构、顶级期刊和专业协会指南 建立质量分级系统 每日更新知识库 避免连接公共互联网确保信息纯净性[40] 商业模式与商业化 - 收入主要来自情境感知的药品营销 广告基于医生实时临床问题投放 价值指数级高于社交平台信息流广告[19] - 广告位eCPM高达80-100美元 是标准展示广告的3-5倍 能带来10-30%的处方量增长[32] - 已开始试点基于席位的许可证 价格比UpToDate低20-30% 以及按使用量计费的API接口 未来向广告订阅双轮驱动演进[19][47] 市场格局与TAM - 目标市场是美国每年超200亿美元的HCP营销预算和全球166亿美元的CDS市场份额[22] - 美国2024年面向医生的推广预算约280亿美元 其中数字渠道占18% 预计2029年升至30%[23][25] - Doximity2025财年收入5.7亿美元 覆盖80%美国医生 OpenEvidence流量已是其AI工具的12倍 使用量全面超越[10] 产品功能与应用 - 提供双响应模式 Care Guidelines和Clinical Evidence 每个答案附交叉引用编号和文献列表 确保可追溯性[35] - 支持临床诊疗、复杂病例证据综合、行政工作流辅助和医学知识追踪等功能 包含50+临床计算器覆盖高频场景[36] - 2025年7月推出DeepConsult 首个为医生设计的AI助手 可自主分析数百篇同行评议研究 尽管计算成本是标准搜索的100倍 但仍向全美医生免费提供[37] 竞争环境 - 面临传统临床内容平台如UpToDate的竞争 其拥有1.2万篇专家撰写文章 与Epic/Cerner深度集成 但价格昂贵且AI功能响应慢[51] - AI原生挑战者如Abridge、Ambience竞争医生工作流程和注意力 若成功掌控临床工作流核心环节 OpenEvidence可能被边缘化为参考工具[53] - 科技巨头如Google、Microsoft拥有强大模型能力和云渠道 若将临床助手与EHR集成捆绑 用户采用速度可能非常快[55]
Vibe Working:AI Coding 泛化的终局想象 |AGIX PM Notes
海外独角兽· 2025-09-15 20:05
AGIX指数与市场表现 - AGIX指数旨在衡量AGI新科技范式 如同Nasdaq100之于互联网时代[1] - AGIX本周上涨3.15% 大幅跑赢S&P 500(1.37%)和QQQ(1.35%)[2] - 年初至今AGIX累计上涨25.69% 显著高于S&P 500(11.95%)和QQQ(14.75%)[2] - 自2024年以来AGIX累计回报达69.95% 超越S&P 500(38.04%)和QQQ(43.26%)[2] 行业板块表现 - 半导体与硬件板块本周上涨0.93% 占指数权重23%[3] - 基础设施板块本周上涨2.23% 占指数权重45%[3] - 应用板块本周微跌0.01% 占指数权重32%[3] Vibe Working概念 - Vibe working强调用自然语言描述目标 AI自动产出可用代码[6] - 需要可追溯的上下文和低延迟反馈作为前提条件[7] - 推广到开放环境需要环境状态可读 具备可判定性和可控执行[7] - 依赖代码化工作流管理和企业Context数字孪生[7] 工作流自动化工具 - Zapier支持AI Agent协作管理 通过自然语言构建工作流[8] - n8n专注于无人自动化工作流 面向技术化团队[9] - Glean和Decagon从单点功能切入工作流协同[9] - 未来可能向多态工具平台发展 支持所有AI Agent用例[9] 技术发展挑战 - 语言模型存在输出非确定性问题[10] - 需要确定性工作流平台作为代理能力枢纽[10] - LLM应作为基础设施而非工作流核心[10] - Claude File Creation与两年前Juliusai能力相似[11] 市场动态与公司表现 - 美股三大指数创新高 受益于美联储降息预期[12] - 亚洲市场表现积极 沪深300创3月以来最大单日涨幅[12] - Nebius与Microsoft签署174亿美元GPU基础设施协议[14] - Microsoft为Office 365引入Anthropic技术部分替代OpenAI[15] - Microsoft与OpenAI达成非约束性重组协议[16] - Nvidia发布Rubin CPX GPU 性能提升75倍[16] - TSMC 8月营收同比增长34%达111亿美元[17] - Adobe上调业绩预期 AI产品年经常性收入超50亿美元[18] - Micron目标价被上调至175美元 潜在涨幅25%[19] ETF分红机制 - ETF分红来源于持有股票派发的股息[20] - 分红流程包括股息收取 费用扣除和按比例分配[21] - 分红频率多为季度 也可年度或月度[21] - 除息日前持有才能获得分红[22] - 股息率因标的资产组合不同而差异较大[22]
Cloudflare 的 AI 新叙事:线上内容“做市商”,Agent 互联网流量基建
海外独角兽· 2025-09-12 20:04
公司概况与业务演化 - Cloudflare是全球最大的CDN供应商,最新市值达782亿美元,年收入18亿美元,毛利率75%,近5年营收复合年增长率超过42% [2][5] - 公司业务演化与互联网发展紧密相连,从简单的云端防火墙想法发展为线上流量关键基础设施,目前核心业务包括Zero Trust Service、网络服务和应用服务三大板块 [2][6] - 截至2025年6月30日,Cloudflare付费客户数量超过26.5万,财富500强企业中36%是其付费客户,全球约80%的AI公司使用其服务 [5][44] Pay-per-Crawl商业模式创新 - Pay-per-Crawl是Cloudflare今年7月推出的实验型产品,允许网站创作者设置AI爬虫内容权限(自由访问、按次收费或封锁访问),旨在重构AI时代内容交易机制 [3][31] - 该模式基于AI颠覆传统互联网价值变现模式的背景:在ChatGPT中内容获得点击的难度是Google的750倍,在Claude中高达3万倍,基于流量的商业模式长期看会失效 [20][24] - Cloudflare希望成为内容市场的技术平台和"做市商",通过创造稀缺性建立新交易机制,但不参与内容评价体系,目前产品尚未带来实际收益 [3][39] AI时代的内容生态变革 - 互联网入口正从搜索引擎转向答案引擎,导致内容创作者点击减少,可能引发高质量内容消失、知识垄断或新商业模式建立三种结果 [21][28] - 理想的内容交易机制应让创作者根据AI模型订阅费或广告收入长期按比例分成,而非一次性买断,Reddit通过阻止免费爬取每年获得数千万美元收入 [29][38] - 差异化内容价值将更受重视,以tokens计算Reddit和《纽约时报》内容量级相当,但前者收入是后者7倍,因Reddit内容更具独特性 [36] Cloudflare的AI战略定位 - Cloudflare定位为"第四朵云",角色类似于网络管理员专注于数据快速传输,与以数据库为中心的公有云形成互补,AI发展加速的多云趋势强化其桥梁价值 [42][43] - 公司早在2020年就布局inference领域,与Nvidia合作将显卡部署到边缘网络,适合需要频繁互联网交互的AI Agents,是80%AI公司的服务提供商 [44][45] - Cloudflare商业模式按算力消耗计费,更关注推理效率提升,如果有人将推理效率提高100倍将直接利好公司,而不像云巨头依赖GPU出租 [4][50] AI推理效率与行业机遇 - AI领域关键突破点在于提高inference compute效率,目前高功耗是最大限制因素,类似2011年Facebook推动Open Compute Project的行业变革机遇 [48][49] - 未来可能出现"AI时代VMware"级机会,通过细粒度算力切分提升GPU利用效率,就像过去30年CPU效率演进过程在GPU上加速重演 [50][51] - 技术发展将使大型模型在设备端运行成为可能,例如iPhone或安卓手机直接运行类似ChatGPT的模型,这需要芯片设计和模型优化的共同进步 [49][50]