Workflow
海外独角兽
icon
搜索文档
Harness Engineering 为什么是 Agent 时代的“控制论”?
海外独角兽· 2026-03-18 12:17
文章核心观点 - 文章通过历史类比,提出“控制论”是理解AI时代软件工程演进的核心理念,工程师的角色正从直接编写代码转向设计能让AI智能体(agent)自动运转的系统[2][6][13] - 大型语言模型(LLM)首次使得在“架构决策”层面构建自动化反馈回路成为可能,这要求工程师将隐性的架构知识、质量标准和团队规范显式化、机器可读化,否则AI智能体将无法有效工作[16][22] - 采用AI智能体进行工程开发(Agentic engineering)并未改变优秀软件工程实践的本质,但极大地提高了不遵循这些实践(如缺乏文档、测试、架构约束)的即时和持续代价,使得建立高效的验证与评估体系变得至关重要[23][24] 软件工程模式的演进与控制论 - 历史上出现过三次工程师角色从“直接操作”转向“设计自动控制系统”的相似模式:18世纪80年代瓦特改进离心调速器用于蒸汽机自动控制[9]、Kubernetes通过控制器实现容器化应用的声明式管理与自动修复[10]、以及当前OpenAI提出的由AI智能体自动编码的“harness engineering”[6][13] - 这三次模式转变的共同驱动因素是:出现了足够强大的“传感器”和“执行器”,能够在特定层面(如机械转速、容器状态、代码质量)将反馈回路闭合起来[15] - 控制论是这一模式的理论基础,其核心是设计系统以实现自动调节与目标对齐,工程师的角色从“拧阀门”转变为“掌舵”[13] LLM如何改变软件工程反馈回路 - 在LLM出现之前,代码库的自动化反馈回路(如编译器、测试、Linter)仅存在于底层,处理可机械检验的问题,而更高层次的架构决策、技术方案选择等缺乏自动化机制,完全依赖人工[16] - LLM同时改变了反馈回路的两端:既能像人一样感知和判断代码质量,也能执行复杂的代码改动,这使得在关键的“架构决策”层面首次有可能构建闭合的自动化反馈回路[16] - 然而,闭合回路仅是必要条件,要让LLM智能体有效工作,必须为其提供经过精心校准的“传感器”和“执行器”,即明确、机器可读的系统规则与质量标准[17][18] 实施AI智能体工程的关键挑战与解决方案 - 主要挑战在于将工程师脑中关于系统“何为正确”的隐性知识(如架构偏好、设计模式、质量审美)转化为机器可读的形式,否则智能体会持续重复相同的错误[22] - 解决方案包括:编写描述真实架构的文档、配置带有修复指引的自定义Linter、将团队规范编码成“黄金原则”等 OpenAI通过将自身标准编码进“harness”,从根本上解决了每周花费20%时间清理“AI slop”(低质量AI生成代码)的问题[22] - 设计精良的测试基础设施和反馈机制是智能体协作成功的关键,如Carlini让16个智能体协作构建C编译器的案例所示,其大部分精力花在了设计智能体周围的环境上[18] AI智能体时代对软件工程实践的倒逼 - 文档、自动化测试、编码化的架构决策和快速反馈回路等经典优秀工程实践,在AI智能体时代从“推荐”变为“必需” 跳过这些实践的代价被急剧放大和加速[23] - 具体表现包括:缺乏文档会导致智能体在所有PR(拉取请求)上持续违反规范;缺乏测试会使反馈回路无法闭合;缺乏架构约束会导致“代码漂移”的速度远超人工修复速度[23] - 核心方向从“比机器更快地生成代码”转向“更高效地评估机器产出” 研究证明,训练LLM验证答案正确性比直接生成正确答案更容易,这为工程实践指明了重点:定义“正确”、识别偏差、判断方向[24][25]
OpenClaw 引爆 AI 安全焦虑,Armadin 的 Agent 攻防闭环会成为新范式吗?
海外独角兽· 2026-03-17 20:07
行业背景:AI Agent时代网络安全范式的转变 - **核心观点:AI Agent的普及正在重塑网络安全的攻防格局,攻击成本大幅降低、规模与速度剧增,传统静态、低频的防御体系已失效,催生了对能够理解复杂非线性攻击路径的全局、自动化安全解决方案的迫切需求** [2] - **攻击侧发生结构性变化**:AI使网络攻击的综合成本下降约 **100倍至1000倍**,使得对目标发动全面、持续的攻击在经济上首次变得可行 [7] - **技术成本骤降**:过去开发高质量零日漏洞攻击代码成本在 **10万美元到250万美元** 之间,现在借助Agent进行vibe coding,普通人仅需几秒即可生成代码 [7] - **社会工程学攻击成本降低**:在Deepfake等AI技术加持下,生成高度定制化钓鱼内容的成本极低,抹平了“精准欺骗”所需的高昂人工成本 [11] - **攻击活动实现规模化与自动化**:Agent具备7×24小时持续攻击能力,可同时针对成百上千个目标发起并发打击,攻击速度和效率呈指数级提升 [13] - 数据印证:2024年下半年凭证钓鱼攻击暴增 **703%**,整体邮件攻击增长 **202%** [13] - **攻击确定性提高**:一旦Agent能够成功执行某种攻击,这种攻击的发生概率就是 **100%**,AI会持续尝试直到成功,过去概率较低的攻击路径均变为现实威胁 [16] - **攻击更加隐蔽**:现代Agent使用网络的方式与真人用户高度相似,其流量模式与人类用户的活跃周期高度相似,难以通过传统方式识别 [16] - **防守侧传统模式存在结构性缺陷**:网络安全存在攻防不对称性,AI时代进一步放大,进攻成本下降,防御复杂度上升 [17] - **传统防御软件被动**:无法在漏洞被利用前主动发现和修复问题 [17] - **人类红队存在局限**:路径覆盖不完整,且评估频率(通常为年度)无法应对企业网络的持续动态变化 [17] - **经济成本过高**:一次标准的人类咨询评估(两人两周加一周报告)费用约 **6万美元**;雇佣人类覆盖企业 **1%** 的攻击面可能需耗资 **100万美元**,实现 **100%** 覆盖的线性外推成本高达 **1亿美元**,远超企业安全预算 [18] - **市场前景广阔**:攻击面管理市场预计到 **2029年** 将达到 **484亿美元**,自 **2024年** 以来的复合年增长率为 **12.6%** [20] 公司介绍:Armadin的核心理念与产品 - **公司定位**:一家利用AI Agent Swarm系统持续模拟真实攻击者行为、形成自主防御闭环的网络安全公司 [3][24] - **创立背景与融资**:成立于AI重塑网络安全攻防的背景下,于 **2024年3月** 完成 **1.9亿美元** 种子轮和A轮融资,由Accel领投,参投方包括Google Ventures、Kleiner Perkins等 [3] - **核心理念**:打造能够执行国家级网络攻击行为的Agent,让其持续攻击自身系统,再利用攻击结果训练防御Agent,形成无需人类干预的自主防御闭环 [24] - **终极竞争对手**:公司认为最大的竞争对手是真实发起网络攻击的一方,尤其是国家级进攻行为,竞争关键在于谁能更快构建最强的进攻Agent并转化为最强的防御Agent [26] - **产品形态与功能**:产品是一个Cockpit控制面板界面,支持Web应用渗透测试、基础设施攻击等多种场景 [30] - **输出优化**:为避免高误报,产品根据漏洞的可利用性和业务影响排序,生成优先修复清单,而非简单罗列漏洞 [30] - **长期目标**:五年后目标是用 **45万个** AI Agent实时保护 **3.2万个** 实体,防御平台能针对所有风险持续自动修复、更新,完全无需人工干预 [32] - **技术实现路径**:将人类专家的攻击方法论结构化,转化为Agent可直接学习的格式,让Agent习得人类专家的思考方式 [34] - **训练过程**:包括将非标准化、创造性的战术(如通过视频识别白板上的密码)纳入训练流程 [35] - **执行控制**:将操作按风险等级分类,高危操作需人类审批,最终目标是走向完全自主 [35][36] - **商业模式与“飞轮效应”**: - **独特商业飞轮**:客户付费进行安全评估的同时,也为公司提供高质量的攻击方法和技术训练数据,每一次真实交付都能同步提升Agent能力 [37] - **经济优势显著**:原本需要两周时间、花费约 **6万美元** 的人类渗透测试,Agent几分钟就能完成,Token成本极低,使得企业有能力实现全天候、100%的攻击面覆盖 [37][38] 技术挑战与解决方案 - **核心挑战**:如何让一个协调一致的Agent集群在真实企业环境中安全、高效地运作,这是一个远超现有Agentic系统能力边界的工程问题 [45] - **分布式上下文管理**:需建立共享记忆(Shared Memory)或蜂巢上下文(Hive Context),让每个Agent都能理解全局动态,保持系统持续运转,这是人类专家无法企及的能力 [47] - **奖励验证的稀缺性**:网络安全领域在强化学习中面临如何验证攻击/防御是否成功的难题 [48] - **解决方案**:通过真实交付积累评估环境,将每一次成功的攻击转化为可验证的评估场景,为模型训练提供高质量的奖励信号 [48] 团队实力与案例展示 - **团队背景强大**:成员包括Mandiant创始人Kevin Mandia、前Google Cloud安全首席工程师等,拥有超过20名AI原生开发者及一支曾测试大多数财富100强企业的红队专家团队 [49][50] - **案例展示Agent能力**: - **案例1:全自动账户接管**:Agent自主潜入暗网,从海量数据中提取 **438个** 被泄露的员工凭据,成功验证 **7个** 有效账户,并利用未完成的2FA流程完成账户接管,全程无人类介入 [41] - **案例2:发现系统性配置风险**:通过攻破RSA服务器,发现企业为所有软令牌设置统一导入密码的流程漏洞,从而进入机密网络 [42] - **案例3:创意攻击识别业务关键风险**:通过外部SQL注入漏洞获取RCE权限后,利用开放的IBM MQ消息队列协议(无身份验证),获得篡改国际航班eAPIS舱单的权限,展示了识别非标准、创造性攻击路径的能力 [43][44]
Legora、Mercor 都在用,Reducto 能成为独立的 LLM 数据入口吗?
海外独角兽· 2026-03-12 20:08
文章核心观点 - 公司Reducto是一家专注于高精度文档解析的AI数据基础设施公司,通过其专有的Agentic OCR技术,将非结构化文档转化为大模型可稳定理解的结构化数据,解决了企业AI落地中“数据质量”这一核心瓶颈[2][3] - 公司在6个月内连续完成由Benchmark和a16z领投的两轮融资,估值达到6亿美元,显示出市场对其解决行业痛点的认可[2][3] - 公司的长期发展面临关键挑战:随着多模态大模型能力的持续提升,其在简单文档场景的生存空间受到挤压,其作为独立数据摄取层的长期价值存疑[2][6] 行业痛点与市场机会 - 企业AI落地的主要瓶颈在于数据质量,约80%的企业数据以PDF、Excel、扫描件等非结构化形式存在[3] - 传统OCR和简单的多模态大模型难以准确理解复杂文档结构(如多栏排版、嵌套表格、图文混排),解析错误会在自动化决策链中被放大,导致业务损失[2][8][13] - 客户对数据摄取工具的核心诉求是准确性,尤其是在处理复杂版面时保持结构保真度,并能直接输出适合RAG工作流的干净结构化数据[15] 公司产品与技术 - 公司产品以API形式提供,核心端点包括Parse(解析)、Extract(提取)、Split(拆分)和Edit(编辑),可将文档转化为结构化JSON等格式[17] - 公司于去年6月发布了Reducto Studio,提供可视化界面,方便客户对比原始文档与解析结果,降低了使用门槛[21] - 公司的核心技术壁垒是其三层混合架构:1) 基于计算机视觉的版面解析;2) VLM上下文语义理解;3) Agentic OCR多轮自纠错引擎,通过递归对齐修正错误[36] - 该技术能有效攻克复杂图表提取和混乱电子表格解析两大技术盲区,例如通过重新渲染图表进行交叉验证来确保数据点精确[39][43] 客户与市场表现 - 公司客户覆盖面广,主要包括三类:垂直领域AI公司(如Harvey)、AI数据标注/基础设施公司(如Scale AI, Mercor)以及FAANG级别科技巨头和财富前十企业[5][31] - 典型应用场景集中在金融、保险、医疗、法律等对数据提取有“零错误容忍”要求的行业,并已拓展至供应链、教育科技等更多领域[34][35] - 截至2025年10月,公司累计处理页面量较半年前增长约157%,月处理量较2025年6-7月增长5倍[31] - 约40%的客户会同时使用两个或多个API端点构建工作流[32] 竞争格局与公司定位 - 公司主要面临四类竞争对手:原生多模态大模型(如Gemini, GPT)、云厂商基础设施(如AWS Textract)、AI数据处理平台(如Unstructured.io)、传统及初创IDP工具(如Docparser)[45] - 在复杂文档场景(扫描件、手写、复杂表格),公司的护城河稳固,因为多模态大模型和传统工具在此类场景表现不佳[6][46][50] - 在简单文档场景(电子生成PDF、规整报表),公司面临来自多模态大模型的直接威胁,后者成本更低且准确率正迅速提升,存在被商品化风险[6][46][47] - 与云厂商相比,公司处理成本较高(约为AWS Textract的10倍),但在处理复杂文档时输出质量远超对手[49][50] - 与Unstructured.io存在“精度”与“广度”的路线差异,在实际部署中常形成“混合管线”,例如用Unstructured.io做首轮路由,将复杂文档分流给公司处理[51][52] 团队背景与融资情况 - 公司由Adit Abraham (CEO) 和 Raunak Chowdhuri (CTO) 于2023年联合创立,两人均毕业于MIT,拥有机器学习与计算机视觉背景[56][58][59] - 团队极其精简,在2025年4月ARR突破百万美元时全职员工仅4人,B轮融资后团队约12人[56] - 公司已完成四轮融资,累计融资金额达1.084亿美元,B轮估值达6.05亿美元,由a16z领投[61][62] - 公司资金消耗率低,B轮时银行账户仍有超过1亿美元现金[61]
为什么顶尖投行都选择了 Rogo 这个金融 Agent?
海外独角兽· 2026-03-05 20:07
文章核心观点 - 全球投行业务年交易额高达3.5万亿美元,但其运转高度依赖初级分析师从事大量重复性劳动,这为金融垂直领域AI应用创造了巨大机会[2][4] - 金融AI应用面临三大苛刻门槛:零容错的准确性要求、被付费墙封锁的私有数据、以及极难接管的复杂内部工作流[2][5][6] - Rogo是一家旨在同时解决上述三大挑战的AI初创公司,其核心策略不是再造数据库,而是将AI能力深度嵌入分析师现有的工作环境(如Excel、PowerPoint)和核心数据源[2][7][20] - 公司自2022年创立以来发展迅速,已服务超过50家顶级金融机构,日活用户突破25,000人,年度经常性收入在两年内增长27倍,并在16个月内完成三轮累计超1.65亿美元的融资,估值达7.5亿美元[3][10][44] - 金融AI赛道竞争激烈,既有Anthropic、OpenAI等大模型厂商推出金融服务套件,也有Hebbia、Boosted.ai等垂直领域玩家,竞争的关键在于谁能真正嵌入并接管金融机构根深蒂固且差异化极大的工作流[3][53][66] 行业痛点与市场机会 - **工作强度与低效**:驱动全球投行业务运转的初级分析师常被称为“Excel Monkey”,每周工作超过100小时,从事大量单调、重复的数据处理、文档格式调整和信息提取工作,导致严重的职业倦怠[4][5] - **金融AI落地迟缓**:尽管生成式AI在法律(如Harvey)、医疗(如OpenEvidence)等领域已有成功应用,但在金融投研领域尚未出现统治级应用[2][5] - **三大核心挑战**: 1. **对容错率的低容忍**:投行财务模型直接关乎数十亿乃至上百亿美元的交易,AI输出任何微小错误都可能导致灾难性估值偏差[5] 2. **坚固的数据壁垒**:核心数据分散于财报电话会议录音、内部文档及年费高昂的专业数据库(如Bloomberg终端年费2-3万美元,AlphaSense单账号年费1-2万美元),普通AI工具无法穿透这些付费墙[5][6] 3. **复杂的内部工作流接管成本**:真实的金融模型(如DCF、LBO)由多人历经数月搭建,充满复杂的链接和个人化格式,AI难以直接解析和接管[6] - **市场规模**:由Bloomberg、S&P Capital IQ、FactSet等组成的核心金融数据与研报检索市场,年软件订阅营收规模在250亿至300亿美元[32] - **潜在市场空间**:人力薪酬是投行的最大支出(如摩根士丹利2024年薪酬福利支出达261.7亿美元,占总营收42%),Rogo的目标是将昂贵的人力运营成本转化为边际成本极低的AI基础设施支出,其潜在市场空间巨大[33][36] - **用户基数**:仅欧美资产管理行业从业人数就超过120万,Rogo目前2.5万日活用户的渗透率仍不足2%[37][38] Rogo公司概况 - **创立背景**:公司成立于2022年1月,由普林斯顿校友Gabriel Stengel和John Willett创立,两人均有华尔街一线投行(J.P. Morgan, Lazard)工作经验,深刻理解行业痛点[7] - **技术路线转型**:早期产品是基于传统NLP的数据检索工具,2022年底ChatGPT的出现促使公司转向基于LLM的生成式AI架构,并进行金融领域微调,使其从“查数据工具”升级为“能思考、会写作、能推理的AI分析师”[8][9] - **发展里程碑**: - 2023年底签下第一个付费客户,随后相继拿下野村、拉扎德、摩根大通等顶级投行[10] - 截至2026年1月,服务超过50家顶级金融机构,日活用户突破25,000人[3][10] - ARR自首批客户以来增长27倍[10] - **融资历程**:在16个月内(2024年10月至2026年1月)完成三轮融资,累计超1.65亿美元,投后估值达7.5亿美元,投资方包括红杉资本、Thrive Capital、Khosla Ventures及摩根大通等[3][10][44] 产品与解决方案 - **核心定位**:AI驱动的金融分析工作台,将研究、建模、文档处理和数据操作整合在同一界面,全面覆盖分析师从信息搜集到模型输出的完整工作流[11][12] - **核心构成**: 1. **研究助手**:知识库涵盖超5,000万份专业金融文件(SEC备案、公司年报、卖方研报等),支持自然语言提问,提供带溯源引用的结构化答案[12][26] 2. **数据集成**:与LSEG、PitchBook、S&P Capital IQ、FactSet、Crunchbase等核心数据源建立深度合作,打通数据孤岛,允许在同一界面检索多种数据[16][18] 3. **Office集成**:直接嵌入Microsoft Excel和PowerPoint,允许用户在熟悉的环境中调用AI能力,如在Excel中直接填充模型数据,用PPT插件自动生成演示文稿框架和图表[18][20] 4. **智能电子表格**:通过2025年9月收购Subset公司,增强了AI驱动的电子表格能力,可从财报PDF自动构建金融模型、执行情景分析、检测错误并连接外部数据源[22] - **技术架构**: - 采用多模型并行架构,底层部署于Amazon Bedrock,并集成OpenAI、Google Gemini、Anthropic等主流模型,根据任务复杂度智能路由[24] - 对模型进行金融领域微调,学习金融“思考方式”和特定输出格式[24] - 强调可溯源性和低幻觉,每个结果附带引用,若无来源则拒绝提供答案[26] - **安全与合规**:采用单租户部署,数据完全隔离,承诺不将客户数据用于模型训练,并与美国金融业监管局等监管机构保持合规沟通[26] - **效能提升**:在通用LLM提升10%-20%基础效率之上,能再贡献5%-10%的增量效率;在PitchBook检索等特定场景下,耗时能缩短至原先的1/3[28] 商业模式与客户 - **收费模式**:采用基于席位的年费订阅模式(企业级SaaS),一个席位年费约数千美元,10-12席位套餐约数万美元[28] - **价值主张**:成本低于一个初级分析师的年薪(顶级投行应届生年薪约15万美元),只要能减少半个分析师的人力成本即可覆盖订阅费用[28] - **标杆客户**:包括摩根大通、野村证券、拉扎德、罗斯柴尔德、杰富瑞、Moelis等顶级投行,这些客户本身形成了强大的品牌背书[3][10][30] - **增长数据**: - 2024年10月(A轮):被25家以上头部金融机构采用,达到数百万美元ARR[31] - 2025年4月(B轮):覆盖美国前10大投行中的6家[31] - 2025年6月:ARR实现约27倍年增长,平台服务5,000+日活用户,单位用户每周可节省10+小时[31] - 2026年1月(C轮):日活用户扩展至25,000+[31][32] 实际使用反馈 - **自上而下的采购**:金融行业软件采购多为公司高层主导,风控严格,禁止使用非指定AI工具,这为Rogo这类通过正规渠道进入的产品创造了机会[39] - **习惯养成与认可**:Rogo的推行帮助公司内部养成了AI使用习惯,甚至出现了“rogo一下”的用语,其权威性和准确性得到了包括高层在内的员工认可[39][40] - **可溯源性的重要性**:附带明确引用来源的能力是金融行业的刚需,这使Rogo区别于一般的聊天机器人[26][41] - **效率提升与局限性**:在ECM团队的项目发起阶段,以及公司简介、行业入门、评论撰写等工作上能显著提升效率。但对于高度复杂、非标准化或团队独有的成熟工作流,AI目前仍难以完全处理,无法完全取代分析师[41][42] 团队与愿景 - **团队背景**:团队融合了来自顶级投行(如摩根大通、拉扎德、巴克莱)、科技公司(如谷歌、OpenAI)和对冲基金(如Citadel)的人才,兼具金融与AI技术专长[46][48] - **创始人**: - **Gabriel Stengel (CEO)**:普林斯顿计算机科学毕业,前拉扎德并购分析师,亲历“Excel地狱”,是典型的“科技-银行家”复合人才[51] - **John Willett (COO)**:普林斯顿毕业,前摩根大通和巴克莱TMT投行家,深谙金融机构软件采购标准[51] - **Tumas Rackaitis (CTO)**:拥有量化交易与高性能计算背景,领导构建了Rogo专有的“金融推理栈”[51] - **终极愿景**:打造一个“完全自主的AI分析师”,它能了解用户的思维方式和投资风格,主动发现信息、准备材料,并以使用者自己的方式呈现结论[52] 主要竞争对手分析 - **AI Native垂直玩家**: 1. **Hebbia**:核心定位为大规模文档处理引擎,擅长对海量非结构化文档(如合同、研报)进行网格化并行解析。优势在于多文档协同和深度理解私有文档,在处理零散PDF时准确度领先。客户包括KKR、Oak Hill Advisors等。定价较高,约20,000-35,000美元/人/年[53][55][56][66] 2. **Boosted.ai**:核心定位为资产管理与选股大脑,侧重于机器学习驱动的因子分析、选股排名及Alpha生成。产品包括选股/对冲工具和AI代理Alfa,能根据宏观指标、KPI等对股票池实时评分。客户包括BMO、景顺、华夏基金等。定价通常按资管规模计费,约50,000-100,000+美元/年[53][61][63][66] - **大模型厂商**: 1. **Anthropic for Financial Services**:凭借Claude模型在长文本、逻辑性和低幻觉率方面的优势,成为许多投行的选择。其Claude for Financial Services能记住机构专属模板格式,并预建了与标普、FactSet等数据库的连接器。客户包括高盛、挪威主权财富基金、桥水等。挪威主权财富基金的试点显示,员工每周在AI辅助任务上节省超过20%的时间[53][67][68][72][73] 2. **OpenAI for financial services**:提供智能体工作流、深度研究和高度合规的私有化部署方案。客户案例如BBVA将其ChatGPT部署规模扩大10倍覆盖12万员工,帮助员工每周平均节省约3小时;摩根士丹利利用其AskResearchGPT从海量研报中快速合成深度见解[75][78][80]
国产模型春节大考:来自 MiniMax、GLM、Seedance 开发者的一线复盘|Best Ideas
海外独角兽· 2026-02-28 17:43
文章核心观点 国产大模型在技术能力、社区影响力及商业化应用上正快速追赶并局部超越硅谷同行 特别是在视频生成、推理效率优化和成本控制方面展现出显著优势 行业竞争格局正从技术刷榜转向真实场景落地和商业化能力比拼 未来增长将由多模态应用和智能体场景驱动 国产模型出海面临地缘政治挑战 但通过生态合作和产品创新仍存在巨大机会 [5][6][15][29][32][34] 重要技术问题 - 模型能力正从可验证任务向模糊任务迁移 未来需具备对开放任务的自我批判和进化能力 [8][10][12] - 持续学习是2026年的确定性趋势 核心在于模型部署后能否通过更新内部状态在特定任务上持续改进 难点在于长程任务奖励信号稀疏 内在奖励机制是潜在创新方向 [12] - 在可验证任务上取得成功的强化学习之外 多模态感知和思维效率是值得关注的方向 当前思维模型与聊天模型存在割裂 自适应思维常以性能换效率 [13] - Scaling Law在国内依然有效 参数或数据集的翻倍带来了显著的智能收益 [13] - 数据的重要性日益凸显 数据获取、清洗、长尾挖掘、难例构造与评测闭环将成为未来模型能力差距的关键分野 行业研发范式正从算力约束转向数据约束 [14] - 中国在数据采集 尤其是灵活、高质量的独家视频数据采集方面具有劳动力组织优势 [14] - 中国模型公司在推理速度和工程稳定性等基础设施方面相比Anthropic和Google仍有短板 且受限于算力卡资源 [14] - 缺卡现状倒逼中国公司在底层架构创新上积极性更高 致力于解决推理效率问题 [15] - AI市场终局将类似电商行业百花齐放 各家有望分化出自己的智能体产品和市场生态位 [15] - 模型能力将很快拉齐 最终分化可能在于产品品味 是成为极致理性工具还是具有人格的伙伴 [15] - AI编程是一个至少千亿美元的市场 AI视频的市场空间可能与之相当甚至更大 [15] - 与编程领域赢家通吃不同 影像市场更具分化性 厂商可在不同维度打磨找到差异化生存空间 [16] - 视频模型能力提升将外溢至具身智能 加速机器人产业发展 [16] - 软件工程的工作性质已发生实质性变化 程序员可通过驱动编程智能体完成工程构建 [16] - 智能体能力提升更多由基座模型驱动 模型厂商正将应用层的系统提示和编排框架封装进基座 对初创公司构成威胁 前沿闭源公司已将智能体执行日志等数据用于训练 [16] - Kimi 2.5通过强化学习将编排者加子智能体的思路直接写入模型内生能力 [17] 现象级国产模型深度解析 ByteDance:Seedance 2.0 - Seedance 2.0标志着国产大模型首次在全球范围内实现领先 在视频生成维度与海外顶尖模型领先一个代际 表现为生产效率与可用性的飞跃 [18] - 效率革命:生产同等质量视频的效率提升10到20倍 过去需长达一天的创作任务现依靠模型可在半小时内完成 [18] - 直出可用性:实现极高的一键直出成功率 视频创作从抽卡逻辑进化到工业化可用阶段 单次生成的15秒视频在语义理解和镜头衔接上基本达到商用门槛 [18] - 专业镜头语言:模型展现了精密的语义理解、镜头切换及专业级别的镜头语言表达 [19] - 未来6到12个月内 视频创作门槛将彻底崩塌 迎来国民级导演时代 普通人有望以低成本制作高质量长视频 [19] - 技术提升体现在信息提取更分层化、对微动作微表情建模更细、因果逻辑与物理关系理解更强三个层面 [19] - 视频供给的无限释放将带来对现有供给的重塑和过去无法存在的新场景两类机会 [19] - Seedance 2.0的出现对依赖传统生图、配音、剪辑链条式工作流的上层工具团队构成挑战 [20] - 字节在视频模型上的领先具有必然性且可能持续 体现在战略优先级高、组织战力强、算力需求相对可控、数据积累丰富及合规限制较少等方面 [20][21] MiniMax M2 - 定义清楚任务和目标比刷公开基准测试更重要 公开基准测试只是对模型能力的一种观测 不代表市场真实价值 [22] - MiniMax内部构建了更全面的VIBE基准测试 涵盖软件开发全栈 其新模型在该榜单上比Claude Opus 4.5/4.6有显著提升 [22] - MiniMax M2基座模型选择200B参数加10B激活的规模 旨在实现性能、速度、成本的平衡 解决顶尖模型好用但用不起的痛点 [24] - 选择该尺寸基于实际智能体落地需求:需支持高并发以保证工作流效率 且作为全天候个人助理必须成本可负担 [24] - 通过预训练实验及对硅谷进展的交叉验证 确认该尺寸能达到顶级性能并提供足够快的速度 Anthropic的Claude也印证了此路径 [24] - OpenClaw创始人在Claude账号被封后改用MiniMax模型 验证了其在性能、成本和速度上的良好平衡 [24] - Anthropic最值得学习的经验是内部深度使用产品 MiniMax全公司已采用智能体原生方式工作 通过内部真实反馈收集边缘场景需求 [25] 智谱 GLM-5 - 智谱在科学家路线与工程师路线间选择了全面对标Anthropic的工程师路线 因其更贴近使用场景且有经济价值 [26] - 编程/智能体任务与推理任务有本质差异 前者更依赖工程直觉 需要一眼找到问题根因并用更少的Token直接解决 [26] - 扩大基座规模对解决复杂任务非常必要 GLM-5的目标是在大多数场景下逼近Claude Opus的效果 [26] - 实验发现模型在编程任务上随规模扩大有显著增益 工程直觉、思路和知识量都明显提升 [27] - GLM-5总参数744B 激活参数约40B 规模控制在4-8张H100能够承载的范围 以确保大规模落地生产部署 [27] - 为优化长上下文编程场景下的成本 GLM-5引入了DeepSeek稀疏注意力架构 该架构在处理长序列时可只关注局部或筛选后的有限Token 降低计算复杂度 [27] - 在大量消融实验中 DSA架构在保持性能无损的同时 极大地减少了预填充阶段的计算量 理论上可显著压低推理成本 [28] - 在编程市场 GLM 5试图挑战中高端市场 其约3美元的成本对标Sonnet/Opus的15-25美元 对开发者有极大吸引力 且国内开源模型对Claude技能等生态兼容度好 [28] Token消耗、模型商业化与出海 - Token消耗已成为共识性新指标 反映了模型智能落地场景的变迁:从24年的研究类场景 到24-25年上半年的文本模型时代 再到25年中视频模型成为主力 25年下半年至今智能体场景异军突起占比达35% [29] - 预计2026年仅API商业化的Token消耗将实现7到10倍的同比增长 多模态特别是视频生成的拉动效应巨大 [29][30] - 但在多模态场景下 因使用场景高度分化 Token消耗不太能作为北极星指标存在 [30] - 国产模型普遍采用低价竞争策略换取市场份额 如GLM处理复杂编程任务输出价格约3美元/百万Token 而Anthropic Sonnet为15美元 Opus高达25美元 这可能将市场带入中国制造业式的内卷 [30] - 在地缘竞争背景下 不排除未来海外会封锁国内模型或征收高额关税 [31] - 商业化转正的关键在于推理效率的持续优化 通过基础设施优化确保单次查询推理成本为正 并依靠规模效应实现毛利 深度定制企业私有模型也是高净值客户核心需求 [32] - 受地缘政治影响 国产模型直接向美国企业提供API服务存在劣势 但可通过借壳OpenRouter生态出海或采用延迟开源等创新路径实现技术变现和收入分成 [32] - 在编程/智能体能力出海上面临三个战场:个人开发者已拿下较大份额 应用层工具商有动力切换以降低成本 但美国中大企业因信任问题最难切入 [33] - 企业端对智能体的付费在2026年大概率明显提升 逻辑包括部署资本支出优化、评估更贴合实际场景、办公场景深度渗透以及基座模型降价 [33][34] - 国民级产品落地能力是国内厂商独特优势 如豆包约80%的用户行为发生在与智能体的交互中 致力于让普罗大众低门槛接入AI [34] - 长期看 ToB赚取的是辛苦钱 ToC赚取的才是生态位 Seedance 2.0打开了ToC想象空间 娱乐化场景监管更少 可能是中国公司绕开地缘政治压制去打全球市场的路径 [34] - 历史上中国成功的全球化产品全是ToC 中国厂商的优势在于产品出海 拼创意、迭代速度及电力成本优势 [34][35] - 出海重心不必绑定美国市场 美国之外全球市场机会广阔 [35]
OpenClaw 是一个信号|2026 Long-Horizon Agent 投资地图
海外独角兽· 2026-02-26 20:04
AI Agent进入新阶段:从辅助工具到数字劳动力 - OpenClaw的出现标志着AI Agent正从“辅助人类”走向“主动执行”,其本质是获得完整操作权限的数字替身,能够长期执行跨系统任务,如翻阅邮箱、管理日历、执行代码和处理沟通[2] - 这背后是Long-Horizon Agent(长程智能体)的崛起,AI不再只是回答问题,而是能够将模糊目标拆解为子任务,在数小时甚至数天内维持状态,并持续自我纠错,处理跨系统的复杂流程[3] - Agent的经济属性发生根本变化,从按功能收费的软件转向按交付结果收费,定价逻辑正从Seat(席位)转向Outcome(结果),本质是从卖工具走向Selling Labor(销售劳动力)[4] 市场规模与商业模式的结构性变化 - AI Agent解锁的市场从约3-4千亿美元的企业软件支出,扩展至13万亿美元的美国劳动支出市场,这是一个30倍的总体可寻址市场扩张机会[5] - 商业模式正从提高人的效率转向直接替代全职员工,越来越多公司采用Outcome-based定价,客户为解决的工单、完成的流程或节省的人力成本付费[5] - 当前Agent公司毛利被压制在40-50%,主要受昂贵的底层模型成本(约占销货成本的70%)和密集的人工干预影响,但正迎来拐点[5] - 拐点源于两个结构性变化:推理成本每18个月下降一个数量级,以及通过Reasoning Orchestrator进行分层调度,将复杂规划交给高阶模型,执行交给廉价模型,从而优化成本[6] Long-Horizon Agent的核心护城河 - 护城河从“记录世界”的System of Record(如Salesforce)转向“直接执行”的System of Action[7] - 新的护城河逻辑是“Workflow Data Gravity”(工作流数据引力),即通过执行任务积累Corner Cases、人类修正记录和API调用路径等私有数据,这些数据能显著提升在特定企业环境中的准确率,形成极高的客户切换成本[7] - 像Simular这样的Computer-Use Agent,通过将不可结构化的鼠标与键盘操作转化为可学习的执行轨迹,构建起难以复制的数据壁垒[7] - 当模型能力趋同,稀缺的将不再是Intelligence(智能),而是Experience(执行经验)[8] 2026年AI Agent的投资逻辑与关注领域 - 投资重心正从封闭的代码环境(如Coding Agent)迁移至企业流程与真实业务场景,这些场景商业价值更高[12] - 关注四大投资主题下的公司[12]: 1. **Reasoning Orchestrators(推理编排器)**:提供状态管理和持久执行的基础设施,确保长周期任务不中断,代表公司如Temporal和Inngest[12][13] 2. **Process Intelligence(流程智能)**:捕捉并学习企业内部的执行轨迹和人类专家经验,构建垂直模型壁垒,代表公司如Simular、Mimica[14] 3. **Selling Labor(销售劳动力)**:按结果或替代全职员工数量收费,直接替代人力,代表公司如Serval、Distyl AI,以及在保险、采购等垂直领域的WithCoverage、Corgi、Omnea[15][16] 4. **Voice Agents(语音智能体)**:作为劳动力的面孔,处理高信任、情绪驱动的复杂对话,并完成闭环流程,代表公司如11labs、Retell AI[17] 细分赛道与代表公司分析 - **Software Engineering(软件工程)**: - **Vibe Coding**:将写软件变为表达需求,代表公司Emergent,产品上线90天年度经常性收入达1500万美元[27][28] - **End-to-End Agent(端到端智能体)**:从写代码到交付结果,分为IDE inside-out路线(如Cursor、Replit)和Agent outside-in路线(如OpenHands)[31][32][33] - **Remediation(修复与维护)**:随着AI生成代码激增,代码维护与系统稳定成为新预算,代表公司如Resolve、Traversal、Sweep AI[34][35][36] - **Enterprise Action Systems(企业行动系统)**: - **Horizontal Ops(横向运营)**:从IT/HR/Finance等部门的工单切入,构建企业行动中枢,代表公司如Serval、Ema、Relevance AI[39][40][41] - **Custom Delivery(定制化交付)**:采用高接触交付+平台化沉淀模式,解决复杂流程与数据孤岛,代表公司如Distyl AI、Mimica[42][43][44] - **Vertical Specialist(垂直领域专家)**:在高合规、高价值场景实现端到端人力替代,代表公司如Sema4.ai(财务)、Omnea(采购)、WithCoverage和Corgi(保险)[45][46][47] - **Computer Use & Prosumer(计算机使用与专业消费者)**: - **OS Level(操作系统层级)**:操作本地应用与企业遗留系统,代表公司如Simular、Manus[52][53] - **Browser Level/Web Automation(浏览器层级/网页自动化)**:更轻量,易于分发,但受平台规则限制,代表公司如Yutori、Twin[54][55] - **Infrastructure(基础设施)**: - **Agent-first Web & Environment(智能体优先的网络与环境)**:为Agent重构互联网,提供可控的执行环境,代表公司如Parallel Web Systems[58][59][60] - **Workflow Orchestration(工作流编排)**:提供持久执行、状态管理和故障恢复,代表公司如Temporal、Inngest[61][62] - **Model as an Agent(模型即智能体)**:将深度推理与执行能力内化到模型中,代表公司如Imbue、Reflection AI[63][64] - **Voice Agents(语音智能体)**: - **End-to-End Speech Infrastructure(端到端语音基础设施)**:提供高质量、低延迟的语音合成与交互API,代表公司如ElevenLabs、Cartesia、Sesame AI[69][70] - **Vertical Voice OS(垂直领域语音操作系统)**:深度绑定特定行业流程,代表公司如HappyRobot(物流)、Further AI(保险)、Hippocratic AI(医疗)[71][72] - **Voice Agent Infra(语音智能体基础设施)**:提供语音机器人生成与编排平台,代表公司如Retell[72]
当人读不懂 AI 代码,Traversal 如何做企业运维的 AI 医生?
海外独角兽· 2026-02-11 20:06
行业痛点与市场机遇 - AI Coding的普及加剧了软件运维的复杂性,Claude Code贡献的代码已占公开GitHub提交的4%,预计到2026年底其日提交量可能占比超过20% [2][14] - 传统可观测性工具(如Datadog)仅能展示指标波动,无法解释根本原因并指导修复,工程师仍需高成本人工排障 [2][4] - 全球广义运维市场的总潜在市场规模超过1100亿美元,其中可观测性市场预计在2026年达到620亿美元,DevSecOps赛道预计在2030年扩张至416.6亿美元 [7][8] - 仅考虑美国市场,通过自动化工具释放人力资源潜在价值的TAM约达965亿美元,该测算基于约290万相关职业人员、13.31万美元平均年薪及25%的效率缺口 [8][9] - 系统停机每年给企业造成约4000亿美元损失,重大事故期间每小时损失可达190万美元 [10][22] Traversal公司核心定位 - 公司定位为AI原生SRE Agent,旨在从“看到现象”直接跨越到“执行修复”,构建自主决策型智能运维大脑 [4][20] - 其设计初衷是以单一平台遍历PB级的MELT数据,串联跨团队、跨工具的信息,将过去需要50多人参与的应急响应缩减至10-15名工程师 [23] - 公司不寻求替换现有工具,而是作为架在Datadog、Splunk等现有平台之上的智能覆盖层,通过只读API连接数据孤岛 [24][70] - 其应用场景可扩展至基础设施成本优化、DevOps流水线预测及安全响应等高价值领域 [31][32] 技术架构与核心能力 - 技术护城河建立在因果推理与仿真模拟的深度结合上,核心结合了因果机器学习、推理模型和Agent并行三大技术 [32][33] - 通过构建基于因果图的底层架构和实时服务依赖图谱,能够精准追踪故障传播路径,而非仅做相关性猜测 [35] - 引入数字孪生技术,在采取实际行动前进行多路径的“主动试错”仿真模拟,以验证修复方案的有效性 [45][46] - 采用严格的影子测试或金丝雀发布等安全执行机制,以建立对AI自动执行高风险操作的信任 [47] - 在事故发生时,通过并行调度上千个专家型Agent筛查数据,结合RAG、向量搜索等技术,可在几分钟内完成根因分析并给出修复建议 [25][29][30] 商业验证与客户成效 - 在American Express、Digital Ocean等财富100强客户的数百起高危事故中,实现了超过90%的归因准确率 [4][50] - 已获得由红杉和凯鹏华盈领投的4800万美元融资 [5][24] - 客户案例显示,平均修复时间降低了90%,从3.75小时缩短至10-15分钟;SRE团队整体生产力提升了70%-75% [51] - 在Wayfair的实践中,成功预测并处理了黑色星期五期间的Redis过载问题,避免了无效修复风险 [46][53] - 采用混合式、以结果为核心的定价模式,基础费用覆盖系统规模,可变费用按成功修复的事故数量等可验证成果计费 [48] 市场竞争格局 - 主要面临两类竞争对手:传统可观测性巨头(如Datadog)和其他AI SRE工具(如Resolve、Flip) [63][76] - 相较于Datadog等传统巨头,公司的优势在于跨平台关联分析和深度根因定位,而非局限于单一平台的数据存储与可视化 [64][72] - 相较于最直接竞争对手Resolve,公司的优势在于自动化修复能力和数字孪生仿真验证,但面临更严格的数据安全合规挑战 [77] - 相较于Flip,公司在因果推断和技术壁垒上占优,但在自然语言交互和辅助人类决策的体验上存在短板 [79] - 相较于Deductive,公司强调因果逻辑与平台完整性,但在专项日志挖掘和海量日志异常检测方面存在不足 [80]
深度讨论 OpenClaw:高价值 Agent 解锁 10x Token 消耗,Anthropic 超越微软之路开启
海外独角兽· 2026-02-05 20:18
文章核心观点 高价值AI Agent在2026年初已展现出远超预期的效果,开始直接接管复杂任务并嵌入核心工作流,对现有SaaS形态与人机分工方式构成实质性冲击[3][4] 文章从底层视角探讨了Agent的价值边界、基础设施机会、Token消耗爆炸性增长及商业模式变化等重要问题[4] 一、高价值Agent的产品形态与市场影响 - **OpenClaw的核心巧思在于预装Claude Skills生态**,这类似于早期智能手机预装应用超市来降低用户门槛[4][10] 其设计实现了**个人化基础上的长程任务执行**,可7x24小时持续运行,并从工具变为主动Agent[8] 通过**IM Gateway嵌入用户日常沟通流**,实现了“移动指挥,本地执行”的混合场景[8][10] - **OpenClaw与Manus代表了两种发展路径**:OpenClaw是去中心化、高度可配置的路线,能利用分散硬件资源(如个人闲置的Mac Mini)[11] Manus是中心化、“交钥匙”体验的路线,已积累大量高价值用户场景数据,构成认知壁垒[11][12] 两者可能不是取代关系,而是动态演化[11] - **Anthropic的产品策略瞄准高价值场景**,其Claude Code Cowork和Claude in Excel可能打开“10倍微软”的市场[4][14] Claude Code的核心理念是“Code is everything,Bash is all you need”,直接利用命令行执行任务[15] Cowork是其自然延伸,依赖于Opus 4.5能力的飞跃[15] - **Excel是生产力的放大和延伸**,覆盖人群比Coding更广[16] Claude in Excel的核心逻辑是利用Agent通过代码直接操作数据,绕过传统软件复杂的UI交互[16][17] 这种模式可能对试图切分Excel数据分析功能的SaaS公司(如Airtable)构成比微软更大的冲击[20] 但标准传输格式(如.xls)和Human-in-the-loop的校验机制依然重要,这意味着Agent会以插件形式嵌入成熟生态[18] 二、商业模式与定价逻辑的转变 - **高价值Agent的定价逻辑脱离传统SaaS**,开始向“数字员工”价值靠拢[21] 市场已出现定价在**1000至2000美元/月**的高价值Agent服务,有团队人均Token消费已达到**500美元/月**[21] - **Agent的收入来源发生根本性转移**,从切分企业营销或IT预算,转向切分企业庞大的**工资(劳动力)预算**[22] - **高价值Agent必须由真正的行业专家主导**,因为他们具备极深的行业Know-how,能做好Context Engineering并评估AI产出质量[22] 三、Token消耗的爆炸性增长与行业影响 - **2026年Token消耗量预计将有10倍甚至更多的增长**[23] Long-horizon task、Proactive Agents以及多模态是主要驱动力[23] - **开源模型“下限达标”是Token消耗暴涨的重要动力**[24] 智谱GLM-4.7的发布标志着开源模型首次真正触达了在Coding和Agentic场景中的“可用下限”[25] 这将使厂商有机会通过开源模型建立独立的盈利闭环,并倒逼闭源厂商加速冲击能力上限[27] - **Token消耗量是衡量AI-native程度的核心指标**,使用Token的比例越大说明越AI Native[28][29] 传统Chat模式与Agentic模式消耗的Token量级差异巨大,后者是前者的**百倍甚至千倍**[31] 已有单用户Token日均消耗达到**十亿(billion)级别**的案例,未来单人控制的Agent消耗**100亿(10B)甚至更高量级Token**将不再是难事[31] - **Token价值开始出现分化**:模型“压缩”使得小参数模型的Token价值快速逼近大模型;专用推理芯片(如Cerebras)下的Token概念也与英伟达GPU场景不同[33] - **硬件供应可能成为制约瓶颈**,在Agent爆发的驱动下,预计未来一年内GPU将再次进入“买不到”的紧缺状态[37] 四、Agent基础设施的缺失与机会 - **现有互联网基础设施对Agent处于“敌对”状态**,因为数字世界原是为人类设计[38] Agent面临跨平台任务执行困难、网络安全产品未适配、执行长程任务脆弱等问题[38] - **Infra的缺失催生巨大确定性新机会**,包括“构建Agent的Infra”和“给Agent用的Infra”[40] 例如专门为Agent优化的浏览器环境(如BrowserUse)、专用网络和支付系统[40] - **高阶Infra需求是“主动对齐”**,即Agent能主动构建用户数字分身,理解其思维习惯和隐性知识[42] - **Agent沙盒(Sandbox)的演进推高了CPU使用量**,但因其进入门槛低、CPU供应充足且定价无溢价,并未构成高壁垒的独立机会[42][43] 五、隐私与安全范式的转移 - **用户正进入“隐私换效率”的时代**,为了让Agent更好地理解上下文并自动执行任务,愿意让渡极高权限[44] 例如让AI直接操作股票账户,或赋予Agent读取本地所有文件的权限[44] - **当前Agent生态处于类似互联网早期的“田园时代”**,用户为便利而“裸奔”,安全威胁(如恶意软件、钓鱼攻击)预计会大幅增加[47] 行业可能需要经历严重的安全事故才能真正重视安全[47] 六、软件行业的未来:被吞噬还是退化为工具? - **激进派观点认为“软件将被吞噬”**:当Agent能直接操作数据和API时,为人类设计的复杂UI及中间业务逻辑封装将变得毫无意义[48] 传统软件开发中的精细化分工(前端、后端、测试、UI)将失去存在基础[48] 像腾讯TAPD这类项目管理工具或许将不再被需要[49] - **保守派观点认为“软件将退化为工具和数据库”**:软件具备100%准确性、绝对稳定性和流程固化能力,这是概率性Agent无法替代的[52] 在企业里,软件会更多地由Agent通过代码来驱动和操作[52] - **软件的未来壁垒在于“本体论”**:对于To B业务,需要定义清楚企业内部的组织逻辑、隐私边界和业务上下文;在To C领域,则是如何理解个人隐私[52] 七、实现Agent泛化的三种推演路径 - **思路1:人群分层渗透**,针对不同人群出现三种平行产品形态[54]:面向硬核技术人员的Claude Code[54];面向知识工作者的Manus[54];以及最具爆发潜力、以OpenClaw为代表的IM Bot,试图利用社交网络效应实现大众化破圈[55] - **思路2:关于普及形态的争论**:“电脑派”认为Agent普及是从精英向大众缓慢渗透的过程,用户需要学习[56];“手机派”认为Agent必须像智能手机一样做到“零门槛”,可能需要等待科技巨头打造OS级别的深度封装Agent[57][58] - **思路3:屏幕只是过渡,实体机器人才是未来** 目前的屏幕内Agent是为不完美的数字基建“填坑”的临时方案[58] Agent的终极形态必须是进入物理世界,解决实际的交互与体力劳动问题[59]
How To Play AI Beta:拾象 2026 AGI 投资思考开源
海外独角兽· 2026-02-02 09:14
文章核心观点 - AI领域竞争格局快速演化,市场共识频繁翻转,行业正进行系统性复盘 [2] - AI并非零和博弈,OpenAI与Anthropic仍有巨大赢面,Google的崛起共同做大市场 [2][12] - Continual Learning成为AI实验室押注的新范式共识,预计2026年将看到明确信号 [2][15] - AGI竞赛类似自动驾驶,全面实现L4难度大,但在知识工作等垂直领域已实现可观的效率提升和经济价值 [2] - “NVIDIA + OpenAI”主线短期内可能被市场低估,投资OpenAI是在下注AI时代的“前所未见之物” [2][30] - 理想的AGI投资组合应包含Google、Nvidia、OpenAI、Anthropic、ByteDance和TSMC [2][32] - 模型即产品,数据即模型,阶跃式产品体验提升依赖于底层模型换代,而模型能力提升的核心在于数据投入 [2][36][37] 当前竞争格局 - 全球AI模型头部格局已定,OpenAI、Anthropic和Google构成第一梯队,技术领先与品牌效应形成高溢价 [6] - AI实验室呈现“交替领先”与“分化”的竞争常态 [4] - 技术路线出现分化:OpenAI坚定押注To C市场,ChatGPT DAU接近4.8-5亿,是Gemini(约9000万DAU)的5.6倍;Anthropic专注于To B、Coding/Agent等专业领域;Google将多模态能力置于战略首位 [7][8] - 算力领域形成GPU与TPU两大对垒阵营:Google构建了类似Apple的端到端生态,而NVIDIA则支撑起庞大的Android式生态联盟 [10] 重要技术趋势 - Continual Learning是下一个范式级技术,旨在让模型从“静态冻结”转向“鲜活”,在推理中实时学习 [15][16] - 该范式是解决机器人、世界模型等多模态问题的关键,否则相关领域可能需走10年弯路 [15][17] - 其目标是实现“样本效率”,让AI具备“超级学习力”,但成熟需基础设施支持并解决5-10个学术难题,预计2026年能看到明确信号 [19] - 当前已有早期信号,如Google Research的Nested Learning和Cursor的Online RL雏形 [19][20] - OpenAI、SSI和Thinking Machines Lab在该领域投入领先 [20] 商业模式与效率挑战 - 市场对AI泡沫的担忧部分源于OpenAI提出的1.4万亿美元财务承诺,但其中约三分之二包含“有条件解锁”条款,相对容易撤销或展期 [24][25] - 在现有可见商业模式下,OpenAI未来收入规模预计仅在2000-3000亿美元之间,仅能勉强抵消资本开支折旧 [25] - To C市场:假设拥有40亿周活用户且订阅率达10%,年收入约800亿美元;在电商与广告领域,收入上限约在400亿至1000亿美元 [27] - To B市场:即使5000亿美元的SaaS市场全部被AI重构且收取20%“过路费”,收入上限也仅为1000亿美元 [27] - 真正的增长想象力在于创造增量GDP,例如Agent若能创造20%程序员或白领的价值,对应市场增量分别为3000亿美元和3.5万亿美元 [27] - 实现此目标需依赖Continual Learning的突破,解决模型可靠性和端到端能力 [28] - 目前AI投资更被视为一种“国防”开支,巨头为免被颠覆将持续投入 [30] 产品与模型发展 - “模型即产品”:阶跃式产品体验提升源于底层模型换代,例如Sora、Veo的视频生成能力进步及Nano Banana Pro的图文解读能力 [36] - 头部实验室的模型分化取决于其战略选择和服务对象 [36] - “数据即模型”:模型进步依赖对人类“未留痕数据”的蒸馏,Pre-training数据如石油即将枯竭,RL专家数据如新能源成本高,Continual Learning如核聚变潜力巨大 [37] - 2026年是多模态大年,技术路径向“Omni-in, Omni-out”收敛,视觉、音频和文本被统一Token化 [38] - 多模态进步直接利好机器人学习和多模态Agent [38] 机器人领域进展 - 机器人领域的“GPT时刻”可能还需3-5年,且从一开始就呈现分化态势,因缺乏统一的Pre-training基础和硬件标准 [43][44] - 2025年Q4湾区AI机器人公司集中发布,如Google DeepMind及其衍生公司Physical Intelligence、Generalist等 [44] - 这些公司强调真实世界数据、专注于上半身精细操作,并致力于打造泛化的机器人大脑 [44] - 数据是机器人领域最重要的投入,各家公司采用截然不同的数据配方:Generalist收集了27万小时真实机器人交互数据;Sunday通过“手套+众包”收集了1000万条家庭数据;Physical Intelligence在Airbnb真实环境中持续收集数据 [46][47] - RL在机器人领域作用显著,例如Pi的RECAP策略能让机器人实现连续10小时稳定执行长周期任务 [47] - 机器人商业化落地开始探索,如Dyna为B2B商家提供服务,同时硬件的重要性被重新评估 [48] Agent与语音交互演进 - Proactive Agent是模型公司主赛场,需具备意图识别、Always-on和长期记忆三大核心能力,与Continual Learning范式紧密相连 [50] - 它能构建更高维度的护城河,实现真正的个性化,OpenAI等公司已在此方向布局 [50][51] - Voice Agent过去12个月飞速发展,2025年底可能是市场结构性拐点,技术架构正从三段式转向端到端的Real-time Speech-to-Speech [53] - ElevenLabs凭借早期建立的数据规模与质量优势构建了护城河,并具备类似操作系统层级的防御性 [55] - Voice Agent的成功逻辑偏向垂直领域,需深度嵌入行业数据闭环与核心工作流 [56] - Infra层公司如Retell和Vapi的本质是将电话线托管成一套“语音操作系统”,Retell的ARR已接近4000万美元 [57][58] 市场竞争与用户洞察 - Gemini 3发布后,ChatGPT首次因模型竞争出现流量和用户下跌,但ChatGPT在用户粘性上保持优势 [62] - 流量争夺:Gemini的MAU已达ChatGPT的20%-25%,但Gemini的DAU/MAU仅约10%,远低于ChatGPT的约25% [63] - 地域差异:ChatGPT守住美、英、德等高价值市场;Gemini采取“农村包围城市”策略,在印度、巴西等新兴市场渗透率高,MAU达ChatGPT的1/3以上 [63][64] - 用户行为:ChatGPT正确立“Personal Assistant”心智,非生产力类查询比例上升,移动端活跃度高;Gemini更多被视为生产力工具 [66] - 入口之争:AI Chatbot已成为重要信息检索入口,Google Search与ChatGPT的流量比例已从95:5演变为85:15 [68] 投资视角与市场叙事 - AI Beta仍是科技创新主旋律,市场叙事已从“AI Bubble”转向“AI War”,后者即是对前者的否定 [69] - 当前“泡沫”本质是OpenAI承诺的泡沫,二级市场估值并未出现明显泡沫 [70][71] - 投资需坚守AI Beta并对新物种保持敏感,新物种涌现将带来更大Alpha机会 [72] - 硬件层面,GPU与TPU阵营势均力敌,应同时持有但可向暂时落后方倾斜 [73][74] - NVIDIA在产品路线图和商业模式上具备优势,是更纯粹的“军火商” [74] - 智能应用层,OpenAI已重新将资源集中到Pre-training,并在Agent布局上更充分 [75][76] - 若Gemini优势扩大,可能推动NVIDIA与OpenAI形成更紧密的“反Google同盟” [77][79] 潜在投资机会 - 投资应聚焦于技术成长最陡峭的领域:全球领先的模型公司、其所需的算力与硅基基础设施、以及技术溢出的红利 [32] - Proactive Agent处于早期萌芽阶段,2026年可能接近真正落地时刻 [79] - 应用新分发形态:Intuit作为OpenAI APP SDK的First Mover,已投入1亿美元,可能成为标杆案例 [81] - Agentic Commerce:Shopify作为电商后台基础设施,无论哪家模型胜出都可能受益 [81] - 企业定制化:Snowflake & MongoDB等Data Infra公司受益于企业大规模自建Agent的趋势 [82] - 新码农:JFrog可能受益于Coding Agent导致的代码构建物数量增长 [82] - 新客服:Twilio作为按量计价的通信基础设施,可能受益于Voice Agent使用量爆发 [83]
OpenAI 关键九问:2026 AI 战局升级后迎来叙事反转
海外独角兽· 2026-01-30 18:53
文章核心观点 文章认为,尽管OpenAI当前面临Google Gemini和Anthropic的激烈竞争,处于叙事最差的时期,但公司仍有望在2026年实现叙事反转,并从消费者市场、企业业务、新范式探索及商业化等多个维度展现出强大的增长潜力和竞争优势 [2] 竞争格局与OpenAI现状 - **竞争加剧**:2026年AI行业竞争格局不仅未稳定,反而更趋激烈,OpenAI自ChatGPT发布以来首次面临逆风局 [2] - **Google的影响**:Google凭借Gemini 3实现“王者归来”,在叙事上对OpenAI冲击最大,导致其跌落SOTA位置,并反映在资本市场:Google股价自Gemini 3发布后上涨20%,而软银(作为OpenAI的二级市场映射)下跌17% [3] - **模型策略差异**:Gemini 3在预训练(pre-training)上表现更好,而OpenAI在后期训练(post-training)和强化学习(RL)上更领先,但OpenAI自GPT-4o后未发布新一代预训练模型是其自身失误 [3] - **流量恢复与优势**:ChatGPT流量已从低点恢复,2025年1月网页端流量回到节前水平,移动端超过节前水平,且ChatGPT在移动端和用户留存上显著优于Gemini:移动端DAU/MAU接近45%,而Gemini不到20% [4][5][10] - **用户地域分布**:Gemini在发展中地区份额更高,主要通过免费和安卓渠道获取中低价值用户;ChatGPT在发达地区更有优势,并在印度市场于2023年下半年实现对Gemini份额的反超 [12][14] 市场机遇与增长潜力 - **市场空间巨大**:未来聊天(Chat)与搜索(Search)将强融合,Chat的查询总量和使用频次将超过搜索引擎,用户量至少与搜索相当,即50亿月活用户(MAU) [18] - **ChatGPT增长预测**:目前ChatGPT约12亿MAU,Gemini约4亿MAU,合计离50亿目标尚有距离,即使两者市占率从4:1变为1:1,ChatGPT仍有翻倍空间 [18] - **收入潜力测算**: - 若ChatGPT做到40亿MAU,假设10%为高价值付费用户(每人每年花费200美元),可产生800亿美元年经常性收入(ARR) [18] - 剩余90%免费或低价用户通过广告、电商等变现,假设单用户年收入(ARPU)为25美元(约为Meta全球ARPU的一半),可带来900亿美元收入 [18] - 健康管理是增量市场,每周有2.3亿用户在ChatGPT询问健康问题,美国健康保健市场约6.5万亿美元,若切分1%即有6500亿美元营收 [19] - 其他高价值场景(如编程、药物发现、教育等)可能带来远超每人每年200美元的ARPU [19] - **乐观收入展望**:乐观估计ChatGPT可见的ARR可达2000亿美元,且仍有巨大上行空间;保守估计(与Gemini 1:1,达25亿MAU)则在此基础上打六折 [19] 商业模式与商业化进展 - **2B业务被低估**:2025年OpenAI的ARR为200亿美元(收入130亿美元),其中API约占30%,即60亿美元;同期Anthropic的ARR约90亿美元(收入约45亿美元),其85%收入与编程和2B相关 [23] - **2B业务体量对比**:OpenAI的2B业务体量至少与Anthropic相当甚至更大,其API和ChatGPT企业版两部分收入合计占总收入40%(约52亿美元),已超过Anthropic整体收入(45亿美元) [23][27] - **广告业务潜力**:OpenAI付费订阅率约5%,消费者场景最有效的变现方式是广告,当前广告按CPM定价约60美元/千次展示,接近NFL等顶级视频广告水平 [37] - **电商闭环想象空间**:ChatGPT在电商闭环上进展迅速,其“即时结账”(Instant Checkout)已与Shopify整合,抽成率(take rate)为4%,超过100万Shopify商户接入,Etsy已上线,沃尔玛等大型零售商也在跟进 [39] - **电商市场更大**:全球电商GMV超过6万亿美元,4%的抽成率意味着每1000亿美元GMV可带来40亿美元收入,其天花板高于广告(Google广告收入约3000亿美元) [40] - **商业化目标**:OpenAI目标到2027年底,从非付费用户产生110亿美元年收入,主要依靠广告和电商 [40] 技术发展与未来范式 - **下一个胜负手**:OpenAI在2026年的三个关键词是记忆(Memory)、主动(Proactive)和个性化(Personalization),这些是产品也是研究问题,公司需在记忆和主动智能体(Proactive Agent)上寻求突破以应对Google在工程基础设施和算力上的优势 [30] - **记忆与主动智能体现状**:当前记忆方案更偏工程化,模型尚不能判断信息重要性;主动功能仅初步推出“Pulse”,未来目标是让其能代替用户采取行动(take action) [30][31] - **下一代交互愿景**:下一代ChatGPT不应是一问一答,而应在后台持续思考,更了解用户,主动给出更好答复 [31] - **新范式竞争**:持续学习(Continual Learning)被公认为下一个范式,OpenAI、Google以及Neolabs(如Thinking Machines Lab, SSI, Core Automation等)各有约三分之一概率率先实现突破 [33][34] - **OpenAI的范式探索历史**:过去两次范式变化(模型规模缩放和推理模型)均由OpenAI率先实现,公司仍具备前沿探索能力 [33] 行业趋势与战略方向 - **2026年战局升级**:竞争焦点从技术实力转向战略资源投入方向,OpenAI与Google将在消费者和广告端正面竞争,Anthropic则凭借战略定力在高价值任务(如编程、智能体、Excel处理)上获得先发优势 [15] - **搜索与聊天融合**:用户行为从搜索转向聊天,如同从图文转向短视频,是十年一度的底层习惯迁移,将对前者形成降维打击 [20] - **类比短视频竞争**:AI聊天增加了用户查询数量和token使用量,提高了产品对用户意图的理解;Google在ChatGPT发布三年后将AI模式置于搜索入口,与Meta在TikTok发布三年后推出Reels的反应时间相似 [20] - **Google面临的挑战**:传统搜索排名第一网页的点击率(CTR)为40%,而AI模式的CTR少于5%,Google在用户行为和广告模式变化中受到的威胁更大 [21] - **当前规模对比**:Google搜索日查询量约140亿次,ChatGPT日提示词(prompt)量约25亿次(截至2025年7月),已达Google查询量的18% [21]