Workflow
海外独角兽
icon
搜索文档
OpenAI 关键九问:2026 AI 战局升级后迎来叙事反转
海外独角兽· 2026-01-30 18:53
文章核心观点 文章认为,尽管OpenAI当前面临Google Gemini和Anthropic的激烈竞争,处于叙事最差的时期,但公司仍有望在2026年实现叙事反转,并从消费者市场、企业业务、新范式探索及商业化等多个维度展现出强大的增长潜力和竞争优势 [2] 竞争格局与OpenAI现状 - **竞争加剧**:2026年AI行业竞争格局不仅未稳定,反而更趋激烈,OpenAI自ChatGPT发布以来首次面临逆风局 [2] - **Google的影响**:Google凭借Gemini 3实现“王者归来”,在叙事上对OpenAI冲击最大,导致其跌落SOTA位置,并反映在资本市场:Google股价自Gemini 3发布后上涨20%,而软银(作为OpenAI的二级市场映射)下跌17% [3] - **模型策略差异**:Gemini 3在预训练(pre-training)上表现更好,而OpenAI在后期训练(post-training)和强化学习(RL)上更领先,但OpenAI自GPT-4o后未发布新一代预训练模型是其自身失误 [3] - **流量恢复与优势**:ChatGPT流量已从低点恢复,2025年1月网页端流量回到节前水平,移动端超过节前水平,且ChatGPT在移动端和用户留存上显著优于Gemini:移动端DAU/MAU接近45%,而Gemini不到20% [4][5][10] - **用户地域分布**:Gemini在发展中地区份额更高,主要通过免费和安卓渠道获取中低价值用户;ChatGPT在发达地区更有优势,并在印度市场于2023年下半年实现对Gemini份额的反超 [12][14] 市场机遇与增长潜力 - **市场空间巨大**:未来聊天(Chat)与搜索(Search)将强融合,Chat的查询总量和使用频次将超过搜索引擎,用户量至少与搜索相当,即50亿月活用户(MAU) [18] - **ChatGPT增长预测**:目前ChatGPT约12亿MAU,Gemini约4亿MAU,合计离50亿目标尚有距离,即使两者市占率从4:1变为1:1,ChatGPT仍有翻倍空间 [18] - **收入潜力测算**: - 若ChatGPT做到40亿MAU,假设10%为高价值付费用户(每人每年花费200美元),可产生800亿美元年经常性收入(ARR) [18] - 剩余90%免费或低价用户通过广告、电商等变现,假设单用户年收入(ARPU)为25美元(约为Meta全球ARPU的一半),可带来900亿美元收入 [18] - 健康管理是增量市场,每周有2.3亿用户在ChatGPT询问健康问题,美国健康保健市场约6.5万亿美元,若切分1%即有6500亿美元营收 [19] - 其他高价值场景(如编程、药物发现、教育等)可能带来远超每人每年200美元的ARPU [19] - **乐观收入展望**:乐观估计ChatGPT可见的ARR可达2000亿美元,且仍有巨大上行空间;保守估计(与Gemini 1:1,达25亿MAU)则在此基础上打六折 [19] 商业模式与商业化进展 - **2B业务被低估**:2025年OpenAI的ARR为200亿美元(收入130亿美元),其中API约占30%,即60亿美元;同期Anthropic的ARR约90亿美元(收入约45亿美元),其85%收入与编程和2B相关 [23] - **2B业务体量对比**:OpenAI的2B业务体量至少与Anthropic相当甚至更大,其API和ChatGPT企业版两部分收入合计占总收入40%(约52亿美元),已超过Anthropic整体收入(45亿美元) [23][27] - **广告业务潜力**:OpenAI付费订阅率约5%,消费者场景最有效的变现方式是广告,当前广告按CPM定价约60美元/千次展示,接近NFL等顶级视频广告水平 [37] - **电商闭环想象空间**:ChatGPT在电商闭环上进展迅速,其“即时结账”(Instant Checkout)已与Shopify整合,抽成率(take rate)为4%,超过100万Shopify商户接入,Etsy已上线,沃尔玛等大型零售商也在跟进 [39] - **电商市场更大**:全球电商GMV超过6万亿美元,4%的抽成率意味着每1000亿美元GMV可带来40亿美元收入,其天花板高于广告(Google广告收入约3000亿美元) [40] - **商业化目标**:OpenAI目标到2027年底,从非付费用户产生110亿美元年收入,主要依靠广告和电商 [40] 技术发展与未来范式 - **下一个胜负手**:OpenAI在2026年的三个关键词是记忆(Memory)、主动(Proactive)和个性化(Personalization),这些是产品也是研究问题,公司需在记忆和主动智能体(Proactive Agent)上寻求突破以应对Google在工程基础设施和算力上的优势 [30] - **记忆与主动智能体现状**:当前记忆方案更偏工程化,模型尚不能判断信息重要性;主动功能仅初步推出“Pulse”,未来目标是让其能代替用户采取行动(take action) [30][31] - **下一代交互愿景**:下一代ChatGPT不应是一问一答,而应在后台持续思考,更了解用户,主动给出更好答复 [31] - **新范式竞争**:持续学习(Continual Learning)被公认为下一个范式,OpenAI、Google以及Neolabs(如Thinking Machines Lab, SSI, Core Automation等)各有约三分之一概率率先实现突破 [33][34] - **OpenAI的范式探索历史**:过去两次范式变化(模型规模缩放和推理模型)均由OpenAI率先实现,公司仍具备前沿探索能力 [33] 行业趋势与战略方向 - **2026年战局升级**:竞争焦点从技术实力转向战略资源投入方向,OpenAI与Google将在消费者和广告端正面竞争,Anthropic则凭借战略定力在高价值任务(如编程、智能体、Excel处理)上获得先发优势 [15] - **搜索与聊天融合**:用户行为从搜索转向聊天,如同从图文转向短视频,是十年一度的底层习惯迁移,将对前者形成降维打击 [20] - **类比短视频竞争**:AI聊天增加了用户查询数量和token使用量,提高了产品对用户意图的理解;Google在ChatGPT发布三年后将AI模式置于搜索入口,与Meta在TikTok发布三年后推出Reels的反应时间相似 [20] - **Google面临的挑战**:传统搜索排名第一网页的点击率(CTR)为40%,而AI模式的CTR少于5%,Google在用户行为和广告模式变化中受到的威胁更大 [21] - **当前规模对比**:Google搜索日查询量约140亿次,ChatGPT日提示词(prompt)量约25亿次(截至2025年7月),已达Google查询量的18% [21]
凭借 27 万小时真机数据,Generalist 可能是最接近“GPT-1 时刻”的顶级机器人团队
海外独角兽· 2026-01-29 20:06
公司核心观点 - Generalist是机器人领域中极少数具备长期竞争潜力的公司,其核心优势集中在数据规模、团队能力与清晰的技术发展路径上[2] 为什么看好Generalist - **数据规模优势**:公司积累了27万小时的真机训练数据,可能是全球首个在数据规模上达到GPT-1量级的机器人团队,领先其他团队6-12个月时间窗口[2][4][6] - **数据采集挑战**:复刻27万小时数据不仅需要资金,更需要时间,仅制造专用采集硬件就需要4-6个月,需要1000个人不停采集大半年甚至小一年[6] - **团队技术实力**:三位联合创始人兼具MIT、Princeton顶尖学术背景与Google DeepMind、Boston Dynamics的业界研发经历,是PaLM-E、RT-2等具身智能里程碑项目的主要贡献者[2][6] - **工程扩展经验**:工程负责人Evan Morikawa曾是OpenAI工程负责人,领导了ChatGPT、GPT-4等产品的工程团队,拥有从0到1再到大规模扩展的丰富经验[7] - **模型灵巧性展示**:公司通过一系列demo展示了模型出色的灵巧性,包括2025年6月实现的高频动态抛掷,9月组装乐高任务中攻克的亚毫米级精度,以及GEN-0在工具使用、柔性物体处理和高精度装配方面的能力[3][7] - **底层动作生成**:模型具备Low-level动作生成能力,在端到端控制下能输出丝滑且精准的操作策略,让机器人在复杂环境中表现出近似生物本能的灵巧度[8] 机器人领域的Scaling Law - **行业验证进展**:2024年,MIT和慕尼黑工业大学的研究人员通过对327篇论文分析后认为机器人基础模型存在scaling laws[11] - **公司宣称突破**:去年11月,Generalist声称首次在机器人领域验证了类似语言模型的scaling law,即随着预训练数据和计算量的增加,下游任务性能呈现可预测的幂律提升[9][13] - **参数量相变**:公司研究发现,当模型参数扩大到7B以上时会发生相变,大模型能够持续吸收数据,Training Loss会持续下降,只有跨越这个参数门槛,模型才能真正通过预训练获得通用能力[14] - **数据量幂律关系**:在足够的模型规模下,预训练数据的规模与下游任务的最终表现之间存在显著的幂律关系[16] - **实践验证**:通过盲测A/B实验证实,增加预训练数据能提高任务成功率,即使在下游数据仅有5.6小时的情况下增益也十分显著;当全量预训练数据与充足的下游数据(550+小时)结合时,任务成功率峰值高达99%[18][19] - **数据质量重要性**:团队发现数据质量和多样性比数据量本身更为重要,不同来源的预训练数据组合会训练出具有不同特征的模型[23] Generalist的技术细节与模型 - **公司关注点**:公司最关注机器人的灵巧性,认为这需要在数据、模型和硬件层面都有突破[29] - **GEN-0模型能力**:2025年11月发布的GEN-0基础模型展示了在单一神经网络流中完成长序列任务的能力,包括工具使用、柔性物体处理以及高精度装配,并已成功部署在6-DoF机械臂、7-DoF机械臂以及16+ DoF的半人形机器人上[30] - **模型架构创新**:GEN-0使用称为“谐波推理”的机制,摒弃了传统“慢思考”与“快反应”分离的架构,将感知Token和动作Token融合在同一个Transformer流中处理,能以100Hz以上的频率生成连续、流畅且智能的动作[52] - **早期Demo亮点**:2025年6月的demo展示了分拣紧固件、折叠包装、回收螺丝、拆解分类抛掷乐高等任务,所有机器人完全自主,由深度神经网络实时控制[34] - **乐高构建任务**:9月展示的乐高积木模仿构建任务被第三方归类为通用机器人的最高等级(Level 4),机器人通过观察人类搭建的结构后,能够从零开始复制出完全一样的结构,具备亚毫米级精度[34][35] - **泛化能力估算**:在仅使用4种颜色的2x4乐高积木搭建3层结构的限制条件下,存在约99840种可能的组合,表明机器人并非死记硬背,而是真正具备了应对多样化结构的能力[37] 数据、硬件与处理能力 - **数据总量与增速**:GEN-0在预训练上使用了超过27万小时的真实世界机器人操作数据,目前以每周1万小时的速度新增[38] - **数据采集方法**:公司使用UMI进行数据采集,通过在全球范围内部署数千个数据收集设备和机器人实现并行化、多样化采集,根据推测,方法包括让人类佩戴装有摄像头的手套装置来收集自我中心数据[40][42] - **数据合作与评估**:公司与多家data foundry合作在不同环境中采集多样化数据,并通过持续的A/B测试评估合作伙伴的数据质量,据此调整数据采购比例[43] - **数据处理能力**:公司构建了专用的硬件和处理管线,每天能处理相当于6.85年的人类操作经验数据[44] - **数据成本估算**:有评论认为,即使在中国,要收集到训练GEN-0的数据也要花费200-300万美元[47] - **行业支持**:2025年9月,Generalist AI入选由MassRobotics联合AWS和NVIDIA发起的Physical AI Fellowship项目首批名单,可获得包括20万美元AWS云服务额度在内的技术支持[48] 团队背景 - **CEO Pete Florence**:曾任Google DeepMind高级研究科学家,博士毕业于MIT,主导或参与了PaLM-E和RT-2等项目,DeepMind发布的Gemini Robotics论文4次引用了其研究成果[54] - **CTO Andrew Barry**:曾任Boston Dynamics资深机器人学家,博士毕业于MIT,参与了Spot机器狗机械臂项目的研发,与CEO Pete Florence同为Russ Tedrake的学生,并有长期学术合作与共同创业经历[54][55] - **首席科学家 Andy Zeng**:曾任Google DeepMind研究科学家,博士毕业于普林斯顿大学,在机器人抓取和视觉感知领域多次获奖,与Pete Florence合作密切,共同发表超过十七篇论文[55] 竞争格局 - **行业象限划分**:机器人领域可按场景复杂度和交付形态划分,Generalist位于第二象限,即“通用具身大脑”,专注于解决最难的“大脑”问题以赋能任何硬件[59][61] - **核心护城河**:公司最大的护城河是大量端到端的真机数据和极强的团队技术实力[62] - **与Physical Intelligence对比**:PI在2025年11月完成6亿美元融资,估值达56亿美元,融资进度更领先;PI采用Flow Matching技术可直接输出连续平滑的电机信号,并拥有Recap算法赋予模型自我进化能力,而Generalist目前缺乏这种部署后“越用越强”机制;PI团队由Chelsea Finn、Sergey Levine等多位学术界泰斗组成全明星阵容,团队构建更全面,而Generalist团队更加精炼[62][63][64] - **与Google对比**:Google通过Open X-Embodiment联盟采取开放生态策略,拥有大量的TPU算力和资金支持,而Generalist作为创业公司缺乏同等的生态掌控力,需在数据质量和灵巧操作上建立高壁垒,并关注高昂数据采集成本带来的资金消耗问题[62][64][65] - **与Sunday Robotics对比**:Sunday专注于家庭场景,采用低成本手套采集数据,已明确表示将在2026年晚些时候启动“Founding Family Beta”计划,把约50个Memo机器人放到真实家庭中测试,商业化落地更快;而Generalist凭借高质量数据和精密控制能完成更精密的装配任务,但Sunday可能因缺乏力反馈信息而暂时聚焦容错率较高的家务[62][65]
红杉对话 LangChain 创始人:2026 年 AI 告别对话框,步入 Long-Horizon Agents 元年
海外独角兽· 2026-01-27 20:33
文章核心观点 - 2026年是AI从“Talkers”转向“Doers”的元年,其核心载体是具备自主规划、长时间运行和目标导向能力的“长程智能体”[2] - 长程智能体爆发的关键在于模型能力的提升与围绕模型构建的、有主见的“软件外壳”的共同进化,其杀手级应用是为复杂任务提供高质量初稿[3][4][5] - 在长程智能体的开发范式中,“追踪记录”取代代码成为新的“单一事实来源”,理想的交互模式是异步管理与同步协作的统一[3][25][35] Long-Horizon Agents的爆发 - 长程智能体已开始真正发挥作用,其核心是让大语言模型在循环中自主决策,如早期的AutoGPT[3][4] - 此类智能体的价值在于为需要长时间运行、产出初稿的场景提供支持,典型应用包括AI编码、AI站点可靠性工程师以及研究分析[5][6] - 智能体虽难以达到99.9%的可靠性,但能承担大量工作,并采用人机协作模式,例如在客服场景中,后台智能体可为人工生成总结报告[5][6] 从通用框架到Harness架构 - Agent的发展经历了三个阶段:早期的简单Prompt链、引入工具调用后的自定义认知架构,以及当前以“上下文工程”为核心的Harness时代[20][21] - Harness是一种开箱即用、有强预设的软件外壳,其核心价值在于管理上下文压缩、规划工具和文件系统交互等原语[8][9] - 模型能力的提升与Harness工程的进步共同促成了突破,例如在编码领域,经过Harness优化的智能体性能波动巨大,同一模型的表现可因Harness不同而有显著差异[10][14] - 在Terminal-Bench 2.0榜单中,由Factory公司构建的Droid智能体使用GPT-5.2模型取得了64.9%的准确率,展示了第三方Harness的潜力[15] Coding Agent是通用AI的终局形态吗 - 文件系统权限被认为是所有长程智能体的标配,它在上下文管理中极为有用,例如存储原始信息以供查阅[9][24] - 一个核心的行业思考是:所有智能体本质上是否都应该是编码智能体,因为“写代码”本身就是让计算机工作的通用手段[22][23] - 编码能力对于处理长尾复杂用例可能是无可替代的,但目前浏览器操作等能力尚未成熟[39] 构建Long Horizon Agent vs 构建软件 - 构建智能体与构建传统软件的根本区别在于,其核心逻辑部分存在于非确定性的模型黑盒中,而非全部写在代码里[25] - 因此,智能体的“单一事实来源”是代码加上“追踪记录”,开发者必须通过运行和观察Trace来理解其行为[25][26] - 智能体开发更具迭代性,发布前的行为未知,需要通过更多交互来使其达标,这使得内存和自我改进能力变得重要[27][34] - 对于现有软件公司,其积累的数据和API是构建智能体Harness的巨大优势,但关于如何处理数据的指令部分可能是全新的[28] 从人类判断到LLM-as-a-Judge - 评估智能体需要引入人类判断,而“LLM-as-a-Judge”是建立人类判断代理的关键,前提是必须与人类判断对齐[30][31] - 智能体具备反思自身追踪记录的能力,这种能力被用于评估、自动纠错和更新内存,本质上是同一回事[31] - 一种新兴模式是让编码智能体通过命令行工具获取Trace,自行诊断问题并修复代码,实现有人类在环的递归自我改进[32][33] 未来的交互与生产形态 - 在特定垂直工作流中,通过长时间磨合积累的记忆能形成极高的竞争壁垒[3][35] - 未来的理想交互形态是混合模式:用户默认异步管理后台运行的多个智能体,但在关键时刻可切换到同步聊天模式,并基于共享状态进行协作[35][37] - 纯异步模式目前难以跑通,因为模型仍需人类在环进行纠错,注定需要在异步和同步之间切换[37] - 代码沙箱将是未来的核心组件,文件系统访问和编码能力被认为是智能体的标配,而浏览器操作能力尚不成熟[38][39]
2026 年的 Coding 时刻是 Excel
海外独角兽· 2026-01-26 20:46
文章核心观点 - 人工智能在垂直应用领域的下一个爆发点可能是Excel,其路径与已成功的Coding领域相似,具备庞大的市场规模、向相邻场景自然延展的能力以及以产品驱动的GTM模式 [2][3][4] Coding行业概览 - **GTM模式**:Coding领域的产品可以通过自下而上的方式在开发者中快速传播,几乎不需要传统的销售和市场推广,因为开发者能快速识别好工具并拥有采购影响力 [6] - **市场规模**:Coding领域的总体潜在市场约为2万亿美元 [7] - **市场细分**:美国市场TAM约9000亿美元,欧洲约4900亿美元,其他地区约5600亿美元,总计约19500亿美元 [8] - **市场现状**:该领域已有4家公司的年度经常性收入超过100亿美元,至少7家公司的ARR已突破1亿美元,且增长速度前所未有 [9] - **行业领导者**:GitHub Copilot预计ARR超220亿美元,OpenAI Codex超100亿美元,Claude Code达110亿美元(仅用6个月达成),Cursor超100亿美元,Replit达2.53亿美元,Lovable达2亿美元 [10] - **战略意义**:Coding不仅是一个终端市场,更是一个能对上层应用形成杠杆效应的关键入口 [8] Excel与AI结合的潜力分析 - **相似模式**:Excel与Coding相似,拥有庞大的TAM、是通向大量相邻场景的入口,并支持自助式采用 [13] - **市场规模**:全球电子表格的月活跃用户约为15至16亿,Excel覆盖的用户基础可能高达约30亿 [14][19] - **主要玩家数据**:Google Workspace拥有超30亿用户和超1100万付费客户,WPS Office全球月活跃设备数达6.32亿,Microsoft Office曾有约12亿用户 [15][16][17] - **扩展潜力**:软件行业规模约1万亿美元,其中约50%是应用软件,许多应用本质上是“Excel wrappers” [20] - **变革前景**:AI-native的Excel若变得可编程,其市场机会将远超办公软件本身,扩展至应用程序创建领域 [20] 市场进入与增长策略 - **目标切入点**:金融行业是AI赋能Excel的天然起点,因为金融从业者与开发者类似,人均利润高、付费意愿强、拥有预算审批权且ROI清晰 [21] - **市场基数**:全球广义金融从业者约1.5亿人,占全球电子表格月活用户(约15.5亿)的约10%,是一个规模大且高度可变现的初始市场 [22] - **范式转变**:AI Agent的成熟可能改变人与软件的协作方式,用户未来可能无需直接打开特定软件,而是在统一界面中通过Agent串联工具完成任务 [5] - **行业动向**:OpenAI和Anthropic都在积极进军电子表格和生产力工作流领域,预示着变化将从Excel扩散至整个Office体系乃至更广的企业软件交互 [4]
当顶级视频模型半衰期只有 30 天,fal.ai 为什么收入反而一年增长 60 倍?
海外独角兽· 2026-01-16 16:05
公司概况与市场定位 - 公司是一家为开发者和企业提供高性能AI生成媒体平台的基础设施公司,通过统一、低延迟的API与云端推理平台,提供图像、视频、音频等多模态生成模型的高性能调用能力[2] - 平台托管了数百个先进模型,包括DeepMind(Veo)、Kling、MiniMax以及OpenAI(Sora)等,使客户无需自建或运维GPU基础设施便可快速部署复杂模型[2] - 公司成立于2021年,在早期市场普遍过度关注LLMs时,敏锐地观察到图像与视频生成客户增长极快,选择在该领域加倍下注,并在Sora发布前就将公司定位明确调整为“Generative Media Platform”[5][6] 财务表现与融资历程 - 截至2025年7月,公司在过去12个月收入增长达60倍[2] - 2025年7月至12月期间,公司估值翻了三倍,并在12月完成1.4亿美元D轮融资,估值达到45亿美元[2][4] - 根据融资表格数据:2025年12月D轮融资1.4亿美元,估值45亿美元,截至10月收入已超过2亿美元;2025年7月C轮融资1.25亿美元,估值15亿美元,过去两个月收入增长50%以上;2025年2月B轮融资4900万美元;2024年9月A轮融资1400万美元,估值8000万美元,年化收入接近1000万美元,较1月增长近10倍[5] 技术壁垒与性能优化 - 视频生成模型是典型的“算力受限”场景,其算力需求远超LLM:生成一张图像的算力是处理单个LLM Prompt(约200 Token)的100倍;生成一个5秒、24fps的标准清晰度视频算力是图像的100倍,是LLM的10000倍;生成4K视频算力需求再增加10倍[12][13] - 公司组建了约占10%人力的编译器团队,专注于极致性能优化,其推理引擎通常能领先PyTorch等通用框架3到6个月[13][15] - 公司构建了核心的Tracing Compiler和基于Templated Kernels的动态替换方案,在运行时将通用计算模式替换为高度特化的专用Kernels,以提升异构硬件上的执行效率并确保输出质量稳定[15] - 公司正将底层优势从离线生成扩展至Real-time Media领域,利用优化Speech-to-speech模型时积累的低延迟经验来解决实时视频生成的infra挑战[16] 成本优势与基础设施策略 - 公司管理着分布在约35个不同数据中心的异构计算资源,并通过自研的软件系统将其整合成统一的“Distributed Super Computing”集群进行智能调度[17] - 智能调度核心逻辑包括基于Warm Cache状态进行路由,将请求精准分发给已加载特定模型权重的GPU节点,避免重复加载的巨大开销[17] - 公司战略性地避开传统Hyperscalers,深度利用Neo-clouds,因为后者成本有时比前者低2倍甚至3倍,这使公司在GPU资源紧缺环境下获得了极具竞争力的算力成本[20][23] 生态卡位与商业模式 - 公司平台同时运行着超过600个生成式媒体模型,成为连接多方模型供应商的单一枢纽,使开发者不再受制于任何单一模型[24] - 平台上任何时刻都有接近50个活跃模型被频繁使用,此外还有大量具备特定特性的长尾模型,市场呈现显著的长尾效应而非赢家通吃[26] - 顶级视频模型的“半衰期”仅为30天,竞争格局极度不稳定,公司作为多模型平台降低了开发者绑定单一模型的风险[24] - 公司已成为顶级模型实验室(如DeepMind、Kling、MiniMax、OpenAI)的关键分发渠道和合作伙伴,经常能获得新模型的独家首发权或长期独家合作,形成了吸引开发者与吸引模型厂商的正向飞轮效应[28][31] 用户行为与工作流 - 在公司前100名客户中,平均每个客户在同一时间会使用14个不同的模型[32] - 开发者和创作者正在复刻传统动画制作流程:先使用Text-to-Image模型迭代确定视觉风格并生成故事板,再使用视频模型在静态图像之间进行插值以生成动态视频[32] - 公司与Shopify合作开发了No-code workflow builder,降低复杂工作流构建门槛,便于非技术人员快速测试创意和比较模型效果[34] 应用场景与市场潜力 - 视频占据了互联网80%以上的带宽,公司认为生成式视频的市场规模理应与LLM相当甚至更为庞大[8] - 教育市场是巨大的蓝海,案例显示已有公司利用平台动态生成个性化的安全培训视频,AI Native Studios也在利用AI制作高质量的教育内容(如圣经故事视频)[10][35] - 在游戏领域,Text-to-Game将是Text-to-Video的自然延续,未来可能出现用户指令生成的“一次性”超休闲游戏[37] - 完全由AI生成的无主IP(如Italian Brainrot)通过社区生成和筛选机制崛起,并在社交媒体和Roblox游戏上产生了可观的商业价值[37][38] 行业发展趋势判断 - 视频模型架构的瓶颈在于压缩率,目前时间维度压缩比率大约只有4倍,必须大幅提升压缩率才能从根本上驱动推理和训练效率的提升,这是实现4K实时生成(需要现有基础上100倍以上算力支持)的关键[39][40] - 在生成式媒体领域,行业将先耗尽算力,后耗尽数据,因为互联网上拥有极度丰富且免费的视频数据供给[41] - 预测在不到一年时间内,市场将能看到完全由AI生成(含人类剪辑)的电影级短片,时长约20分钟[41] - 动画、动漫或卡通风格将比写实风格更早迎来爆发,因为AI大幅降低了昂贵的动画制作成本,且动画风格对表情精确度要求更宽容,技术实现和观众接受度更具优势[42]
TPU vs GPU 全面技术对比:谁拥有 AI 算力最优解?
海外独角兽· 2026-01-15 20:06
文章核心观点 - 对Google TPU与Nvidia GPU在AI训练与推理场景下的总拥有成本进行系统性对比分析,结论是TCO优势取决于具体应用场景,而非单一硬件绝对领先 [3] - 训练和延迟不敏感的推理场景下TPU具有成本优势,而推理的Prefill阶段和延迟敏感的在线推理场景下GPU是更优选择 [3] - 3D Torus与Switch Fabric两套互联架构的本质差异在于对流量形态的假设不同,而非单纯的性能高低 [3][4] - Google历史上依靠TPU建立的TCO护城河,在v8这一代被Nvidia的快速迭代显著削弱 [3][5][6] TCO场景化对比分析 - **训练场景**:TPUv7在训练场景下凭借更高的Scale-out带宽和软件优化,假设其模型算力利用率高于GPU,可带来显著TCO优势。根据SemiAnalysis数据,TPUv7 External相比GB200在训练上可节省约45%成本,Google内部使用TPUv7 Internal则可节省约56%成本 [4][17] - **推理Prefill场景**:此阶段计算密集,瓶颈主要在算力。Nvidia GB200/GB300凭借FP4算力优势,在Prefill阶段相比TPUv7 External有约35-50%的成本优势 [4][18][21] - **推理Decode场景**:此阶段瓶颈主要在内存带宽和Scale-up互联带宽。TPUv7凭借更低的HBM带宽单位成本(TCO/HBM Bandwidth)具有一定优势,但实际性价比差距因受Scale-up带宽限制而缩小 [12][22][23] 硬件规格与性价比指标 - 关键硬件规格与TCO对比如下 [14]: - **GB200**:TCO为$2.28/h/GPU,FP8算力5 PFLOPS,FP4算力10 PFLOPS,HBM带宽8 TB/s,Scale-out带宽0.1 TB/s,Scale-up带宽1.8 TB/s - **TPUv7 External**:TCO为$1.6/h/GPU,FP8/FP4算力均为4.614 PFLOPS,HBM带宽7.3 TB/s,Scale-out带宽1.2 TB/s,Scale-up带宽1.2 TB/s - 采用TCO/Effective FLOPs与TCO/Bandwidth作为关键性价比中间指标进行对比 [11] - 在训练场景,TPUv7 External的TCO/Effective FP8指标为$1/h/GPU/PFLOPS,优于GB200的$1.52/h/GPU/PFLOPS [17] - 在推理Prefill场景,GB200的TCO/Effective FP4指标为$0.23/h/GPU/PFLOPS,优于TPUv7 External的$0.35/h/GPU/PFLOPS [21] - 在推理Decode场景,TPUv7 External的TCO/HBM Bandwidth指标为$0.22/hr/GPU per TB/s,优于GB200的$0.29/hr/GPU per TB/s [23] 互联架构哲学与适用场景 - **3D Torus + OCS (TPU路线)**:假设通信模式可预测、可编排,通过固定路径和时序规划,在万卡规模的常规训练任务中维持高算力利用率。但其对不规则流量适应性差,单Pod扩展上限受OCS端口数限制,当前v7p系统最大支持9,216颗TPU [5][33][40] - **Switch Fabric (GPU路线)**:包括域内NVSwitch和域外Fat-tree。NVSwitch在几十到百卡规模内实现近似全互联,延迟低且容忍任意通信模式。Fat-tree通过多级交换堆叠可将集群扩展至数十万卡,但跨域带宽比域内NVLink低一个数量级 [39] - **规模边界**: - 百卡规模的小型实验:NVSwitch占优 [41] - 千卡至两万卡规模的稳定训练:3D Torus占优,除非MoE专家数量较多 [5][41] - 十万卡以上级别的超大规模训练:只能采用Fat-tree [5] - **MoE与推理场景压力**:当MoE成为主流架构、在线推理场景增长,其不规则通信模式给3D Torus带来更大适配压力,而这正是NVSwitch的舒适区 [5][48] TPU的软件优化与局限 - TPU的软件优化本质是弥补其3D Torus互联对不规则流量的天然劣势,试图将不规则操作转化为可预测的数据流 [3][46] - **KV Cache管理**:采用预取与流水线技术,避免GPU式的随机访存,但对请求结构灵活性要求更高 [46] - **All-fused MoE Kernel**:跳过排序步骤,采用顺序处理与计算-搬运交替执行来缓解调度开销,但无法根本解决3D Torus在不规则路由下的链路过载问题 [47] - **SparseCore**:在芯片内加入独立的稀疏计算单元,专门处理MoE的分发汇聚,以硬件方式寻求通信与计算的解耦,但可能挤占张量算力面积 [48] - 总体而言,TPU的优化方向是“让不规则变规则”,需要持续工程投入适配新负载;而GPU+NVSwitch的设计哲学是“从一开始就容忍不规则”,提供更通用底座 [48] 下一代产品对比:TPU v8 与 Nvidia Rubin - **Google TPU v8**:采取双供应商策略以降低成本。TPU 8AX与Broadcom合作,采用N3E制程和HBM3E,内存带宽9.8 TB/s。TPU 8X与MediaTek合作,采用N3P制程,旨在通过绕过设计公司直接采购HBM来降低BOM成本,但导致工程资源分散、流片周期拉长 [49][50] - **Nvidia Rubin**:规格激进,显著倾向于优化推理性能与TCO [51] - **FP4算力翻倍**:VR200的FP4算力达33.3 PFLOPS,相比GB300的15 PFLOPS实现翻倍,主要通过将I/O面积重新分配给计算单元、采用更先进制程及提高TDP至约2300W实现 [52] - **HBM4带宽领先**:VR200采用HBM4,带宽达20 TB/s,显著高于TPU v8的9.8 TB/s [53] - **推出专用芯片CPX**:针对Prefill场景推出低成本CPX芯片,在仅相当于R200约1/4 BOM成本下,提供其约60%的FP4算力,进一步巩固Prefill阶段的TCO优势 [53][54] - **TCO护城河削弱**:对比显示,TPU相对于GPU的TCO优势正在收窄。从GB200对TPUv7 External,到VR200对TPU v8p External,训练TCO差距从1.52倍收窄至1.23倍,HBM带宽性价比差距从1.32倍收窄至1.10倍 [6][57] - 优势收窄原因包括:TPU v8制程与内存(HBM3E)相对保守、内存带宽落后、SerDes升级节奏慢,以及从芯片到机架的供应链周期较长 [57][58]
当 AI 接管钱包:Agentic Commerce 如何重构互联网经济?
海外独角兽· 2026-01-14 12:05
Agentic Commerce的核心观点 - Agentic Commerce若大规模应用,将重塑互联网广告、电商及支付基础设施格局,改变利益分配机制,从“广告变现”转向“交易抽成” [2][5] - 当前阶段,支付基础设施公司Stripe在Agentic Commerce生态中极具优势,而Shopify是二级市场最明确的受益者 [2] Commerce的消费行为分类与市场潜力 - 消费行为可分为冲动消费、日常必需品和重大生活消费,三者特性完全不同 [6] - 生活方式类消费和功能性消费是目前Agentic Commerce最具潜力的领域,因其需要咨询、研究和信任,契合AI Agent能力 [8] - 仅生活方式、功能性和重大生活消费三类别的总潜在市场规模就高达3万亿美元 [8] - ChatGPT选择从Etsy和Shopify切入是明智之举,因这两个平台聚集了大量需要咨询式导购的商品 [9] 电商模式的连续光谱与MoR - 电商是一个连续光谱,两端分别是“平台是交易记录方”和“商家是交易记录方” [10] - 交易记录方是法律上代表商户向用户销售商品或服务的实体,负责支付、退款、税务等合规事务 [10] - Amazon是“平台是交易记录方”的典型,平台包揽所有运营工作,但卖家不拥有客户关系 [11] - Shopify是“商家是交易记录方”的典型,商家自己处理一切,但拥有100%的客户关系 [11] - 不同模式决定了商业上限、商家对流量数据的控制权以及支付体系面临的颠覆程度 [12] Agentic Commerce的两种实现路径 - Perplexity的“Buy with Pro”模式中,Perplexity自身是交易记录方,用户账单显示Perplexity,其承担更多责任 [14][19] - OpenAI的Agentic Commerce协议中,商家是交易记录方,协议独立于支付服务商,解耦了前端结账与后端支付 [14][15] - OpenAI的协议允许商家保留原有支付服务商,即使像Etsy不使用Stripe,也能无缝接入 [15] - 对于商家,OpenAI的模式允许其保留对支付、税务、退款、客户关系管理和第一方数据的控制权,同时获取Agent流量,是更优选择 [21] - OpenAI的模式更容易规模化,因平台几乎不承担连带责任 [21] 历史复盘:Google与Meta电商尝试的失败 - Google和Meta在电商尝试中都避免成为交易记录方,但这并非其失败的根本原因 [23][24] - 根本原因在于,相比电商,广告是一门更轻松、更暴利的生意,因此巨头最终将重心押注在广告上 [24] - Meta曾大力推行应用内结账,但因支付体验灾难(步骤多、强制登录、跳转频繁)而失败,最终退回外链结算,宣告其电商尝试的终结 [26] - OpenAI与Stripe合作推出的ACP协议是一步大棋,若Meta或Google当年能推出类似协议,其电商结局可能不同 [26] Agentic Commerce对利益分配机制的重塑 - 广告费和平台抽佣率本质都是“数字税”,是商家支付给流量掌控方的费用 [32] - 以在线旅游代理为例,来自Google的间接流量实际净抽佣率仅0–5%,营销成本高昂,导致其单位经济效益勉强盈亏平衡 [28][29] - Google从旅游行业榨取的总利润,比所有在线旅游代理平台加起来还要多 [29] - Agentic Commerce可能遵循的剧本是:初期设定较低抽佣率,随后逐渐提高至10–15%的市场均衡点,这与支付给Google的广告费成本效应类似 [33] - 这种融合在中国已发生,拼多多、阿里巴巴等平台收费已模糊了广告费与抽佣的界限 [32] Agentic Commerce对商家与平台的具体影响 - 对商家的冲击是多维度的,涉及直接与间接流量、单位经济效益、转化率及市场份额 [34] - Agentic Commerce发生在站外,导致商家失去用户行为数据、像素追踪和再营销能力,可能影响其提升客单价的能力 [36] - 关键问题在于,Agentic Commerce带来的高转化率能否抵消商家失去数据洞察的损失,对小商家或许可以,但对依赖客单价优化的大型零售商可能不利 [36] - 若Agentic Commerce将流量从直接渠道抽走,平台自身的广告收入将面临压力 [38] Shopify:Agentic Commerce的结构性赢家 - Shopify是Agentic Commerce语境下最明确、最契合的受益者 [2][38] - Shopify从未扮演交易记录方,也不策展商家,因此不受“直接与间接流量”矛盾困扰,其“非消费者平台”的定位在新世界中可能因祸得福 [38] - 具体积极影响包括:商品交易总额向优质中小商家倾斜、吸引更多中小商家采用其标准化技术栈以接入Agent、以及精简整个生态中重复的“数字税” [38][39] - Shopify自身营销支出约14亿美元,而其商家总营销支出估计在2000亿至5000亿美元之间,Agentic Commerce有望优化这部分效率 [39] Stripe:支付基础设施的隐形杠杆 - 无论是OpenAI还是Perplexity的模式,都允许商家保留现有支付服务商,而Stripe为两者提供支付基础设施支持 [41] - 随着Agentic结账的普及,Stripe作为中立连接方的地位将愈加稳固 [41] Agentic Commerce对Google及广告业的潜在冲击 - Google的商业模式依赖于与商业相关的高价值搜索查询 [43] - 理论上,即使失去95%的搜索量,只要保留高价值商业查询,Google营收仍可能增长 [43] - 但Google的广告模式能否在Agentic时代完好存活仍是未知数 [43] Agentic Commerce的未来发展 - 终极梦想是构建一个“通用产品目录”,用标准化的产品数据驱动AI Agent进行智能购物 [44] - 实现精准购物需要针对特定商品的模型和极其丰富、结构化的元数据支持 [44] - 为形成商业闭环,一个基于真实反馈的评价层也必不可少 [44]
深度解读 AGI-Next 2026:分化、新范式、Agent 与全球 AI 竞赛的 40 条重要判断
海外独角兽· 2026-01-13 20:33
文章核心观点 - 华人已成为AGI领域的重要力量,中国开源模型是全球Tier 1,预计到2026年地位将更加牢固[1] - 大模型行业正经历显著分化,主要体现在To B与To C场景、以及垂直整合与分层路线上[3] - 自主学习是行业共识性极强的新范式,预计2026年将成为主要投入方向[1] - Scaling(规模扩展)将继续,是技术、数据与品味共进的结果,探索前沿智能不会停止[1] - 模型即Agent,Agent即产品,两者趋于一体化[1] - 中美AI竞赛存在结构性差异,美国算力比中国多1-2个数量级,且更多投入下一代技术探索[1] 模型分化趋势 - 分化趋势显性,原因多元,包括To B和To C场景需求差异、对竞争格局的思考以及不同AI实验室的战略选择[1] - To B领域会出现强模型与弱模型的分化,且会越来越大[1] - To C场景的任务瓶颈往往不是模型不够大,而是上下文(Context)和环境(Environment)的缺失[1] - 在To C逻辑下,大多数用户大多数时候不需要很强的智能,模型智能提升的体验不强烈[3] - To C问题的解法在于真正的个性化数据,例如在合规前提下利用微信聊天记录等上下文,比追求更强预训练模型带来更大价值[3] - 在To B市场,用户(企业)愿意为“最强模型”付出溢价,因此强模型与弱模型的分化会越来越明显[3] - 例如,Opus 4.5这类强模型做10个任务能对8-9个,而弱模型只能对5-6个,即使后者更便宜,但企业因监控错误成本高而更倾向于选择强模型[4] - To C场景中,模型做All-in-one的垂直整合成立,模型与产品可强耦合迭代;而To B(生产力应用)因涉及多生产环节,给了应用公司优化空间,出现了模型公司与应用之间的分层[4] - 模型分化并非预设路线图,更多是自然演化的结果,通常源于与客户的高频交流[4] - 分化与模型竞争的时机相关,例如智谱AI押注Coding是基于对当时模型竞争格局(如DeepSeek出现后Chatbot取代搜索之战基本结束)的判断[5] 新范式:自主学习 - Scaling会继续,但需区分两种方向:Scaling已知路径(增加数据和算力)和Scaling未知路径(寻找新范式,让AI系统自己定义奖励函数、交互方法等)[5] - 当下AI社区对新范式尚无统一定义,自主学习、主动学习、持续学习等概念本质都预期模型能在人类不介入下提升智能[6] - Scaling Law被总结为一种将能源转化为智能的视角,核心在于高效逼近智能上限,是技术、数据与审美的共进[6] - 自主学习的目标是让模型具备自反思与自学习能力,通过持续的自我评估与批判来优化行为路径[6] - 新范式的发生是一个正在发生的“渐变”过程,2025年已出现信号,例如Cursor的Auto-complete模型每几小时用最新用户数据学习,ChatGPT利用用户数据拟合聊天风格,Claude Code写了自身项目95%的代码[6] - 新范式的最大瓶颈是想象力,即需要构想出证明范式实现的具体任务(如赚钱的交易系统或解决未解科学问题)[7] - 从更实际角度看,强化学习(RL)的潜力尚未被充分挖掘;下一代范式存在两个维度:自主学习和AI具备更强的主动性(未来模型可能不再需要人类提示,而是环境本身就能提示它)[7] - 主动学习会带来严重的安全挑战,风险不在于“讲不该讲的话”,而在于“做不该做的事”,因此必须为其注入正确的方向[7] - 自主学习能体现到个性化上,但衡量其是否“变好”会变得困难,因为当AI覆盖生活方方面面后,评估指标变得极其模糊[7] - 对于多Agent串联的长程任务,一旦Agent能力未达100%,后续能力往往呈指数级下降;人类通过睡眠“清理噪音”,AI可能需要探索类似的清噪与新计算模式[8] - 提出了“智能效率”(Intelligence Efficiency)概念,即关注投入多少资源能获得多少智能增量,这是解决成本瓶颈的关键[8] - 大模型发展路径借鉴人脑认知学习过程,而在多模态、记忆与持续学习、反思与自我认知这几类能力上,人类显著领先于当前模型,这些可能是新的突破方向[8] - 智谱AI在2020年参考人类认知规划了AI系统结构图,包含三个模块:系统一(模式匹配与知识提取)、系统二(知识融合与推理机制)、自主学习,分别对应数据与模型规模的Scaling-up、推理的Scaling、以及环境Scaling(让模型从与外界交互中获得反馈)[9][10] 原生多模态 - 原生多模态模型和人的“感统”相似,能汇集视觉、声音、触觉等信息,但当前模型的感统能力并不充分[11] - 多模态感统是智谱AI今年的重点方向之一,具备此能力后,AI才能在真实工作环境中执行长链路、长时效任务[11] - 多模态同样是Qwen持续要做的事情,认为真正智能的东西天然应该是多模态的,但存在多模态能否驱动智能的争论[11] - 从第一性原理出发,为模型提供更多生产力、更好帮助人类,做视觉、语音等多模态能力是自然而然的选择[11] - 视频是更广义的表达,图片可理解为单帧视频,理解很长视频是很有意思的事情[11] Agent发展 - Coding是通往Agent的必经之路,例如智谱AI的实践中,GLM-4.5虽跑分高但写不出“植物大战僵尸”游戏,通过引入RLVR和大量真实编程环境训练,GLM-4.7才解决了该问题[11] - 模型即产品,Agent要实现复杂任务对模型要求相当高,模型就是Agent本身,Agent就是产品本身,做基础模型也就是在做产品[12] - 模型To B和To C的分化同样体现在Agent上:To C产品的指标有时与模型智能不相关甚至相反;To B的Agent甚至不需要做太多创新,模型智能提升、解决真实世界任务能力提高就能创造更多价值[12] - 生产力场景的Agent才刚开始,除了模型进步,环境和部署同样重要,是Agent创造价值的关键:即使模型不再变好,只要把现有模型部署到各公司,也能带来10倍甚至100倍的收益,但今天AI对GDP的影响还远不到1%[13] - 教育非常重要,会使用AI工具的人正在替代那些不会使用工具的人[13] - 未来的Agent将变成“托管式”,用户设定通用目标后,Agent在后台长时间独立运行直至完成任务[13] - Agent要做到这一点离不开前面提到的自我进化以及主动学习,在此逻辑下,“模型即Agent,Agent即产品”[13] - 做通用Agent过程中,长尾任务更值得关注,用户感受到AI的价值与魅力往往因为某个长尾任务被解决,今天的所谓AGI本质上也在解决长尾问题[13] - 做通用Agent是见仁见智的问题,如果作为“套壳”方没有比模型公司做得更好的信息,那么通用Agent就是“模型即产品”的机会,因为对模型公司来说,很多工程问题可能只是“烧一烧卡”就可解决[14] - Agent发展可划分为四个象限,从两个维度看:目标定义(人为/自动)和任务规划(人为/自动);今天处于初级状态(目标与规划皆由人定义),未来会出现大模型观察人的工作并使用人的流程数据,最终目标与规划皆可由大模型定义,Agent应是大模型内生的原生系统[14] - 决定Agent未来走势的几个重要问题:是否能真正解决人类任务并创造价值及价值大小;Agent成本有多大(成本过高是问题,若调用API就能解决,模型厂商意识到价值大时就会自然做进去,这是基座模型与应用之间的矛盾);应用公司的迭代速度(若Agent团队有能力拉开半年时间窗口满足用户需求,就有机会持续往前走)[14][15] 全球AI竞赛 - 对于中国AI在3-5年内进入全球第一梯队持乐观态度,因为中国最大的优势在于一旦证明某件事可行,就有能力以极高效率复现、甚至做到局部更好[17] - 但长期视角中更核心的问题在于“敢突破新范式、敢冒险的人不够多”的文化差异,此外还需面对两个现实瓶颈:算力瓶颈(核心在于光刻机是否有突破)和是否能诞生更成熟的To B市场并在国际市场竞争(应更关注“正确的事”和用户体验,而非过分刷榜)[17][18] - 另一种观点认为,中国AI超过美国的概率最乐观情况为20%[18] - 中美AI之间算力差异不只是绝对量级上的,还是结构性的:美国算力比中国大1-2个数量级,但最关键的差异在于,美国有相当一部分算力投入到了下一代的研究中,而中国今天还在解决任务交付爆发带来的算力瓶颈[1][18] - 但从历史经验看,“穷则生变”,作为“算力穷人”,中国团队更有紧迫感和动力去思考算法与基础设施的联合优化,这个出发点可以倒逼创新发生[18] - 面对光刻机的现实瓶颈,有可能在下一代的模型结构和芯片上从软硬结合的角度端到端地实现突破[18]
拾象 2026 AI Best Ideas:20 大关键预测
海外独角兽· 2026-01-01 13:25
文章核心观点 文章对2026年人工智能领域的发展趋势做出了20项关键预测,核心观点认为2026年将是AI技术深化、应用爆发和商业格局重塑的关键一年,涵盖新范式探索、模型竞争、多模态突破、企业级应用、硬件基础设施变革以及自动驾驶商业化等多个维度 [2][4] 技术范式与模型发展 - **新范式信号出现**:行业预计在2026年将在持续学习(Continual Learning)等新范式上出现积极信号,可能在1-2个技术路线上达成共识,出现类似Transformer的代表性工作或早期共识,这是突破当前模型代际差距的关键 [5] - **World Model路线收敛**:世界模型的技术路径预计在2026年结束“盲目探索”,达成共识,进入“GPT-2时刻”,即技术路线收敛后通过扩大规模(scaling)验证模型上限,进入爆发前夜 [4][20] - **开源模型格局变化**:预测中国公司如Qwen和DeepSeek将持续占领开源领域的SOTA(最先进水平),全球开源第一梯队将完全由中国公司占据,而美国顶尖团队因专注于闭源模型,将缺乏与之抗衡的对标产品 [4][25] - **AI参与科研深化**:预计在2026年左右,AI将更“原生地”解决第一个重大科学问题,最有可能发生在数学、物理或材料学领域,背景是OpenAI、Google等AI实验室加大了对科学领域的投入 [4][23][24] 主要参与者与竞争格局 - **OpenAI叙事反转与估值**:预测OpenAI将在2026年下半年扭转叙事,估值突破万亿美元,驱动力包括ChatGPT成为全球性入口、探索新的商业模式,以及有望在持续学习新范式上取得突破并重回SOTA地位 [4][9][10] - **xAI并入Tesla**:预测xAI将被并入Tesla,旨在打通数字与物理世界的AGI,将xAI的智能资产转化为Tesla在自动驾驶和具身机器人(如Optimus)领域的“具身智能”溢价 [4][11] - **Google市值突破**:预测Google市值将在2026年进一步冲高,突破5万亿美元,这意味着其EPS有望达到16至20美元,市场可能给予30倍以上的PE倍数,信心来源于其稳固的模型第一梯队地位、多模态积累以及广告业务的韧性 [4][34] - **M7科技巨头分化**:预测到2026年,M7巨头在AI上的收益和穿越周期能力差异将加剧,分化为三层梯队:NVIDIA和Google是核心赢家;Apple和Tesla因硬件和物理AI优势维持中间地位;MSFT、AWS和Meta可能掉队 [4][35] 产品、应用与商业化 - **ChatGPT成为全球入口**:预测ChatGPT的DAU将从当前的约4-5亿在2026年翻倍,达到8亿至10亿,成为真正意义上的“全球性入口”;同时,其Web端流量与Google的比例将从约85:15演变为至少70:30,达到“1/2个Google”的体量 [4][6] - **ChatGPT的“App-store Moment”**:预测ChatGPT将出现“应用商店时刻”,标志是诞生第一个年度经常性收入(ARR)达1亿美元的原生Killer App,实现从超级工具向超级平台的跃迁,AI将直接推荐并嵌入应用功能到对话流中 [4][7][8] - **企业级AI大年**:预测2026年是“企业级AI大年”,爆发路径分化为“Buy”(开箱即用产品,如AI-native办公工具)和“Build”(基于API深度构建Agentic工作流)。Anthropic因其作为中立、跨云的强API提供者的结构性优势,预计ARR将至少翻倍,突破200亿美元 [4][12][14] - **多模态迎来“AI Coding时刻”**:预测多模态领域将像AI编程一样开始产生规模化的商业收入,出现代表性公司,并预计在2026年诞生类似“Pokémon GO”的现象级AI多模态内容消费产品,推动软硬件协同进化 [4][15][16] - **自动驾驶规模化商业变现**:预测2026年是自动驾驶“大规模商业化大年”,全球Robotaxi车队总量可能从约2万台增长10倍,达到约30万台量级;Tesla的FSD订阅用户数预计从70万翻倍增长至150万左右,成为重要现金流来源 [4][36][37] 基础设施与硬件 - **推理算力大爆炸**:预测2026年将是推理算力“大爆发”之年,从Tokens消耗角度看预计至少有10倍增长,驱动因素包括从对话转向“长程任务”、Proactive Agents的主动行为以及多模态与世界模型应用带来的高维计算需求 [4][30][31] - **NVIDIA投入光互联与CPO并购**:预测NVIDIA将在2026年激进投入光互联领域,并可能引发全球共封装光学(CPO)领域的并购潮,NVIDIA凭借微环调制器等技术在光互联领域建立代差壁垒 [4][27][28] - **多模态引发存储革命**:预测多模态训练的爆发将硬件关注点引向存储带宽与容量,特别是eSSD;如果世界模型路径跑通,将进一步驱动存储需求,存储将从芯片外设深度融入算力核心,NVDA和Google可能推出针对视频处理的专属芯片或chiplet [4][29] 行业生态与资本市场 - **新一波数据公司崛起**:预测长程任务(Long-horizon Tasks)和多模态需求的爆发将催生新一波ARR达10亿美元的数据公司,需求来自高难度的长轨迹数据、多模态标注处理以及企业级AI落地所需的专有领域知识 [4][17] - **AI公司IPO大年**:预测美股将在2026年迎来AI公司IPO大年,SpaceX、OpenAI和Anthropic等巨型公司以及已具规模的垂直AI公司可能密集上市,反映极高的市场热度,但巨型IPO也可能成为市场情绪峰值信号 [4][32][33] - **AI公司估值共识形成**:预测随着Agent产品(如Proactive Agent、长程任务应用)的普及,2026年将形成新的、可量化的Agent产品价值评估体系,取代传统的用户留存、企业IT预算等指标 [4][26] - **Agentic Web博弈与协议**:预测Agentic Web(AI能跨越边界替用户行动)将打破现有流量分发逻辑,引发类似“3Q大战”的利益冲突,而Apple可能凭借其软硬全栈布局和强势生态,在2026年推出决定性的Agentic Web协议规范 [4][21][22]
Benchmark 新合伙人 Everett Randle: 忘掉 SaaS 逻辑与毛利率,AI 时代估值看单客价值
海外独角兽· 2025-12-31 20:05
文章核心观点 - AI时代需要新的价值评估框架,传统的SaaS指标(如毛利率)已不适用,应关注单客绝对利润、技术护城河和真实使用率 [1][2] - 顶级风险投资机构的策略正在两极分化:一端是追求高速度、大规模资本配置的Mega Fund模式,另一端是强调深度参与、高附加值的手工艺式精品基金模式 [45][46][47] - 在历史级投资机会面前,对创始人、产品和市场潜力的直觉与信念,比过度纠结于交易结构和条款等“理性分析”更为重要 [2][13] 从顶尖投资者身上学到的经验 - **Mary Meeker(定性思维)**:擅长将定量数据转化为长期叙事,例如将Doordash的财务预测解读为“20%的家庭将每月订购外卖”,用数字驱动投资故事而非陷入纯量化分析 [3][4] - **Peter Thiel(信念测试)**:通过机制设计(如要求投资团队成员个人跟投)来测试和确保投资决策是基于高度信念,营造追求极致真相、扁平化的组织文化 [6][9] - **Mamoon Hamid(建立标准与品味)**:强调在职业生涯早期近距离观察顶尖团队(A++级别)的运作方式以建立识别标准,并培养对人才和产品无懈可击的独特品味 [11] AI公司的评估指标:放弃SaaS迷信 - **毛利率的局限性**:优秀的AI应用因包含大量AI推理成本,毛利率通常低于传统SaaS的80%标准,但这并非业务质量差的标志 [22][23] - **关注单客绝对毛利**:评估重点应从毛利率转向单客绝对毛利美元数,AI公司可通过接管更多劳动力预算,使单客收入规模远超SaaS,即使毛利率较低,其绝对利润和潜在市场也更大 [23][24] - **实例对比**:传统SaaS公司ServiceTitan毛利率75%,单客毛利20万美元;而一家AI公司毛利率50%,但因替代更多人工成本,单客毛利可达50万美元 [23] - **市场增长规模**:代码生成市场在过去两年半内从零增长到约60-70亿美元的年度经常性收入,2024年预计将增加40-50亿美元的净新增ARR,是“黄金类别”的典型代表 [17][21] AI企业的护城河与增长 - **护城河在于技术**:打造卓越的AI产品极其困难且微妙,需要深度融入工作流,超越基础模型提供的基准体验,其根本护城河仍在于技术而非分销或数据获取 [27][28] - **警惕增长陷阱**:公司可能实现从0到1亿美元ARR的极快增长(如Jasper),但若无法建立差异化的产品价值和客户关系,增长将不可持续,容易被OpenAI等基础模型提供商以更低价格颠覆 [27] - **应对策略**:应用层公司需将大语言模型深度融入用户工作和操作的生命周期,建立差异化的工作流,而不仅仅是套壳 [27] 风险投资策略:规模、所有权与角色 - **基金规模与策略选择**:大规模基金(如70亿美元规模)为有效配置资本必须参与巨额融资轮次;而小规模基金(如Benchmark的5-6亿美元)则通过追求高倍数回报(如前五大投资平均回报约60倍)来创造惊人现金回报率 [30][31] - **所有权的灵活性与北极星指标**:Benchmark等机构的核心目标并非僵化地追求20%持股比例,而是成为创始人最高投资回报率、最亲密的合作伙伴,并为有限合伙人创造最高的资金回报率 [32][33] - **人才与产品优先**:投资决策中,人的质量是上游引擎,决定了产品的高度;产品是团队能力的证明;市场虽然决定回报上限,但在早期最具可变性,重要性相对靠后 [44] VC行业的分化与未来 - **行业两极分化**:VC行业正分化为以资本配置速度为北极星的“Tiger模式”(高速度、低介入)和以深度参与、高附加值为核心的“Benchmark模式”(手工艺式、高触点) [45][46] - **中间地带的危险**:战略模糊、不上不下的“JC Penney funds”处于最危险的死亡区 [47] - **Mega Fund的挑战**:超大规模基金因物理限制,很难为有限合伙人提供风险投资类别所预期的高倍数回报(如5倍净回报),其内部晋升机制往往以资本投放速度为关键绩效指标 [47][48][49] - **被低估的投资者**:行业中存在像Matias Van Thienen这样低调但业绩卓越的投资者,其投资组合包括SpaceX、Stripe、Rippling、Trade Republic等众多优秀公司 [53][56] 具体公司观点与预测 - **OpenAI**:被预测在2025年底或2026年第二季度将成为一家万亿美元估值的公司,ChatGPT被认为是未来五年最重要的消费应用和目的地,增长轨迹历史最强 [13][14] - **OpenAI vs. Anthropic**:OpenAI在消费端(ChatGPT)具有近乎垄断的优势和极低的下行风险;Anthropic在B2B和编码(Claude Code)方面可能略占优势;以500亿美元估值投资OpenAI优于以350亿美元估值投资Anthropic [14][15] - **基础设施公司价值重估**:像CoreWeave(估值600亿美元)和Nebius(估值300亿美元)这样的算力基础设施提供商,在AI推理需求曲线疯狂增长的背景下,即使是“商品化”生意也能诞生巨头 [26] - **对未发布产品公司的质疑**:不看好那些筹集数十亿美元资金却尚未发布产品的公司,认为AI产品是使用率驱动的进化生物,高使用率的真实产品(如Claude Code、Codex、Cursor)将迅速超越它们 [59]