海外独角兽
搜索文档
RL 是新的 Fine-Tuning
海外独角兽· 2025-10-24 20:06
LoRA技术的重新评估与优势 - LoRA技术近期被重新重视,研究表明在特定条件下能以更少计算资源达到与全参数微调相当性能[2] - 使用LoRA后可在同一GPU部署上并行处理任意数量适配器,实现按Token定价而非按GPU时长计费,提升部署灵活性和成本效率[3][10] - 各大AI实验室内部进行后训练时普遍使用LoRA技术,尤其在快速验证想法的实验阶段被证明有效[14] 从模型微调向强化学习的行业转型 - 只有在必须使用小参数模型的情况下微调才有必要,约90%场景中微调的ROI不高[4][18] - OpenAI o1模型发布是行业转向RL的关键转折点,RL在前沿通用模型领域投入回报明显,尤其在智能体相关任务中效果突出[19] - 公司于2025年1月决定全面转向RL,虽然初始成功概率估计仅25%,但属于高风险高回报机会,目前胜算已提升至55-60%[20] 强化学习落地的核心挑战与环境搭建 - RL落地最大障碍是训练环境搭建,这是目前唯一尚未自动化、每个任务都需要大量人工工作的环节[4][24] - 高质量模拟环境构建难度极高,需要精确复刻生产环境行为包括故障模式和程序缺陷,大多数企业缺乏此类基础设施[24][25] - World Model可能是解决环境问题的关键,它能模拟外部世界反馈并记录操作引起的状态变化,有望成为环境搭建的解决方案[51][52] 奖励函数与评估机制的创新 - 公司发布通用奖励函数Ruler,基于GRPO核心理念让语言模型对一组结果进行相对评判,该方法与GRPO配合效果远超预期[46][47] - 实验显示使用140亿参数模型训练、320亿参数模型评估的智能体在目标任务上达到最先进水平,表明不需要特别强大的评估模型[47] - 专用评判模型在常见任务中难以超越前沿AI实验室的通用模型,除非针对特殊任务拥有足够多标注数据[50] 行业生态与商业模式演变 - 开源模型目前仅生成5%的Token且占比持续下降,但企业对开源模型需求巨大,若性能达标大多数企业更愿意选择开源模型[40][41] - 闭源模型通过Token补贴维持竞争力,例如Coding领域月费200美元可消费数千美元服务,但这种补贴模式长期不可持续[41][42] - 行业大量AI推理需求仍停留在概念验证阶段,估计潜在需求为已落地规模的十倍,约90%市场因可靠性问题尚未激活[55] 智能体部署与持续学习 - 未来所有大规模部署智能体的企业都将在某个阶段引入RL,要么在部署前训练,要么在部署后持续优化[4][21] - 生产环境部署智能体面临可靠性挑战,故障模式相似且难以通过提示词更新扩展解决,需要RL和持续学习机制[54][55] - Online RL中的奖励黑客问题可通过在奖励提示中补充约束轻松解决,模型一旦找到漏洞会反复执行同样行为易于发现[56][57]
SemiAnalysis 创始人解析万亿美元 AI 竞争:算力是 AI 世界的货币,Nvidia 是“中央银行”
海外独角兽· 2025-10-22 20:04
AI行业格局与资本流动 - AI基础设施竞赛驱动算力、资本与能源深度交织,形成产业迁徙[2] - 算力—资本—基础设施形成闭环,算力成为AI时代的货币[2] - OpenAI–Oracle–Nvidia形成3000亿美元三角交易,OpenAI五年内向甲骨文采购3000亿美元算力服务[4] - 英伟达向OpenAI投资最高1000亿美元,合作建设10吉瓦AI数据中心,耗电量相当于800万户美国家庭[5] - 1GW数据中心建设成本约100-150亿美元/年,5年总额500-750亿美元,10GW集群需数千亿美元[8] - 英伟达通过三角交易将约50%毛利转化为OpenAI股权,1GW集群350亿美元直接流向英伟达,毛利率达75%[8] 市场控制权与竞争态势 - 掌控数据、接口与切换成本的企业拥有AI市场话语权[2] - Cursor作为应用方掌握用户数据并可多模型切换,保有对Anthropic的议价空间[9] - 微软放弃独家算力供应后,OpenAI转向甲骨文,双方正就利润分配和知识产权重新谈判[9] - 英伟达通过需求担保、回购协议和算力前置分配巩固生态,实现GPU货币化[10] - Oracle、CoreWeave等提供"首年免付算力窗口",允许客户先训练模型后偿还成本[10] Neo Clouds商业模式 - Neo Clouds承担算力租赁与模型托管,形成产业链新分层[10] - 短期合同模式:Blackwell芯片每小时成本2美元,短期租赁价达3.5-4美元,利润率高但资产贬值风险大[11] - 长期绑定模式:Nebius与微软签190亿美元合同,CoreWeave转向服务Google和OpenAI但面临信用风险[11] - Inference Providers为Roblox、Shopify等企业提供模型托管服务,客户多为资金有限初创企业,承担较高信用风险[12][13] - 产业链利润最终集中在英伟达,其通过GPU销售获得稳定收益且几乎不受市场波动影响[13] 技术发展路径 - Scaling Law未出现边际效益递减,模型性能随算力投入持续提升[3][16] - 模型智能提升呈质变式跨越,下一阶段能力需投入10倍算力但经济回报可支撑[16] - 真正进步来自算法架构优化和推理时间延长,而非单纯扩大模型规模[3][18] - 需在inference latency与capacity间权衡,GPU降低延迟会急剧推升成本[17] - 过参数化陷阱:模型规模扩大而数据量未同步增长时,模型仅记忆而非理解内容[18] 硬件创新趋势 - 硬件创新重心在芯片互联、光电与电力设备等传统工业环节[3][24] - 英伟达Blackwell架构NVL72模块实现芯片间1.8TB/秒高速通信[25][26] - 光学互连为关键前沿,电光信号转换效率决定数据中心性能上限[25] - 固态变压器等传统电力设备创新提升能源利用效率,成为新利润源头[24] - 半导体制造复杂度达"太空时代级别",但软件体系滞后,数据共享文化缺失阻碍效率[24][26] AI工厂与经济模型 - AI工厂以token为产品单元,竞争关键是以最低token成本提供可规模化智能服务[3][28][30] - GPT-3级别推理成本比两年前下降约2000倍,但算力仍是稀缺资源[30] - OpenAI在GPT-5阶段保持与GPT-4相近规模,优先提升推理效率而非盲目扩大模型[30] - 未来可能出现AI执行抽成模式,平台从AI执行环节收取0.1%-1%费用[21] - Etsy超10%流量直接来自GPT,亚马逊若未屏蔽GPT则该比例可能更高[21] 人才与能源挑战 - 能高效使用GPU的人才比GPU更稀缺,研究者提升5%算力利用率可抵消数亿美元设备投资[31] - 美国数据中心用电占全国总电力3%-4%,其中约一半来自AI数据中心[31] - 美国2025年电力消耗预计41650亿千瓦时,AI数据中心将消耗624-833亿千瓦时[32] - OpenAI建设2吉瓦数据中心相当于费城全市耗电量,500兆瓦项目需约250亿美元资本支出[35] - 美国电网规定供电紧张时可要求大型企业削减50%用电量,迫使AI企业启用自备发电机[37] 软件行业变革 - AI降低软件开发成本,使SaaS行业"租比买划算"逻辑逐渐失效[38][39] - 中国软件工程师薪资为美国五分之一但能力可能更强一倍,导致本地化开发成本低于SaaS订阅[39] - AI抬高软件公司COGS,任何集成AI功能的服务成本显著上升[39] - Google凭借自研TPU和垂直一体化基础设施,在token边际服务成本上具显著优势[40] - 内容生成成本持续下降,YouTube等超级平台可能成为最大赢家[40] 主要玩家评估 - Anthropic收入增长快于OpenAI,因其专注2万亿美元软件市场,执行更稳健聚焦[41] - xAI建设可部署30-50万颗Blackwell GPU的Colossus 2数据中心,但商业化模式未突破[41] - Meta拥有硬件、模型能力、算力供应和推荐算法完整体系,具人机交互革命潜力[42] - Google从两年前悲观转向积极,对外销售TPU并推进AI商业化,在企业级应用具潜力[43] - AMD长期抗衡英特尔和英伟达,扮演友善挑战者角色[41]
告别 260 亿美元的低效投入,HappyRobot 为物流业配置 “AI 调度员”
海外独角兽· 2025-10-21 20:05
公司概述 - HappyRobot是一家专注于物流业自动化的AI-native平台,利用Voice AI Agents替代人工执行高频重复的沟通任务[3] - 公司每天可处理多达2万通电话,帮助客户的沟通效率提升30%以上,并将运营成本降低20%[3] - 近期已完成4400万美元B轮融资,累计融资6200万美元,估值达5亿美元[3] - 已与DHL、Circle、Flexport等100多家公司建立合作关系[3][15] 行业背景与痛点 - 物流业每年投入260亿美元运营BPO,但供需关系仍然失衡[9] - 货运经纪环节高度依赖人力,难以规模化和应对实时性需求,员工每小时处理电话量有限[11] - 大量重复性任务导致员工执行意愿低,人工操作常偏离SOP,出错率高[11] - 传统沟通过程中大量非结构化数据(如未达成的报价)未被记录,导致市场洞察力缺失[11] 产品与技术架构 - 平台集成CPaaS、实时语音、LLM与运输管理系统于同一编排层,基于供应链数据微调模型[10] - 核心产品包括开发者平台"Platform"和控制中心"Bridge",支持开箱即用能力和无代码工作流构建[17][18][19][24] - Voice Agent达到高拟真度,超过75%的通话者无法分辨对方是AI[10] - 采用云原生架构和双边缘路径,支持高并发和复杂场景,确保低尾延迟和7x24小时服务稳定性[26][27] - AI技术栈包括模型路由架构、优化的TTS&ASR系统,以及通话后审计系统,用于监测交互质量和业务成果[27][28][29][31] 市场机会与竞争格局 - 全球货运代理市场2024年规模约为549亿美元至665亿美元,预计2034年将达到1002亿美元至1054亿美元[34][36] - 数字货运经纪市场目前占整个行业约8%-12%,HappyRobot的TAM约为45亿美元至50亿美元[38][40] - 核心护城河在于高转换成本,通过深度定制和长期合作将AI逻辑嵌入客户流程,pilot-to-contract rate达95%以上[42] - 主要竞争对手包括Augment和Sola,前者定位全功能AI助手平台,后者专注于AI驱动的RPA自动化[46][47][50] 商业模式与增长 - 采用Digital Labor as a Service模式,定价灵活,支持按任务数量、通话分钟、收入分成等多种方式[51][52] - GTM策略通过试点项目证明价值,实现客户黏性,公司营业收入在12个月内增长10倍[52] - 平台已逐步将物流业验证的自动化能力复制到能源、零售、制造业等更多实体行业[3][10]
诺贝尔经济学奖背后的 AI 投资主线|AGIX PM Notes
海外独角兽· 2025-10-20 20:05
AGIX指数定位与表现 - AGIX指数旨在成为衡量AGI时代科技范式的重要指标,类似于纳斯达克100指数在互联网时代的地位 [2] - 指数年初至今回报率达31.87%,自2024年以来累计回报达81.64%,显著跑赢标普500指数(18.13%和47.47%)及纳斯达克100指数(13.30%和39.71%)[5] - 指数权重分布为应用层39.73%、半导体与硬件30.11%、基础设施24.74% [6] 创新驱动增长的经济理论 - 2025年诺贝尔经济学奖授予系统阐释“创新驱动经济增长”理论的经济学家,该理论强调技术创新具有“递增收益”特征,能提升所有生产要素的生产率 [9] - 知识要素具有“非竞争性、部分非排他性”特征,知识越积累、创新越多,后续创新的边际成本反而下降 [9] - AI作为技术和知识集合,其核心能力一旦开发可被大规模复制、迁移和二次创新,理论上不存在资本那样的“边际收益递减”现象 [10] AI驱动的商业模式变革 - AI生产力工具覆盖的市场空间体量巨大,标普500成分公司2024年销售/管理和行政费用总数约为6.2万亿美元 [10] - OpenAI的Sora模型将版权从传统“单次授权模式”转变为“按次付费”的微交易模式,颠覆了Netflix向迪士尼支付每年3.5亿美元固定授权费的体系 [11] - 微交易模式让版权方可以从每一次创意调用中获得即时收益,相当于将Spotify的“每播放0.003-0.005美元”模式应用到视觉内容创作领域 [11] 企业AI能力评估框架 - 企业AI潜力可概括为Agent密度、Context Token化程度和Agent能力三项相乘 [14] - Agent密度可用AI席位渗透率表达,即Copilot/自研助手订阅数占员工数的比例 [14] - Context Token化程度可分解为云化/SaaS化程度以及业务流程被AI重新处理的广度与深度 [14] - Agent能力可理解为Token Consumption的ROI,宏观层面可观察引入AI后的毛利率趋势与单位计算成本下降的改善 [15] 全球市场动态与仓位调整 - 全球股票市场经历自7月以来最大规模去杠杆,美国多空基金净杠杆从57%降至52% [15] - TMT板块成为卖压核心,无盈利科技股及软件类公司被显著减持,但半导体相关个股仍获部分加仓 [15] - 美国多空基金总杠杆环比上升5%至217%,创2010年以来新高 [15] AI基础设施与生态进展 - Meta与Oracle将在AI数据中心大规模部署NVIDIA Spectrum-X以太网方案,标志着以太网在超大规模AI训练网络中可行性获验证 [17] - Anthropic推出Skills功能,为Claude提供可复用的任务能力模块,将模型从对话助手提升为可执行任务的代理 [18] - Oracle公布两大AI集群蓝图,最高可扩展至八十万片NVIDIA GPU,标志头部云厂商由单一架构转向多供应商异构 [19] - 微软、英伟达与贝莱德等发起AI基建联盟,以约400亿美元收购Aligned Data Centers,后者在北美与拉美拥有接近八十座数据中心 [19] 企业级AI应用集成 - Snowflake与Palantir深化企业级集成,连接数据治理能力与AI应用编排框架,缩短从数据到应用的路径 [20] - Salesforce发布Agentforce 360集成,用户可在ChatGPT界面直接检索并操作Salesforce数据,形成多模型择优策略 [20] - Arm与Meta推进多层协同,从PyTorch在Arm架构上的深度优化到数据中心层面的高能效架构协同 [21] 先进AI算力系统部署 - 英伟达披露Vera Rubin愿景,以800V直流电力架构替代传统415VAC,面向千兆瓦级AI工厂 [21] - OpenAI与Broadcom达成多年合作,计划至2029年完成十吉瓦的自研AI加速器部署 [22] - AI基建商Nscale与微软达成协议,计划在欧美数据中心部署约二十万片NVIDIA GB300 [22] - 微软与Nebius签订174亿美元长期GPU基建合约,体现多源算力策略中的分层保障模式 [23]
GPT-5 核心成员详解 RL:Pre-training 只有和 RL 结合才能走向 AGI
海外独角兽· 2025-10-18 20:03
文章核心观点 - 强化学习与预训练的结合是当前AI发展的核心路径,两者相互依存,共同推动模型能力的提升[16][50] - 推理能力是AI发展的关键里程碑,其本质是模型寻找未知答案的思考过程,而不仅仅是简单的搜索[7][9] - 公司通过持续迭代其模型架构和训练方法,实现了从技术展示到实用产品的跨越,并确立了在行业中的领先地位[13][15][62] 强化学习与预训练的结合 - 预训练是基础,为强化学习提供必要的知识基础,没有预训练,强化学习难以奏效[16][22] - 强化学习必须建立在强大的预训练之上,而预训练同样需要强化学习的强化与闭环才能成功[3][50] - 公司自2019年就确立了“在大量数据上训练大型生成模型,然后进行强化学习”的战略路线,并延续至今[17] - 强化学习被比喻为训练狗的过程,通过奖励期望行为和惩罚不期望行为来优化模型策略[19][20] - 与相对标准化的预训练相比,强化学习更为复杂和精细,涉及更多动态组件,大规模扩展时挑战更大[33] 推理模型的技术演进 - 推理被定义为“找到一个未知答案的过程”,这比简单的“回答问题”需要更长的时间和更复杂的工作[7][9] - 思维链是模型将内部思考过程以人类语言和概念表达出来的能力,本质上是文字编码的思考过程[10][11] - 公司在推理模型的开发上遵循逐步扩展的训练实验路径,从展示能力的o1模型,到真正有用的o3模型,再到被视为o3迭代的GPT-5模型[13][15] - 模型思考时间的权衡由用户体验驱动,公司在产品层面提供不同模式让用户在输出质量和等待时间之间进行选择[12] - 编程能力是推理模型能力的一个自然副产品,研究人员常用编程问题测试新想法,使模型在该领域表现突出[43] 行业竞争与开源影响 - 公司在发布o1模型后,对许多研究实验室产生了意外冲击,而开源模型如DeepSeek的GRPO算法为其他实验室提供了快速跟进的操作说明书[30][32] - 数据标注行业必须不断自我更新,因为AI能力快速提升,几个月前需要人工标注的任务可能很快就能由AI自动完成[27] - 行业内的研究组织方式趋向于集中资源推进少数核心项目,而非进行大量分散的小赌注,以确保研究深度和效率[60] 智能体与未来发展方向 - 智能体系统的核心是让模型能够长时间自主思考,与更多系统和信息源交互,以完成复杂的长任务清单[34][35] - 目前大多数针对语言模型的强化学习仍是在线训练,但在与真实用户隔离的环境中进行,实时在线学习因安全考虑尚未大规模应用[36][38] - 对齐问题在某种程度上被视为一个强化学习问题,需要通过引导模型产生特定行为来实现,但这是一个持续演变的挑战[38][39] - 通向AGI的终极问题在于模型何时能在不依赖大量外部干预和人类修正的情况下实现自我改进[47] - 未来的发展路径更可能是在现有体系上持续叠加新方法,逐步淘汰旧元素,而非彻底推翻重来的转向[52]
Palantir 创始工程师深度分享:FDE 模式是 Agent 时代的 PMF 范式
海外独角兽· 2025-10-14 20:08
FDE模式的核心定义与价值 - FDE是前沿部署工程师,作为技术人员驻扎客户现场,填补产品功能与客户需求之间的差距,目标是为客户交付有价值的结果而非单纯软件或服务[6] - FDE本质上是站在企业内部进行产品探索的过程,以规模化方式去做那些不易规模化的事,因此通用底层产品同样重要[3] - FDE模式与咨询或on-prem不同,它通过可扩展方式为每个客户定制解决方案,同时依托通用平台实现规模化复用[3] FDE模式的起源与Palantir实践 - Palantir因早期为情报部门搭建系统时无法直接接触用户而发明FDE模式,通过展示demo收集反馈并现场定制解决方案[7] - FDE模式由早期成员Shyam Sankar提出,将产品做成高度可定制平台,派驻员工现场理解用户并做本地化改造[8] - FDE团队分为Echo团队和Delta团队:Echo作为嵌入式分析师负责客户关系和需求挖掘,Delta作为部署工程师快速编写代码落地解决方案[10][11] - FDE模式使合同规模随时间推移越来越大,利润率从负转正,实现可重复价值交付[18] FDE团队的人才画像与组织建设 - Echo团队需要领域专家和"反叛者"特质,能识别现有工作方式不足并推动阶跃式变化[13] - Delta团队需要擅长快速原型开发的人才,注重在规定时间内交付可用成果而非代码完美性[13][14] - FDE培训实质是创业公司创始人培训,Palantir校友已创办或掌管350多家科技公司,其中至少十多家达独角兽级别[14][15] - 最成功的FDE模式创业公司通常由Palantir背景人员运营,因FDE运作机制与标准软件公司有显著差异[29] FDE模式与产品平台的协同 - 产品团队需把握产品愿景,将现场做法抽象为可服务多客户的通用功能,避免过度特化[19] - Palantir Ontology平台通过高度通用数据库模式支持定制化,仅保留对象、属性、媒体和链接等基础元素[20][22] - 产品人员需在更高抽象层思考,使专用功能能跨客户复用,例如构建对所有拥有某种属性对象都适用的通用操作[23] - FDE模式中产品应为现场交付成果提供杠杆,且产品杠杆数量应随时间增加[34] FDE模式在AI Agent时代的应用 - AI Agent领域缺乏现成标准化产品,需大量产品探索工作,且只能从企业内部实践出发,这恰好契合FDE模式特点[3][27] - FDE模式在AI时代可能成为创业公司新的组织范式和PMF模式,因AI能力进展快但采用速度慢,需方法论填补差距[24][42] - AI领域存在巨大异质性,需将市场视为不同细分市场,为每个细分市场开发新技术并可跨市场引用[25][26] - FDE模式销售基于成果而非软件安装,定价复杂且合同规模逐步扩大,与标准SaaS模式形成鲜明对比[29][33] FDE模式的操作策略与衡量标准 - FDE模式需聚焦解决客户CEO前五大优先问题之一,以获得高层支持绕过组织内阻碍[9][31] - 关键衡量指标是合同规模或交付成果的价值,而非每个客户的定制工作量[33] - Demo驱动开发在FDE语境中效果显著,通过展示流程创造客户渴望,迫使产品功能协同工作[36][37] - FDE模式要求公司成为学习型组织,持续在客户需求多维空间中进行梯度上升[38]
AGI 路线图第二阶段:游戏即模型训练|AGIX PM Notes
海外独角兽· 2025-10-13 20:04
AGIX指数定位与愿景 - AGIX指数旨在捕获AGI(通用人工智能)时代的beta和alpha收益,定位为衡量AGI科技范式的重要指标,类比于互联网时代的Nasdaq100指数[2] - AGI被视为未来20年最重要的科技范式转换,将重塑人类社会运行方式[2] - 「AGIX PM Notes」系列旨在记录对AGI进程的思考,与AGIX builders共同参与技术革命[2] 指数表现概览 - AGIX指数本周下跌1.51%,但年初至今上涨30.67%,自2024年以来累计上涨91.04%[5] - AGIX指数表现显著优于主要市场指数:标普500本周跌2.79% YTD涨11.41%,纳斯达克100本周跌3.00% YTD涨15.31%,道琼斯本周跌2.60% YTD涨6.90%[5] - 指数内部板块表现分化:半导体与硬件板块本周下跌1.99%权重24.34%,基础设施板块本周上涨0.28%权重40.32%,应用板块本周上涨0.20%权重30.28%[6] AI发展路线图与游戏训练价值 - AI落地路线图目前仅进展到第一阶段"AI for Productivity",AI作为生产力工具在编程、写作、文档生成等领域应用[10] - 第二阶段定义为"Gaming as Training",游戏环境为AI训练提供理想场景:可操作环境支持高频低成本试错、明确规则破除视频压缩率问题、支持人类参与互动[10][11] - 游戏产品化可能实现游戏即训练,收集人机互动协作数据,超越当前聊天机器人初级形态[10] Dreamer系列研究突破 - Dreamer v1(2019年)首次让agent在隐状态空间进行"想象",通过模型预测未来规划行为,被视为通用AI潜在路径[12] - Dreamer v2扩展到Atari环境,用纯世界模型方式达到人类水平[12] - Dreamer v3实现泛化性能突破,在Minecraft中自主完成收集钻石任务,为跨领域学习奠定基础[13] - Dreamer v4仅用未经标注离线视频数据集获取知识,数据量比OpenAI video pretraining少100倍但性能大幅提升,单块H100 GPU可实现实时推理[14] 多模态数据与应用前景 - Dreamer方法可能开启多模态原始数据训练通用agent新范式,通过任务目标重构多模态数据焦点[15] - 类似方法可应用于Computer Use等场景,利用大量电脑使用数据集和稀疏奖励标注训练大型模型[15] - 该方法使在数百万不同场景训练机器人成为可能,无需处理现实世界机器人损坏问题[15] 对冲基金资金流向与市场动态 - 对冲基金持续增持全球股票,资金从新兴市场转向发达市场,北美和日本表现突出[15] - 北美市场买盘由TMT板块带动,剔除TMT后呈净卖出,AI半导体净敞口位于100百分位高点,软件仅处2020年以来第12百分位[16] - 对冲基金回补热门零售股空头头寸,该指数自8月初累计上涨约38%[17] - 日本市场买入力度居全球之首,与年初至今最大单周买盘规模持平[17] 主要AI公司动态 - Nvidia获美国批准向阿联酋出口价值数十亿美元AI芯片,股价创历史新高[18] - Google推出Gemini Enterprise对标Microsoft,标准版与Plus版每位用户每月30美元,Business版21美元[19][20] - Tesla因手部与手臂设计问题暂停Optimus机器人量产,涉及电机过热、抓握力不足等技术瓶颈[21] - Amazon推出新版AI代理工具"Quick Suite",挑战ChatGPT与Copilot[21] 企业服务与医疗AI进展 - Salesforce推出Agentforce IT Service挑战ServiceNow,采用多Agent系统分析历史工单实现预测性服务[22] - Tempus入选ARPA-H ADAPT项目,提供CRO与测试服务推进精准癌症治疗[23] - CoreWeave推出Serverless RL平台,训练速度提升约1.4倍,成本较本地H100环境降低约40%[24] 个股评级与目标价调整 - Roblox评级从"卖出"上调至"中性",过去一年股价涨幅超200%,近六个月涨120%,市值873亿美元[24] - Bernstein将Datadog目标价从147美元上调至170美元,维持"跑赢大盘"评级[25] ETF复制机制解析 - ETF复制指数方式影响成本、跟踪误差和风险特性,主要分为物理复制和合成复制两大类[25][26] - 物理复制包括完全复制和抽样/优化复制,合成复制通过掉期合约获得指数表现[26] - 完全复制理论上跟踪误差最低但成本较高,合成复制在特定资产类别可能降低成本但存在对手方信用风险[28] - 极端市场环境下,不同复制方式表现差异显著,需综合费用、流动性等多因素考量[29]
深度讨论 Online Learning :99 条思考读懂 LLM 下一个核心范式|Best Ideas
海外独角兽· 2025-09-30 20:06
Online Learning的战略意义 - Online Learning被视为通往L4+级别智能和AGI的关键路径,其长期预期是让模型在长程任务上出现新的scaling law,从而实现智能水平的极大提升[4][5] - 该技术范式的核心在于推动模型突破现有人类知识上限,通过自我探索(self-exploration)和自我奖励(self-rewarding)实现自主知识生成,避免在人类知识内循环[5] - Online Learning代表了一种新的交互和推理形式,能够动态迭代整个AI系统智能,在实现极致个性化的同时推动模型能力持续进化[4][16] 概念定义与技术路径 - 当前对Online Learning的定义存在非共识,主要可拆分为两类:目标与手段明确的Lifelong Learning,以及目标明确但手段不清晰的Meta Online Learning[9][10] - 技术路径上存在两条不完全重合的路线:直接通过RL和环境交互实现Lifelong Learning,或先做好Meta Learning再实现Lifelong Learning,后者可能提供更高上限[11][12] - Online Learning不同于Online RL,更强调模型在test-time具备学习能力,且实现方法不一定通过training,凡能让系统在交互中改变未来行为的机制都可称为Online Learning[13][14] 实践案例与瓶颈分析 - Cursor的代码补全模型训练可能是Online Learning的现实实践,团队每2小时迭代更新模型,直接使用真实用户反馈而非专门训练reward model[6][8] - 核心瓶颈在于Reward信号获取和模型in-context learning能力不足,简单场景如代码补全Reward明确易获取,而复杂场景如多步Agent任务Reward稀疏难定义[23][24] - Online Learning非常依赖从环境或用户交互中提取reward,但现实中许多任务缺乏清晰reward信号,未来发展方向应是让模型具备自我生成reward的能力[25] 实现机制与技术架构 - Online Learning可通过两种机制实现:in-context learning(fast weight)和in-weights learning(slow weight),前者支持快速适应,后者提供持久记忆[26][27] - 架构上需要设计能持续收集新数据并影响输出的体系,确保策略能随新数据不断优化,同时模型需具备数据筛选能力以提升学习效率[29][30] - Memory是Online Learning的重要组成部分,即使模型参数不变,记忆积累也能改变策略,未来需发展自主context engineering和记忆管理能力[32][33] 行业应用与评估范式 - Coding等高反馈、任务明确领域可能率先展现Online Learning雏形,因反馈明确、信息密度高、数据获取成本低且环境高度可控[18] - 推荐系统已实现分钟级更新,但非端到端架构限制学习效率,端到端生成式推荐系统才可能让Online Learning真正发挥作用[36][37] - 评估范式需变化,关键指标是性能提升斜率而非最终分数,可通过"新游戏"测试模型在全新环境中的即时学习过程[45][46]
经验时代的 Scaling Law|AGIX PM Notes
海外独角兽· 2025-09-29 20:03
AGIX指数定位与表现 - AGIX指数旨在衡量通用人工智能(AGI)这一未来20年最重要的科技范式转换,定位类似于互联网时代的纳斯达克100指数[2] - 截至统计时,AGIX指数年初至今上涨27.70%,自2024年以来累计上涨86.70%,显著跑赢标普500指数(上涨12.96%和39.29%)和纳斯达克100指数(上涨16.58%和45.53%)[5] - 指数权重构成中,基础设施板块占比最高达39.99%,应用板块占比31.27%,半导体及硬件板块占比23.67%[6] AI技术范式演进 - 当前大语言模型(LLM)存在范式缺陷,主要问题在于缺乏目标驱动能力和实际体验学习能力,无法从连续互动中自主理解世界[10] - 视频模型可能成为重要过渡路径,如Veo 3模型展示出零样本学习能力,通过预测像素序列学习物理和因果规律,具备类似思维链(CoT)的帧序列链(CoF)能力[11] - 生成式视频模型本质上是视觉模拟器,能够预测动作带来的画面变化,为机器人提供视觉直觉,类似人类心理模拟的想象过程[12] - Pieter Abbeel的Daydreamer研究表明,通过"想象"模型算法,四足机器人仅用1小时就学会从仰躺到行走,被推倒后10分钟内学会翻身[12] 资本市场动态 - 北美市场出现动能反转,对冲基金降低方向性风险,全球股票出现净卖出,主要集中在北美和亚洲(日本除外)市场[13] - 美国多空基金净杠杆从59%的高位降至53%,但总杠杆上升至216%,接近近十年高位[14] - 亚洲基金表现领先,月度至今上涨3.2%,而美洲基金面临较大挑战,欧洲基金表现坚挺[15] 行业重要进展 - Oracle将参与TikTok美国业务投资,预计持有约50%股份,并负责开发管理新版TikTok算法,作为安全中介[15][16] - Instagram月活跃用户达到30亿里程碑,较2022年披露的20亿用户增长显著,Reels短视频功能是增长关键驱动力[16] - OpenAI、Oracle和SoftBank将投资5000亿美元新建五座AI数据中心,推进Stargate项目,总容量目标为10吉瓦[17][18] - Marvell Technology CEO表示公司定制芯片业务明年营收无缺口,预计下财年数据中心业务增长率为18%[19] - Cloudflare推出与美元挂钩的稳定币NET Dollar,旨在支持AI驱动互联网的新商业模式[20] - OpenAI在ChatGPT中推出Pulse功能,可在用户睡眠时生成5-10条个性化资讯摘要[21] ETF跟踪误差分析 - 跟踪误差衡量ETF回报与指数回报差异的波动性,是标准差层面的度量,不同于简单的累计收益差异(跟踪差异)[22] - 影响跟踪误差的主要因素包括管理费用、交易成本、现金头寸拖累、抽样误差、估值方法差异等[23][24] - 对于被动型指数ETF,较低的跟踪误差意味着更稳定的指数复制能力,但需结合费用、规模、流动性等指标综合评估[25][27] - 不同类型ETF的跟踪误差水平差异较大,大盘指数ETF可能仅几个基点,而新兴市场或债券ETF可能高达1%以上[26][29]
深度讨论 Pulse:OpenAI 超越 Google之路的开始 |Best Ideas
海外独角兽· 2025-09-28 21:15
文章核心观点 - OpenAI发布的ChatGPT Pulse功能将LLM交互从被动转变为主动,基于用户个性化上下文主动推送内容和建议,为ChatGPT提供了新的想象空间,并可能使其成为国民级应用 [3][4] - Pulse功能通过降低使用门槛、提升用户粘性、构建数据飞轮效应,有望显著提高ChatGPT的日活跃用户,并可能在未来1-2年内推动电商广告业务的进展 [5][7][9] - 该功能代表了AI Agent交互的未来形态,即从单纯工具转变为全天候个性化助手,并可能引发算力需求、推荐系统范式、硬件控制权等多个层面的行业变革 [11][12][18][22] Pulse是ChatGPT走向国民应用的开始 - Pulse让ChatGPT从被动变为主动,通过读取用户邮箱、日历、消息等数据主动处理事务,大幅降低使用门槛 [4] - 主动推送能力使ChatGPT有机会成为微信级别的国民应用,DAU/MAU比例可能从当前的30%-40%提升至接近1:1 [7] - 吉卜力风格AI绘画曾为零营销预算的ChatGPT带来约1亿新增用户,显示击中情感的内容能极大加速普及 [7] - 用户授权同步Gmail、工作邮箱、账单、健康记录后,ChatGPT可管理这些信息,数据积累提升产品效果和用户迁移成本 [8] - ChatGPT日活可能已超过4亿,按当前增速很快达到5-6亿,OpenAI可能提前实现10亿日活目标 [10] - OpenAI从创立之初就定位为to C公司,目前to C属性明显强于to B的API业务 [10] 主动Agent与极致个性化 - Pulse功能可自然融入日常生活,如早晨查看天气时同时查看Pulse整理的待办事项,成为场景化的第二大脑界面 [11] - 利用大模型理解个人上下文和各种数据,Agent在后台分析用户一万小时微信后可能比用户更了解自己 [11] - 未来可能出现个性化模型,即每个人拥有自己的模型,而不仅仅是上下文不同 [12] - Pulse底层需求是让用户从提问转变为日常交流,使ChatGPT成为全天候AI助手,通过鼓励提供信息完善用户记忆 [12] - Pulse是OpenAI的第二个数据飞轮,第一个数据飞轮Memory功能已建立壁垒 [13] - 信息推送需结合记忆和上下文延续性,否则易沦为“今日头条2.0”,只有具备记忆能力才能演化为懂用户的贴身助手 [13] 竞争格局与市场机会 - Pulse产品形态在国内可能是微信的单一大机会,因其掌握用户几乎所有信息,而海外创业公司机会更多 [15] - 今日头条在内容和用户行为数据方面有优势,今年已推出AI内容订阅,Google因打通邮件、Workspace等账号也容易复制Pulse [15] - Pulse类产品头部效应强,需要高密度用户数据,推荐越准确越受欢迎,累积数据越多,其他厂商越难追赶 [16] - OpenAI发布Pulse封住了部分Agent创业公司的发展路径,创业公司机会可能集中在生活化场景或未被ChatGPT捕获的垂直工作信息 [17] - AI产品分为第三方公司利用大模型开发的产品和模型原厂基于自身模型开发的产品,未来发展方向可能不同 [18] - 硬件底层控制权是获取用户信息的重要壁垒,手机厂商在下一代AI OS讨论中考虑合理合规获取更多信息,约80%-90%数据可能来自手机 [18] 端侧计算与算力需求 - 手机是中心化关键数据中心,其他设备数据汇聚到手机,真正“AI手机”可能出现 [19] - Pulse在后台运行,用户不关心吞吐量和延迟,端侧模型可能有开源项目跟进,端侧估值目前偏低但需求强烈 [20] - Pulse将把算力需求提升好几个数量级,被动触发可无限并行处理,输入数据量可无限展开,token消耗量可能比当前人机聊天高出几个数量级 [22] - Pulse可利用数据中心闲时计算,提高GPU利用率,起到削峰填谷作用 [23] - 产品消耗主要资源可能成为市场赢家,Pulse渗透率提升将以新数量级拉升OpenAI的token消耗量,成为消耗token最多的公司是核心指标 [24] - 若不拥有模型或未优化模型,直接做Pulse类产品的token成本会很高 [24] LLM时代的推荐系统 - Pulse使OpenAI兼具上一代推荐系统的反馈信号和用户基础数据,其广告推荐效率可能比Meta、Google、字节跳动高出一个层级 [26] - Pulse突破供给限制,推送内容每个字都是定制,与传统以内容为单位的推荐完全不同,能更全面理解用户潜在意图 [27][28] - 大模型在推荐中应用可能分环节渐进式改造,或端到端处理所有环节,后者减少人工先验但更黑盒化 [29] - 传统推荐算法基于向量关系计算,以CTR为核心目标,而大模型推荐更模仿人的思考路径,回顾对用户的整体印象 [30] - 大模型做推荐因每次遍历memory计算昂贵,成本是瓶颈,解法之一是将记忆分层,热门近期记忆作缓存层,深层记忆需要时调用 [31]