大语言模型(LLM)
搜索文档
博通电话会全文&详解:2027年AI芯片营收将破1000亿美元,AI不会颠覆基础设施软件!
美股IPO· 2026-03-05 12:40
公司业绩与财务指引 - 博通2026财年第一季度总营收创历史新高,达到193亿美元,同比增长29%,调整后EBITDA为131亿美元,占营收的68% [14] - 公司预计2026财年第二季度合并营收约为220亿美元,同比增长47% [15][18][21] - 半导体解决方案业务第一季度营收为125亿美元,同比增长52%,其中人工智能半导体营收同比增长106%至84亿美元 [15] - 预计第二季度半导体业务营收为148亿美元,同比增长76%,其中人工智能半导体营收将同比增长140%至107亿美元 [15][21] - 基础设施软件业务第一季度营收为68亿美元,同比增长1%,预计第二季度营收约为72亿美元,同比增长9% [18][21] - VMware云基础架构(VCF)第一季度收入同比增长13%,订单合同总额超过92亿美元,年度经常性收入(ARR)同比增长19% [12][18] AI芯片业务展望 - 公司预计到2027年仅AI芯片(XPU、交换芯片、DSP)的营收就将超过1000亿美元 [4][5][18] - 支撑该预测的装机容量预计在2027年将接近10吉瓦 [1][5][42] - AI芯片业务增长由6家长期战略客户驱动,包括Google、Meta、OpenAI、Anthropic及另外两家未公开的大型语言模型(LLM)平台公司 [4][5][16] - Anthropic对TPU计算能力的需求预计在2027年激增至超过3吉瓦,OpenAI也将在同年大规模部署超过1吉瓦的算力 [5][16] - 公司与这六家客户建立了多代(2-4年滚动规划)的战略绑定合作关系,而非短期交易 [5][16][67] 网络业务增长引擎 - 网络业务是AI收入的重要组成部分,第一季度占比为33%,预计第二季度将达到40%,未来长期区间预计在33%至40% [10][17][30] - 增长动力来自横向扩展(Scale-out)和纵向扩展(Scale-up)两个层面 [10] - 在横向扩展方面,以太网是首选方案,公司率先上市的100Tbps Tomahawk 6交换机面临巨大需求,并计划在2027年推出性能翻倍的Tomahawk 7 [10][17] - 在纵向扩展方面,公司主张在机架内集群尽可能使用直接附加铜缆(DAC)连接XPU或GPU,因其具有低延迟、低功耗和低成本优势,目前技术已能通过铜缆驱动400G传输速率 [10][59] 定制芯片(XPU)发展趋势 - 定制化的XPU(扩展处理器)针对特定工作负载(如MoE、推理、预填充、解码)进行优化,相比通用GPU,能提供更低的成本和功耗 [6][7][34] - 随着模型演进,技术成熟的客户正走向每年同时开发两款专用芯片的路线:一款用于模型训练,另一款专门针对推理 [8][63] - 这意味着定制芯片的需求是长期双线扩张,而非一次性替代GPU [9] - 公司在定制AI加速器(XPU)领域拥有技术领先优势,包括芯片设计、先进工艺、封装和网络集群架构,领先竞争对手12到18个月 [25][26] 供应链与产能保障 - 公司已提前锁定了2026年至2028年的关键组件产能(包括前沿晶圆、高带宽内存、基板等),成为业内最早锁定2028年产能的公司之一 [1][11][47] - 产能锁定的能力得益于早期的预期、与客户的深度多年期合作以及优秀合作伙伴的支持 [11][46] - 由于持续采购零部件以满足强劲的AI需求,第一季度末库存为30亿美元,库存周转天数升至68天(上一季度为58天) [11][20] - 管理层确认,基于当前的供应情况,2028年业务能够实现增长 [11][49] 基础设施软件业务 - 公司认为其基础设施软件(特别是VMware云基础架构VCF)不会受到人工智能的冲击,反而会受益 [12][18] - VCF被定位为人工智能软件和物理芯片(硅)之间的永久抽象层,不可被取代或替代 [1][12][18] - 生成式人工智能和智能体人工智能的增长预计将增加对VMware的需求 [12][18]
推荐系统进入「双动力」时代!首篇LLM-RL协同推荐综述深度解析
机器之心· 2026-03-03 10:55
研究背景与演进 - 推荐系统技术经历了从“静态预测”到“动态决策”,再到“认知协同”的阶段性跃迁,其核心驱动力从简单匹配机制升级为具备环境适应能力的决策引擎,并进一步迈向融合世界知识与推理能力的智能协同体系 [6] - 传统强化学习推荐系统将推荐建模为序列决策过程,以优化长期效益,但受困于状态建模难、动作空间大、奖励设计复杂、反馈稀疏延迟及模拟环境失真等瓶颈 [2] - 大语言模型的崛起为推荐系统带来新机遇,其凭借常识储备、推理能力和语义天赋,不仅能让智能体更懂用户,还能充当高保真的环境模拟器 [2] - LLM与RL的结合开启了LLM-RL协同推荐系统新范式,推动推荐过程从低维、被动的决策,进化为高维、具备认知能力的深度交互 [8] LLM带来的核心机遇与变化 - LLM的引入是对推荐本质的一次重塑,在表征空间、智能体定位、环境建模与交互范式四大维度上带来质变 [8] - 在表征空间上,从“稀疏的ID”转向“丰富的语义” [11] - 在智能体定位上,从“固化模型”转向“智能动态决策者” [11] - 在环境建模上,从“黑盒模拟”转向“高保真仿真” [11] - 在交互范式上,从“单向推送隐式反馈”转向“双向共建灵活交互” [11] LLM-RL协同范式 - LLM以深度融合、广泛参与的方式融入强化学习流程的诸多环节,推荐系统架构从“智能体-环境”二元范式,演进为由多个LLM增强的功能模块共同构成的协同框架 [10] - 在智能体侧,LLM可以扮演多重角色:作为策略(Policy)担任核心决策模块;作为推理器(Reasoner)进行综合分析;作为表示器(Representer)转化数据为高维语义特征;作为解释器(Explainer)生成推荐解释 [13][17] - LLM在智能体侧正进化为高层控制器,可以是策略规划师、决策顾问或评估反思者 [17] - 在环境侧,LLM主要扮演模拟器(Simulator)角色,生成更丰富的奖励信号与交互反馈,解决真实环境测试成本高、风险大的痛点,部分基于LLM的模拟器具备可训练、可优化的能力 [14] - 在环境侧,LLM还扮演着奖励塑形器、状态表征器与仿真推理器等角色 [17] 评估体系框架 - 评估体系从任务、数据集、评估策略及指标四个关键维度构建标准化协议 [15] - 任务形式主要包括序列推荐、交互式推荐、对话式推荐、点击率预测、评分预测及其他领域任务(如岗位推荐、医疗推荐等) [16][18][23] - 任务目标涵盖准确性、可解释性、新颖性、多样性、安全性及无偏性 [19][23] - 当前研究使用的数据集呈现“头部集中、长尾分布”的特征,传统推荐数据集(如Amazon Review、MovieLens)是绝大多数研究的首选,工业级数据集(如Taobao、KuaiRec)的使用比例正在上升 [20][24] - 评估策略主要包括离线评估、在线评估和仿真评估,其中离线评估是目前最主流的方式 [21][24] - 评估指标分为推荐导向指标和语言导向指标,推荐导向指标包括输出型指标(如NDCG、HR、RMSE、AUC等)和过程型指标(如累计奖励),语言导向指标包括客观指标(如BLEU、ROUGE)和主观指标 [22][24] 关键挑战与未来方向 - 算法去偏面临“LLM固有偏差”与“RL累积偏差”的双重压力,未来方向是从传统的单一模块去偏,转向系统级治理,建立偏见溯源机制 [26][28] - 隐私与安全方面,LLM强大的语义推理能力可能导致敏感信息被泄露或过度推断,未来方向是实现“安全对齐”,结合隐私计算与强化学习,构建更具防御性的智能体 [26][28] - 计算效率方面,LLM的巨量参数和RL的高频交互存在效率矛盾,导致推理延迟高、训练成本大,未来方向是开发更轻量化的协同框架,例如采用参数高效微调、多智能体协作以及优化采样策略 [26][28] - 幻觉治理方面,LLM生成的虚假或逻辑不一致的输出会误导RL策略,未来方向是引入“过程监督”与“不确定性感知”,对思维链进行事实核查,并赋予系统识别自身知识边界的能力 [26][28] 行业影响与展望 - LLM-RL协同推荐系统揭示了推荐系统从“自动化”向“智能化”跨越的清晰路径,在“双动力”时代,强化学习提供稳定的决策框架,大模型注入更强的认知能力 [29] - 推荐系统正从效率工具走向智能伙伴,变得更加有温度,也更加有深度 [29] - 研究正从学术基准向真实大规模系统迁移,工业级数据集的使用比例正在上升 [20]
Poetiq CEO:递归式自我改进是AI领域的终极目标
阿尔法工场研究院· 2026-03-03 08:05
公司核心技术与理念 - 公司专注于元系统架构,核心理念并非训练更大的模型,而是通过软件层面的系统设计,自动构建“会调用模型的系统” [2] - 公司研发的递归自我改进系统,不训练新模型,仅在现有大模型上叠加推理增强层,旨在以低成本、高兼容方案实现推理效率跃升 [2] - 公司开发的“诗意”系统是一种用于大型语言模型的AI推理工具 [1] - 公司联合创始人Ian Fischer强调了在AI开发中递归自我改进的重要性,认为该方法可以比其他方法更快、更便宜地完成 [1] 行业发展瓶颈与公司解决方案 - 大语言模型不等于推理引擎,其核心瓶颈在于推理架构,而非参数规模 [2] - 大模型是强大的知识库,但不是深度推理的最佳工具 [2] - 当前依赖预训练或微调来提升推理能力的方式,存在速度慢、成本高且不可持续的问题 [2] - 公司通过系统思维搭建元系统,聚焦于提升推理效率,是AI推理赛道极具实践力的技术路径 [2] 公司发展里程碑 - 公司于2025年6月由Ian Fischer与搭档联合创立 [1] - 公司在成立后半年内完成了4580万美元的种子轮融资 [1] - 公司的技术方案已在权威推理测试中刷新纪录,并实现了成本的大幅降低 [2] 行业应用与倡导 - 联合创始人Ian Fischer分享了使用GPT-5构建iPhone应用程序的经验,并鼓励尝试使用AI而不受限制 [1] - 倡导工程落地优先、快速迭代的理念,鼓励从业者聚焦推理效率 [2]
1万亿美元蒸发背后:垂直软件的护城河,正在被大模型重写
华尔街见闻· 2026-02-18 14:41
文章核心观点 - 大语言模型正在系统性地瓦解垂直软件行业过去赖以生存的护城河,导致市场对相关公司进行残酷的价值重估,市值蒸发近1万亿美元 [1][10][11] - LLM将复杂的业务逻辑和界面简化为自然语言对话和Markdown文件,大幅降低了进入壁垒,使竞争格局从少数巨头垄断变为“百团大战” [2][7][41] - 垂直软件的价值构成正在被重新定义:依赖“信息不对称”和“界面复杂性”的模式被摧毁,而拥有独家数据、监管锁定或嵌入交易的公司护城河依然稳固甚至增强 [5][6][13] 垂直软件被LLM摧毁或削弱的护城河 - **“习得性界面”护城河被摧毁**:LLM将所有复杂专有界面坍缩为一个聊天窗口,用户无需学习即可通过自然语言调取功能,使得基于“熟练度壁垒”的高昂溢价(如彭博终端每年2.5万美元/席位)瞬间归零 [1][14][18] - **“业务逻辑”护城河被蒸发**:过去需要懂行业的工程师编写数年代码才能构建的工作流,现在只需领域专家编写一个Markdown提示词文件即可实现,竞争对手复制时间从几年缩短到几周 [2][20][22] - **“公共数据访问”护城河被商品化**:LLM天生能解析和理解10-K年报、法律文档等复杂公开文件,使得依赖整理和解析公开数据来创造价值的模式(如金融、法律数据平台)价值崩溃 [3][23][25] - **“人才稀缺性”护城河被倒置**:构建垂直软件不再需要既懂代码又懂业务的稀缺复合型人才,领域专家可直接用自然语言指挥AI工作,导致进入壁垒崩溃 [4][26][27] - **“捆绑销售”护城河被削弱**:AI智能体可以跨多个最佳或最便宜的服务商协调工作,用户无需为单一供应商的整个捆绑套件支付溢价,解绑(unbundling)成为可能 [28][30] 垂直软件未被LLM撼动或增强的护城河 - **“私有和专有数据”护城河增强**:无法被抓取、合成或从第三方许可的独家数据(如彭博的实时交易台数据、标普的信用评级)在AI时代价值倍增,成为智能体必需的“稀缺燃料” [5][31][32] - **“监管和合规锁定”护城河稳固**:涉及严格监管认证(如医疗软件的HIPAA、FDA认证)或深度嵌入监管流程的软件,其切换成本不会因LLM而降低 [6][35] - **“网络效应”护城河保持粘性**:作为行业事实通信层或依赖多边网络的软件(如彭博的IB chat、Veeva),其价值源于用户网络,LLM不会打破这种效应 [36] - **“交易嵌入”护城河持久**:直接位于资金流或关键交易流程中的软件(如支付处理Stripe、贷款发放系统),LLM可能成为其更好的界面,但无法取代其基础设施地位 [37] - **“记录系统”护城河长期受威胁但短期稳固**:作为关键业务数据权威来源的软件(如医疗EHR系统Epic)切换成本极高,但AI智能体通过积累跨平台用户记忆,正在悄然构建新的记录系统 [38][39] 行业竞争格局与市场影响 - **竞争格局剧变**:进入壁垒大幅降低,导致每个垂直领域的竞争对手可能从2-3个巨头激增至数百个AI原生初创公司,引发价格体系崩塌 [7][40][41] - **估值倍数压缩是当前抛售主因**:市场抛售并非基于即时收入崩溃,而是对垂直软件公司失去定价权和超高客户留存率后估值倍数(如从15倍营收降至6倍)的重新定价 [44] - **面临“上下夹击”的生存威胁**:垂直软件同时受到下方数百家AI初创公司撕咬和上方微软、Anthropic等通用平台通过“通用智能体+插件”模式直接杀入垂直领域的双重挤压 [8][45][48] - **市场调整在结构上合理但时间上被夸大**:企业客户合同(通常为多年期)不会立即终止,收入下滑将是一个持续12-24个月的“斜坡”而非“悬崖”,但市场已提前为护城河侵蚀定价 [42][43][44] 不同风险类别公司的前景 - **高风险公司**:主要价值在于为公开或可许可数据提供“搜索层”或更好界面的公司(如部分金融数据终端、法律研究平台),其护城河正在蒸发,市值已损失40-60% [51] - **中等风险公司**:业务线混合了防御性(如专有数据)和暴露性(如数据重新包装)部分的公司,市场对其估值存在不确定性,股价下跌约20-30% [52] - **低风险公司**:护城河根植于监管认证、合规基础设施或深度嵌入交易流程的公司(如医疗EHR、支付处理),其中期竞争地位几乎不受LLM影响,甚至可能受益 [52]
1万亿美元蒸发背后:垂直软件的护城河,正在被大模型重写
硬AI· 2026-02-18 14:41
文章核心观点 - 大语言模型正在系统性地瓦解垂直软件行业过去赖以生存的护城河,导致市场对相关公司进行残酷的价值重估,软件股近期市值蒸发近1万亿美元即是体现 [1][12][13] - 垂直软件的价值构成和应得的估值倍数正在被重新定义,市场抛售在结构上合理但在时间上被夸大,真正的威胁是来自AI原生初创公司和横向平台巨头的“上下夹击” [13][18][55][60] 垂直软件的十大护城河及LLM影响 - **被摧毁或削弱的护城河 (5项)**: - **习得性界面**:LLM将复杂专有界面坍缩为自然语言聊天窗口,用户无需学习即可操作,使基于“软件难用”和“熟练度壁垒”的切换成本与高额溢价归零 [3][20][23][24] - **自定义工作流和业务逻辑**:业务逻辑从需要工程师编写“百万行代码”转变为领域专家编写“一个Markdown文件”,复制竞争对手的时间从几年缩短到几周 [4][26][27][28] - **公共数据访问**:LLM天生能解析SEC文件、判例法等公开文档,使“整理公开数据”和“信息不对称”赚钱的模式被商品化,相关公司的价值层崩溃 [5][29][30][31] - **人才稀缺性**:LLM翻转了人才壁垒,懂业务的领域专家无需懂代码即可将经验转化为软件,稀缺资源(领域知识)在转化为软件的能力上变得丰富 [5][32][33][34] - **捆绑销售**:AI智能体本身即是集成层,可以协调多个最佳工具,削弱了软件公司通过捆绑功能增加切换成本的护城河 [35][36][38] - **保持稳固或增强的护城河 (5项)**: - **私有和专有数据**:无法被抓取、合成或从第三方许可的独家数据(如彭博实时交易数据、标普信用评级)在AI时代价值倍增,拥有者将掌握定价权 [6][39][40][41] - **监管和合规锁定**:如医疗软件的HIPAA合规、FDA认证,金融软件的监管要求等,AI无法绕过,相关公司的护城河结构性稳固 [7][43][44] - **网络效应**:作为行业通信层(如彭博IB chat)或连接多方(如Veeva)的软件,其网络效应带来的粘性不受LLM影响,甚至可能更有价值 [45][46] - **交易嵌入**:软件直接位于资金流中(如支付处理、贷款发放),切换会中断收入,LLM不会去中介化此类基础设施 [47][48] - **记录系统地位**:作为关键业务数据权威来源的软件(如Epic之于患者数据),短期内地位稳固,但长期看AI智能体可能通过积累用户上下文构建新的记录系统 [49][50] 行业竞争格局与市场影响 - **准入门槛剧降,竞争格局碎片化**:以前构建垂直软件需要数百名工程师、数年时间和巨额预算,导致每个行业通常只有2-3个巨头垄断;现在利用API和小团队几个月就能实现巨头80%的功能,竞争对手数量可能从3个变成300个,导致价格体系崩塌 [8][9][52][53] - **估值倍数压缩,而非收入立即崩溃**:企业客户合同多为多年期,收入不会立即消失,但市场预期护城河溶解将终结其溢价定价权,导致估值倍数(如从15倍营收降至6倍)大幅压缩,引发股价下跌 [56][57][58] - **真正的威胁是“上下夹击”与“无头化”**:垂直软件面临来自下方数百家AI原生初创公司的撕咬,和上方微软、Anthropic等横向平台通过“通用智能体+插件”方式杀入垂直领域的双重威胁;软件正变得“无头化”,用户可能通过AI智能体直接调用服务,软件公司有沦为利润被榨干的“数据供应商”的风险 [10][60][63][64] 不同类别公司的风险评估 - **高风险(搜索层)**:主要价值在于通过专门界面使公开或可许可数据可搜索的公司(如部分金融数据终端、法律研究平台),其界面锁定和有限竞争的优势正在蒸发,市值已损失40-60% [66][67] - **中等风险(混合投资组合)**:同时拥有防御性(如专有数据)和暴露性(如数据重新包装)业务线的公司,市场对其估值存在不确定性,股价下跌20-30% [68][69] - **低风险(监管堡垒)**:护城河核心是监管认证、合规基础设施及与关键任务工作流深度集成的公司(如医疗EHR、金融合规软件),LLM在中期内几乎不影响其竞争地位,甚至可能受益 [69]
又一家华尔街投行下调中国软件业评级:AI颠覆,估值重构!
硬AI· 2026-02-10 15:03
核心观点 - 生成式AI正在颠覆传统软件行业的商业模式和估值逻辑,迫使软件公司从高毛利的标准化SaaS订阅模式转向低毛利的定制化服务,导致“增收不增利” [2] - 市场对软件行业的估值体系正发生根本性转变,从看重收入增长的市销率转向看重利润和现金流的市盈率或自由现金流,行业面临估值重构 [2][3] 标准化的“诅咒”:SaaS溢价正在消失 - 过去资本市场给予软件行业高估值溢价,押注其SaaS化能带来规模效应和高利润未来,但生成式AI正在拆毁这一逻辑基石 [2] - 过去中国软件龙头的估值逻辑在于“趋同溢价”,即投资者押注其能像Salesforce或Adobe一样实现高利润标准化订阅,因此尽管盈利能力较低,其市销率仍长期与美股对标 [8] - 大语言模型的快速迭代正在引发对“标准化SaaS”模式的根本性重估,当AI能够替代标准化工作流,软件公司被迫退回“定制化”老路,SaaS的高估值逻辑不复存在 [2][11] - 年初至今,在美国SaaS订阅模式溢价消退的背景下,头部软件公司股价已下跌10%-40% [11] - 中国软件行业的估值体系正被迫与SaaS解绑,向传统的IT服务估值回归,市盈率或自由现金流将取代市销率成为新的定价锚 [12] “增收不增利”的AI陷阱 - 自2025年初“DeepSeek时刻”以来,中国软件行业收入增速加快但利润率下降,揭示AI虽带动IT支出增加,但需求并非指向标准化软件产品 [13] - 为弥合客户模糊需求与快速迭代大模型之间的鸿沟,软件公司需投入大量人力提供定制化服务,导致收入增长无法转化为利润率扩张,反而可能拖累盈利 [13] - 企业AI支出更多流向交付与改造,而非标准化订阅带来的高利润增量,对估值而言,收入增长不再自动等价于利润率扩张 [14] - 软件企业AI变现面临三大瓶颈:AI能力不足导致产品质量不够;数字化生态不成熟导致实施周期拉长;AI专业度可信度问题,传统厂商需与AI创业公司及云厂商竞争 [15] - 随着大模型每2-3个月出现新版本并更多切入垂直场景,软件公司必须更快迭代和交付,而“更定制”通常意味着更难标准化和扩大利润率 [17] - 挑战本身也给能提供端到端方案、懂垂直行业并能交叉销售传统数字化产品的厂商留下机会 [16] 行业长期叙事与评级变化 - 瑞银下调中国软件业评级,指出生成式AI正颠覆传统SaaS逻辑,市场估值范式转移直接导致整个板块评级下调 [2][4] - 摩根士丹利指出这是一个长期叙事转变的开端,将结束该板块不合理的上涨行情,传统软件长期来看同样面临颠覆风险 [4] - 现有软件供应商仍有时间窗口拥抱新技术,并可利用庞大存量客户群抵御颠覆者,但总体风险仍偏向下行 [4]
AI医生考试高分,实战不及格?Nature Medicine论文显示,AI大模型不能帮助公众作出更好的医疗决策
生物世界· 2026-02-10 12:11
文章核心观点 - 大语言模型在标准化医学考试中表现优异,但在真实医疗场景中作为公众医疗助手的效果不佳,其诊断和决策能力并未有效转化为使用者的实际获益,揭示了人类与LLM交互存在难题,AI医疗的发展路径应是先作为专业医生的辅助工具,再逐步服务公众[2][3][6][11][15] LLM在医疗领域的应用现状与期望 - 全球医疗保健提供者正在探索使用大语言模型为公众提供医疗建议,特别是在医疗资源不发达地区,AI医生被视为解决医疗资源分布不均的有效手段[2][6] - OpenAI的ChatGPT及谷歌的Med-PaLM 2等大语言模型在各类医学考试中表现优异,甚至达到人类医学专家水平,引发对AI医疗应用的高度期待[6] - 调查显示越来越多的人开始向AI聊天机器人咨询健康问题[6] 最新研究揭示的现实表现差距 - 牛津大学研究人员在《自然·医学》发表研究,通过大规模随机对照试验测试LLM作为公众医疗助手的效果[3] - 研究招募1298名受试者,每人被指派10种医疗情景,随机使用GPT-4o、Llama 3或Command R+中的一个,或使用互联网搜索引擎作为对照组[7] - 在无人类受试者测试时,LLM识别疾病的准确率高达94.9%,选择行动方案的正确率为56.3%[9] - 当人类受试者使用相同的LLM时,病症识别正确率低于34.5%,选择行动方案正确率低于44.2%,结果未超过使用传统搜索引擎的对照组[9][11] - 人类患者在真实场景中使用LLM进行疾病诊断和医疗决策,并未比使用传统搜索引擎更好[11] 核心问题:人类-LLM交互难题 - 症结不在于LLM的医学知识储备,而在于人类与LLM的交互难题[12][13] - 人类患者往往无法准确、完整地描述自己的症状,导致向LLM提供的信息不完整或不准确[13] - LLM可能过于依赖专业术语,未能将医学知识有效“翻译”为公众所能理解的语言,有时还可能生成误导性或错误信息[13] - 示例显示,当用户询问就医紧急程度时,LLM转而回答一般原则,未能替代专业医生的具体判断,暴露了在信息不完整时的局限性[13][14] - LLM掌握的医学知识的专业性与公众理解的通俗性之间存在巨大鸿沟,标准化的考试和模拟互动不能体现其真实场景表现[14] 对行业发展的启示与建议 - 研究团队建议,LLM在医疗领域大规模部署前,应进行系统的人类用户测试,以评估其与人类的交互能力[15] - AI医疗的发展路径可能应该是“先专业后普及”,即先作为专业医生的辅助工具,待发展成熟后再逐步直接服务于公众[15] - 有临床专家(如华山医院张文宏医生)明确反对将AI系统性地引入医院病历和日常诊疗流程,担心其可能削弱年轻医生的临床思维训练与专业判断能力[2]
ICLR 2026 Workshop二轮征稿开启:聚焦终身智能体的学习、对齐、演化
机器之心· 2026-02-05 15:52
人工智能行业技术范式演进 - 人工智能正在进入以LLM、强化学习和具身智能为核心的AI Agent新阶段,展现出规划、推理、工具调用和自主决策等多维能力[2] - 当前主流范式存在关键瓶颈,若要AI Agent成为开放世界的可靠长期助手,需迈向“终身智能体”,使其具备持续学习、长期对齐、自主进化、资源可感知和可持续部署的能力[2] - “终身智能体”被视为智能范式的升级,目标是构建长期稳定、自主对齐、可持续成长、面向科学发现、跨模态交互且可复现部署的真实世界系统,是Agent研究的“Next Frontier”[11] 终身智能体面临的核心挑战 - 面对动态任务和分布外任务时,模型存在灾难性遗忘问题[4] - 当用户目标、环境反馈和上下文约束随时间变化时,Agent的对齐一致性会下降[4] - 真实世界长期运行受到算力、token、能源和交互成本的约束,导致系统可持续性不足[4] 行业学术研讨会概览 - 在ICLR 2026会议期间,由UIUC、Edinburgh、Oxford、Princeton等机构共同发起“Lifelong Agent Workshop”[3] - 研讨会旨在打造首个跨领域统一论坛,系统性推动终身智能体研究范式,打通语言智能、强化学习、具身系统、多智能体协作和AI4Science等方向,共同定义Agent发展的下一座技术里程碑[3] - 研讨会预计规模为200–400人现场参会,500–600人线上覆盖,形式为线下与线上实时参与的混合模式[8] 研讨会核心征稿研究方向 - 征稿鼓励跨领域、面向长期运行的Agent研究,特别关注八大主题:持续学习、长期对齐、自主进化、具身终身智能、高效与可持续、多智能体终身系统、科学智能体、终身评估与基准[7][10] - 具体技术方向包括但不限于:记忆增强的强化学习、持续探索、多模态/具身数据流整合、长短期记忆融合、终身学习基准与评估、用户目标变化建模、监督与安全保障、漂移检测与校正、长期价值学习、推理策略自优化、模块/技能自主扩展、多智能体终身协作生态、LLM与小模型协同、不确定性建模、复杂环境下持续运行、资源感知调度、持续多智能体协作/竞争/谈判机制、自主假设生成与实验设计、具身实验室Agent、长期适应性评估、对齐漂移度量等[9][12] 研讨会投稿与参与信息 - 研讨会官网已上线,海报、录播和问答资源将持续开放[6] - 投稿截止日期为2026年2月15日UTC时间,通过OpenReview系统提交[10] - 支持两类论文投稿:完整论文最多9页,短论文字数为2–5页,鼓励最新突破、轻量方法、跟进实验、开源实现、理论洞察和案例分析[10][12] - 本次投稿为非Arxiv性质,欢迎已投稿至ACL及ICML的优秀工作同时投递至本研讨会[10]
美股软件抛售潮拖累港股,黄仁勋发声驳斥!
第一财经· 2026-02-05 14:23
美股软件板块近期表现与市场情绪 - 美股软件板块正面临惨烈抛售压力,预计痛苦状态可能持续一段时间 [1] - 港股软件、SaaS、AI应用板块集体低开低走,普跌明显 [1] - 市场担忧从“AI赋能软件”迅速转向“AI取代软件”,引发非理性、踩踏式抛售 [1] 市场担忧的触发因素 - Anthropic发布面向企业法务的Claude Cowork插件,可自动化完成合同审查、合规追踪等核心法务工作,直接冲击法律信息服务与专业SaaS板块 [1] - 市场对美股软件板块受损的担忧因Anthropic Claude Cowork等系列类AI Agent产品发布而进一步发酵 [1] - 近期市场极致的顺周期交易风格,以及微软、Service Now等企业平稳但缺乏亮点的四季报,加剧了市场看衰情绪 [1] 行业代表公司表现与高层观点 - Palantir Technologies发布高于华尔街预期的财报后,股价最终收跌11.62% [2] - 谷歌母公司Alphabet CEO桑达尔·皮查伊不认可“AI工具可能会损害大型软件SaaS公司定价权”的观点,认为当前关键问题是计算能力相关的限制 [2] - 英伟达创始人CEO黄仁勋表示,AI不会做工具,而是会用工具,会直接使用已经成熟的软件 [2] 对AI与软件关系的未来展望 - 黄仁勋认为,未来AI需要始终在场、积累、记录,企业最值钱的是问题本身,代表企业的关注方向与挑战 [3] - 软件公司需要先考虑如何实现工具可被AI调用,加上接口或开放调用能力,软件将成为未来AI工作流程中的入口 [3] - 中信证券认为,从LLM自身能力和目前落地应用场景来看,市场当下的判断明显过于乐观且不切实际 [3] 当前AI技术的局限性 - 当前LLM仍停留在概率统计游戏层面,尚未触及人类认知核心,在幻觉、多模态对齐、推理能力等层面存在明显理论局限性 [4] - 以标普500企业为样本,AI具体应用场景仍主要集中于Coding、客服等逻辑简洁、容错率高的领域,在要求严苛、逻辑链条复杂的场景中很难胜任 [4] - Salesforce研究表明,AI Agent在企业应用场景中的准确度很难让市场满意,伴随任务步骤和复杂度提升,其准确度快速下降 [4] 软件企业的应对策略与行业前景 - 面对GenAI技术浪潮,软件企业短期最有效的应对方式是激进的兼并与收购手段 [4] - 资本市场历史上对软件板块M&A一直持有负面看法,担心企业内生增速放缓及并购后整合风险 [4] - 伴随美国宏观环境持续改善及AI产品逐步落地,预计美股软件企业业绩有望逐季改善,但斜率难言理想 [4]
“光顾赚钱不搞研究”,OpenAI元老级高管出现离职潮,Mark Chen紧急回应
36氪· 2026-02-04 16:51
核心观点 - OpenAI近期出现集中性高管离职潮 多位元老级人物离开公司 引发外界对其内部战略转向和资源分配问题的关注 [1] - 离职高管及内部信息显示 公司正将资源高度集中于大型语言模型和ChatGPT产品化 导致非LLM的长期基础研究项目被边缘化 资源申请困难 引发研究人员不满 [7][10] - 公司面临算力短缺的挑战 作为初创公司资源有限 被迫将绝大多数算力集中于核心业务ChatGPT以维持增长和竞争 这可能加剧了内部在科研与商业优先级上的分歧 [14][16] 高管离职情况 - 近期离职的高管均为OpenAI元老级人物 包括研究副总裁Jerry Tworek、模型策略团队负责人Andrea Vallone、经济预测与商业规划负责人Tom Cunningham、首席传播官Hannah Wong、首席信息安全官Matt Knight等 [1] - 离职时间相当集中 例如Jerry Tworek已在公司工作近7年 其突然离职引人注目 [7] - 多位高管的离职原因直指公司内部战略问题 而非寻常的职业变动 [7][9][10] 离职原因与内部矛盾 - **资源分配与研究方向冲突**:Jerry Tworek因申请增加其研究的算力与人力资源被领导层驳回 并与首席科学家Jakub Pachocki发生严重对峙 后者不认同其研究方案 认为围绕大模型的AI架构更有前景 [8][9] - **公司任务与个人理念不符**:Andrea Vallone被安排一项“不可能完成的任务” 即保护对ChatGPT产生依赖的用户心理健康 [9] Tom Cunningham则认为公司正在偏离客观公正的研究 转而专注于有利公司发展的工作 [10] - **非LLM研究被边缘化**:公司内部员工证实 OpenAI已将ChatGPT的优先级调到最高 将原本用于长期研究的资源重新分配以集中发展LLM 导致原创性突破研究人员被边缘化 [10] 最近几个月 非LLM研究在申请计算积分和技术访问权限时几乎都被拒绝 [10] Sora和DALL-E团队因项目与ChatGPT相关性较低而常得不到重视和足够资源 [10] 公司战略转向 - OpenAI在过去一年里关停了许多与LLM无关的项目 并重组人员架构 要求集中精力改进ChatGPT [11] - 领导层和外部竞争对手的压力促使员工选择离职 [11] - 公司内部存在“专注LLM加剧内部撕裂”的说法 [10] - 公司联合创始人Mark Chen反驳了忽视基础研究的说法 强调基础研究仍是核心 公司将继续投入大量资金和算力支持上百个探索项目 [3][13] 但他也承认OpenAI是一个产品化公司 因为产品化能带来更大算力、更丰富反馈和更广泛研究空间 [13] 他表示管理层对研究优先级有自己的判断 只会重点投入某些方向 [13] 算力短缺与商业压力 - 核心挑战在于算力短缺 OpenAI作为初创公司 在资金和算力上无法与谷歌、Meta等资金雄厚的公司相比 [14] - 公司人才也被高薪挖角 [14] - 为求发展 公司只能“节衣缩食” 将有限资源集中在核心业务ChatGPT上 短期看不见收益的项目被迫搁浅 [14] - OpenAI是业内烧算力的大户 [14] 公司认为算力投资与收入增长之间存在Scaling Law 即投入越多 模型能力越强 产品越好 采用更广 收入越高 从而支撑下一轮投入 [16] - 为维持增长和竞争 OpenAI将绝大多数算力投入ChatGPT 但这仍显不足 [16] 公司希望与英伟达达成1000万美元的合作以获取更多算力 但合作前景不明朗 有消息称英伟达CEO对OpenAI的商业打法有疑虑 [16] 外部竞争与内部动荡 - 对外面临谷歌Gemini 3 Pro等模型的激烈竞争 [18] - 对内动荡不安 算力合作谈判进展缓慢 [18] - 用户护城河也因GPT-4o可能被淘汰的消息而出现动摇 [18]