Workflow
大语言模型
icon
搜索文档
NeurIPS 2025奖项出炉,Qwen获最佳论文
具身智能之心· 2025-11-28 08:04
会议概况 - NeurIPS 2025会议共收到21575份有效投稿,最终接收5290篇,整体录用率为24.52% [4] - 今年共有4篇论文获得最佳论文奖,另有3篇论文获得最佳论文亚军 [1] 最佳论文奖 - **论文1:Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)** - 研究核心为解决大语言模型生成内容同质化问题,提出了Infinity-Chat数据集,包含26K条真实世界开放式用户查询 [7] - 提出了首个用于刻画语言模型面对开放式提示的综合分类体系,包含6个顶层类别和17个子类别 [7] - 基于该数据集的研究揭示了语言模型在开放式生成中存在显著的“人工蜂群思维”效应,包括模型内重复和模型间同质化 [8][14] - 该数据集包含31,250条人工标注,每个样本由25位独立标注者参与 [9] - **论文2:Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free** - 论文首次系统性分析了门控机制对大语言模型的有效性,证明其通过增强注意力机制的非线性和提供输入相关的稀疏性来提升性能 [13] - 研究显示,在SDPA之后进行门控取得了最佳效果,在15B MoE模型上提升了测试集PPL和MMLU性能 [17] - 门控机制实现了更低的最终训练损失,并大幅增强了训练稳定性,有效缓解了损失尖峰,允许使用更高学习率 [17] - 该技术已成功应用于Qwen3-Next模型,显著提升了模型性能与鲁棒性 [13][18] - **论文3:1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities** - 论文证明将网络深度增加到1024层可显著提升自监督强化学习性能,在模拟任务上性能提升了2倍至50倍 [20] - 该方法在无监督的目标条件设定下进行,智能体从零开始探索,增加模型深度不仅提升了成功率,还改变了学到的行为 [20] - **论文4:Why Diffusion Models Don't Memorize: The Role of Implicit Dynamical Regularization in Training** - 研究揭示了扩散模型训练动力学中的隐式正则化机制,识别出模型开始生成高质量样本的时间点t_g和出现记忆化的时间点t_m [22] - 关键发现是t_m随训练集大小N线性增长,而t_g基本不变,随着数据集变大,会出现一个越来越宽的泛化训练时间窗口 [22] 最佳论文亚军 - **论文1:Reinforcement Learning with Verifiable Rewards is Insufficient for Novel Reasoning in LLMs** - 论文给出了关键否定性结论,挑战了“带可验证奖励的强化学习能够激发LLM全新推理能力”这一广泛接受的假设 [28] - **论文2:Optimal Mistake Bounds for Transductive Online Learning** - 该研究解决了传导式在线学习领域一个长达30年的公开难题,精确刻画了最优错误上界为Ω(√d),并给出了与之匹配的O(√d)上界 [32] - **论文3:Superposition Yields Robust Neural Scaling** - 论文论证表征叠加是支配神经网络缩放定律的主要机制,超越了现象性描述,为缩放定律提供了机制性解释 [35] 时间检验奖 - 任少卿、何恺明、Ross Girshick、孙剑2015年合著论文《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》获奖 [2][38] - 该论文是计算机视觉领域里程碑工作,奠定了现代目标检测框架的核心范式,截至现在已被引用超过56,700次 [38][42] - 论文实现了第一个完全可学习的两阶段目标检测pipeline,取代了selective search和手工设计候选框的方法 [43] Sejnowski-Hinton奖 - 获奖论文为2016年发表的《Random synaptic feedback weights support error backpropagation for deep learning》 [45] - 该论文提出了著名的反馈对齐机制,证明多层网络可在无需对称反馈权重下有效学习,推动了生物可行学习规则的研究方向 [48]
AI赋能资产配置(二十六):AI“添翼”:大模型增强投资组合回报
国信证券· 2025-11-27 17:19
核心观点 - 报告围绕AIEQ、ProPicks、QRFT三类代表性AI资管产品开展复盘对照,探讨AI能否为投资者带来超额收益[2] - 海外AI资管产品总体提质增效但不宜过度“神化”:AIEQ长期跑输SPY,ProPicks在科技顺风期收益突出但复现难度高,QRFT长期与标普接近更偏窄幅增强[2] - AI更可靠的价值在于提升信息处理效率与投研流程标准化,而非保证持续战胜指数;判断产品应优先看长期相对基准净超额、费率与换手后收益是否成立、信号与业绩是否可复盘验证[2] AI驱动型资产管理:进展与案例 - 投资决策机制发生根本性范式转移,从传统量化投资转向AI驱动型资产管理[3] - 新一代AI选股策略采用深度学习、强化学习及自然语言处理技术,具备从海量噪音中“涌现”新规则的能力[4] AIEQ ETF介绍 - AIEQ是全球首只完全由AI系统主动管理的ETF,2017年10月17日成立,底层框架由EquBot LLC开发,IBM Watson提供算力与NLP支撑[5] - 模型每天处理数百万份非结构化文本,动态优化生成30-200只股票组合,目标是通过情绪因子与基本面指标融合捕捉超额收益[5] - 截至2025年11月21日,AIEQ自成立以来累计回报率净资产为107.34%,收盘价为106.15%[8] AIEQ实盘绩效深度剖析 - 2025年初至今(YTD)回报率约9.38%,同期标普500指数(SPY)回报率约12.45%,跑输市场基准约3个百分点[10] - 长期表现劣势明显:1年期回报约+6.15% vs SPY +11.00%;5年期累计回报约+33.85% vs SPY +85.61%;自成立以来总回报显著落后被动指数[13] - 年换手率高达1159%,极高换手频率导致买卖价差和市场冲击成本严重侵蚀基金净值[16] - 资产管理规模(AUM)维持在1.14亿至1.17亿美元之间,规模增长停滞;费率0.75%显著高于SPY的0.09%[16][20] Investing ProPicks——人机协同信号订阅服务 - ProPicks代表AI参与投资的SaaS模式,利用超过25年历史金融数据及50余项财务指标,通过AI算法生成选股名单[21] - Tech Titans策略自2023年10月上线至2025年11月24日累计回报率98.7%,超越同期标普500收益率43.7%,获得约55%超额收益[25] - 策略成功捕捉多只牛股:Super Micro Computer持有期收益+185.8%,Micro Strategy持有期收益+94.9%[26][33] - 超额收益源于嵌入基本面约束的量化择时框架,自上而下贯穿“算力—能源—应用”配置链条;等权重构建组合弱化对超大市值龙头被动拥挤交易[34][35] ProPicks订阅型AI策略费用与复现难点 - 订阅年费约9-14美元/月,对小资金投资者成本占比高(如2000美元本金年费占6%),但对5万美元以上资金成本仅0.24%[36] - 执行风险高:信号发布与实际下单存在时间差,高Beta标的价格跳空可能导致5%-10%滑点;投资者行为偏差使实际收益率低于理论表现[37] - 业绩披露缺乏统一标准,信息不对称远高于公募ETF[37] AI增强型美国大盘股ETF——QRFT - QRFT核心通过AI优化传统因子投资框架,每月重新评估质量、规模、价值、动量、低波动五个因子有效性[38][39] - 投资框架采用贝叶斯神经网络,预测股票未来四周相对收益优势,年化换手率267%,形成“AI驱动、人工风控”制衡机制[43] - 实盘绩效长期略优指数:2025年YTD收益率略优于标普500;5年年化收益约+14.9% vs 标普500约+14.5%;自成立以来年化回报与标普500相似[45] - 风格高灵活性:2019-2020年捕捉居家办公概念股动量,总回报+40.1%跑赢标普+18.4%;2021年回报率21.8%落后于标普28.7%;2022年回撤-22.54%逊于标普[47] QRFT AI赋能产品测评 - 极高换手率(2024年267%)接近中频量化交易,平均持有时间约4.5个月;费率0.75%设定高业绩门槛,需每年跑赢标普500至少0.72%才能获得相同净回报[48] - 净资产规模仅1000万至1500万美元,面临清盘危险;日均成交量约3000-4000股,流动性差可能导致成交价格大幅偏离净值[48]
「AI界淘宝」MuleRun:上线10天涌入21万用户,要做全球最大劳动力外包公司
36氪· 2025-11-27 17:15
公司定位与商业模式 - 公司定位为全球首个AI Agent交易市场,旨在成为AI时代的劳动力外包平台,解决人类重复性电脑操作工作 [2][6] - 商业模式类似淘宝/闲鱼,作为三方平台连接创作者与用户,负责流量、交易和支付,创作者将技能转化为可租用的Agent并实现变现 [2] - 平台采用按需付费模式,例如3D桌面人物创作Agent每次使用费用为50积分(约0.5美元) [2] 市场机会与规模 - 市场被描述为"几乎没有上限",目标是通过标准化应用替代人类高度重复的工作场景(如初级HR招聘) [7][10] - 当前大模型能力尚无法直接解决80%的人类工作,预计时间窗口为2-3年,需结合80%的SOP(标准操作流程)与20%的大模型能力 [8][10] - 引用案例:某自动驾驶厂商通过SOP+大模型生成4000万行代码,替代200人年工作量,节省数千万人民币 [10] 平台运营数据与增长 - 上线10天内注册用户达21万,申请创作者超4000人,审核通过500余人 [3][16] - 创作者审核通过率约40%,需提交详细方案并通过技术稳定性测试(如10次运行验证) [16][19] - 典型成功案例:3D桌面人物创作Agent上线3天为创作者赚取1200美元 [2][14] 产品策略与差异化 - 关键决策为"框架中立",不绑定特定开发工具,支持外部工具创作的Agent入驻平台,与工具方形成合作而非竞争 [11] - 降低使用门槛为核心策略,每减少一个操作步骤可扩大用户覆盖10倍,当前平台仅需上传照片和点击"run"两步完成操作 [14][15] - 竞争壁垒分两阶段:短期靠基础设施易用性,长期依赖生态规模(用户与创作者网络效应) [24] 团队背景与技术路径 - 创始人陈宇森为前网络安全领域连续创业者(长亭科技被阿里收购),团队核心成员均具创业经验 [5] - 技术路径强调高比例SOP(80%)与低比例大模型(20%)结合,确保任务执行稳定性和可复用性 [5][10] - 采用"小步快跑"策略,接受早期产品不完善,通过快速迭代优化(如上线一月内完成产品重构) [21] 典型应用场景与案例 - 热门Agent分两类:ToC类如3D人物创作(借助Nano Banana热点);ToB专家类如投研工具(Web3币圈分析、美股投资工具FundaAI) [20] - 平台未来计划增加Agent组合能力,允许用户串联多个Agent完成复杂工作流 [23]
研报掘金丨国泰海通:维持网宿科技“增持”评级,目标价14.02元
格隆汇APP· 2025-11-27 16:39
公司财务表现 - 网宿科技2025年第三季度归母净利润同比及环比均实现高速增长 [1] 业务发展战略 - 公司积极开拓海外市场 推进全线产品出海 [1] - 海外市场布局重点为东南亚和中东区域 [1][1] - 产品线从网站 应用 API安全防护扩展至零信任解决方案 [1] - 服务客户范围从互联网企业扩展至各产业领域的企业客户 [1] - 业务区域从国内扩展至全球 为海外本地客户及出海企业提供安全服务 [1] 产品与服务创新 - 公司发布大模型安全深度评估服务 [1] - 该服务为大语言模型与AI应用提供一站式安全解决方案 [1] - 解决方案覆盖模型输出安全 数据安全 算法安全 应用安全 [1] - 服务旨在助力企业构建安全可信的AI应用生态 [1] 估值与评级 - 参考可比公司估值 给予公司2025年市盈率为42倍 [1] - 对应目标股价为14.02元 [1] - 维持"增持"评级 [1]
NeurIPS 2025最佳论文开奖,何恺明、孙剑等十年经典之作夺奖
36氪· 2025-11-27 15:27
NeurIPS 2025奖项概览 - NeurIPS 2025共评选出4篇最佳论文和3篇亚军论文(Runners Up)[1][2] - 本届会议是首个双城会议,分别于12月2日-7日在圣地亚哥和11月30日-12月5日在墨西哥城举办[3] - 时间检验奖(Test of Time Paper Awards)授予了10年前发表的Faster R-CNN论文,该论文已被引用超过56,700次[49][50] 最佳论文一:大语言模型多样性评估 - 研究核心是评估大语言模型(LLM)在开放式生成任务中的输出多样性,并提出了“人工蜂群思维效应”(Artificial Hivemind effect)的概念,指出现有模型存在显著的输出同质化问题[5][6][10] - 为解决评估方法不足的问题,研究团队推出了大规模数据集Infinity-Chat,该数据集包含2.6万条真实世界开放式用户查询以及31,250条人类标注,每个示例均由25位标注者独立评判[6][12] - 研究首次提出了针对LM开放式提示的完整分类体系,包含6大顶层类别及其下17个子类别,发现最先进的LM、奖励模型与LM评判器较难校准人类评分[8][12] 最佳论文二:门控注意力机制 - 论文由阿里千问团队等机构合作完成,核心发现是在缩放点积注意力(SDPA)后引入头部特异性Sigmoid门控这一简单修改,可持续提升模型性能[14][15][17] - 该改进在3.5万亿词元数据集上训练的15B混合专家模型(30种变体)与1.7B稠密模型上得到验证,能增强训练稳定性、允许更大学习率,并改善缩放特性[15][17] - 门控机制的有效性归因于两个关键因素:在Softmax注意力的低秩映射中引入非线性变换,以及采用查询依赖的稀疏门控分数调控SDPA输出,该技术已应用于Qwen3-Next模型系列[18] 最佳论文三:自监督强化学习的深度缩放 - 研究聚焦于自监督强化学习(RL)的网络深度缩放,证明将网络深度提升至1024层可带来显著性能突破,而近年多数RL研究采用的浅层架构仅约2-5层[21][24] - 在无监督目标条件设定下,新方法在模拟运动与操控任务上将自监督对比强化学习算法的性能提升了2至50倍,显著超越其他目标条件基线模型[24][26] - 网络深度的增加不仅提升了任务成功率,更引发了智能体学习行为的质性转变,实现了可扩展性的质的飞跃[24][26] 最佳论文四:扩散模型的隐式正则化 - 研究旨在理解扩散模型避免训练数据记忆并实现泛化的内在机制,发现了两个关键时间尺度:早期阶段τgen(模型开始生成高质量样本)和后期阶段τmem(记忆现象显现)[28][29] - 关键规律是τmem随训练数据量n呈线性增长,而τgen保持恒定,形成了随n扩大的有效训练时间窗口,揭示了训练动态中存在的隐式动态正则化机制[29][31] - 结论通过基于标准U-Net架构在真实与合成数据集上的数值实验,以及采用高维极限可解析随机特征模型的理论分析得到验证[31] 亚军论文核心发现 - 论文一系统评估了强化学习(RLVR)对大语言模型推理力的真实增益,结果显示RLVR主要提升采样效率,在小k(如k=1)更易命中正确路径,但在大k时基座模型表现更好,当前RL训练并未诱发全新的推理模式[33][34][37] - 论文二解决了“无标签数据在在线学习中的力量”这一开放问题,对任意Littlestone维度为d的概念类,传导式在线学习的最小错误次数精确为Θ(√d),与标准在线学习的Θ(d)形成严格的二次差距[38][39][41] - 论文三提出“表征叠加”是神经缩放律(Neural Scaling)的关键机制,指出LLM用少量维度承载超量特征,由此产生向量几何重叠并决定损失的Scaling形态,该发现与Chinchilla Scaling Law一致[42][46][48] 时间检验奖获奖工作 - 获奖论文《Faster R-CNN》由任少卿、何恺明、Ross Gisshick和孙剑合著,对计算机视觉领域产生了深远影响,成为众多后续研究工作的基石[50] - 该论文在实现极高检测精度的同时,达到了接近实时的检测速度(每秒5帧),使基于神经网络的目标检测模型得以应用于现实世界的各种场景[50] - 这是首个用完全可学习的两阶段流程(包括区域建议网络RPN和检测网络)取代传统选择性搜索和人工设计候选框方法的工作[50]
月之暗面公开强化学习训练加速方法:训练速度暴涨97%,长尾延迟狂降93%
量子位· 2025-11-27 12:34
核心技术突破 - 月之暗面联合清华大学推出全新加速引擎Seer,旨在不改变核心训练算法的前提下,大幅提升大语言模型的强化学习训练速度 [1] - Seer框架通过其三大核心模块(推理引擎池、请求缓冲区、上下文管理器)和三项关键技术(分段生成、上下文感知调度、自适应分组推测解码)协同工作,从内存、调度、推理三个维度全面优化rollout效率 [9][10][11][20] - 该技术针对RL训练中耗时的生成阶段,解决了其固有的工作负载不均衡和长尾延迟问题,资源利用率较低 [6] 性能提升数据 - 实验结果显示,Seer在不同工作负载下,相比基线系统veRL,吞吐量提升74%至97% [3][23] - 在长尾延迟方面,Seer表现显著优于veRL,例如在Moonlight任务中,veRL最后10%请求耗时3984秒(占总时长约50%),而Seer仅需364秒,延迟降低85% [23] - 在Qwen2-VL-72B和Kimi-K2任务中,长尾延迟分别降低93%和75% [23][24] - 专项实验表明,Seer的上下文感知调度策略在吞吐量上可达到理想Oracle水平的95%,其长尾延迟仅为无上下文调度策略的13% [27][28] 公司融资与资本动态 - 月之暗面即将完成新一轮融资,融资金额高达数亿美元,完成后公司估值将提升至40亿美元 [32][33] - 公司正与IDG Capital等投资机构洽谈,潜在投资方包括现有股东腾讯 [36] - 预期本轮融资将于今年年底前完成,并计划在明年下半年启动IPO进程 [37]
中山大学最新Cell子刊:AI能够帮助医生克服技术障碍,但存在依赖风险
生物世界· 2025-11-27 12:11
文章核心观点 - 大语言模型能有效帮助医生克服技术障碍,显著提升其参与医学人工智能研究的项目完成率[3][5][7][9] - 大语言模型的应用使医疗AI研究民主化,但同时也存在AI幻觉和医生产生依赖倾向的潜在风险[3][5][6][7][9] 研究背景与挑战 - 跨学科研究推动了科学领域突破,但在生物医学领域,AI等技术的广泛应用受限于技术障碍[2] - 医生因缺乏多学科专业知识或技能,以及难以获得工程支持,在AI技术的问题导向型研究中参与受阻,偏远地区或资源有限的年轻医生面临的挑战更明显[2] 研究设计与方法 - 研究团队开展了一项随机对照试验,招募64名初级眼科医生进行为期两周的“自动化白内障识别”项目[5] - 干预组32人使用大语言模型ChatGPT-3.5,对照组32人不使用,在最小化工程辅助的情况下进行[5] 研究结果与数据 - 干预组项目总完成率高达87.5%,显著高于对照组的25.0%[5][7] - 干预组无辅助完成率为68.7%,远高于对照组的3.1%[5] - 干预组展现出更优的项目规划能力和更短的完成时间[5] - 经过两周洗脱期后,41.2%的成功干预组参与者能在没有LLM支持的情况下独立完成新项目[5][7] 潜在风险与影响 - 42.6%的参与者担心会不加理解地复述AI信息,40.4%担忧AI会助长惰性思维,表明存在潜在依赖性风险[5] - 大语言模型存在幻觉风险,其长期使用形成的依赖风险需进一步研究评估[6][7][9] - 研究提出了与大语言模型有效互动的初步提示指南[7]
NeurIPS 2025奖项出炉,Qwen获最佳论文,Faster R-CNN获时间检验奖
机器之心· 2025-11-27 11:00
NeurIPS 2025 会议概况 - 会议共收到21575份有效投稿,最终接收5290篇,整体录用率为24.52% [4] - 今年共有4篇论文获得最佳论文奖,另有3篇论文获得最佳论文亚军 [1] - 任少卿、何恺明、Ross Girshick、孙剑2015年合著论文《Faster R-CNN》获得时间检验奖 [2] - 《Random synaptic feedback weights support error backpropagation for deep learning》获得Sejnowski-Hinton奖 [3] 最佳论文奖核心研究 - 论文《Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)》提出Infinity-Chat数据集,包含26K条真实世界开放式用户查询 [5][6] - 研究揭示了语言模型在开放式生成中存在人工蜂群思维效应,包括模型内重复和模型间同质化 [6] - Infinity-Chat包含31,250条人工标注,每个样本有25位独立标注者参与 [8] - 论文为理解语言模型多样性、价值多元与社会影响做出重要贡献 [9] - 论文《Gated Attention for Large Language Models》首次系统分析注意力门控对大模型性能的影响 [12] - 研究证明门控机制通过增强注意力机制的非线性和提供输入相关稀疏性来提升性能 [12] - 门控机制能消除注意力池和巨量激活现象,提高训练稳定性并减少损失波动 [16] - 该方法已成功应用于Qwen3-Next模型,并在各尺寸架构上验证有效性 [16] - 论文《1000 Layer Networks for Self-Supervised RL》证明将网络深度增加到1024层可显著提升自监督强化学习性能 [18] - 在无监督目标条件设定下,该方法在对比式RL算法上将性能提升2×–50× [18] - 增加模型深度不仅提升成功率,还会在质量上改变学到的行为 [18] - 论文《Why Diffusion Models Don't Memorize》揭示了训练动力学中存在隐式动态正则化 [20] - 研究发现随着训练集大小N线性增长,模型泛化时间窗口变宽 [20] - 只有当N超过与模型相关的阈值时,过拟合才会在无限训练时间极限下消失 [20] 最佳论文亚军研究 - 论文《Optimal Mistake Bounds for Transductive Online Learning》解决了长达30年的公开难题 [30] - 研究精确刻画了传导式在线学习的最优错误上界为Ω(√d),并给出与之匹配的O(√d)上界 [30] - 这一结论确立了传导式在线学习与标准在线学习之间存在二次量级差距 [30] - 论文《Superposition Yields Robust Neural Scaling》论证表征叠加是支配神经网络缩放定律的主要机制 [33] - 研究不再停留在现象描述,而是为缩放定律提供了新的机制性洞见 [33] 时间检验奖研究 - 《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》论文已被引用超过56,700次 [40] - 该论文是第一个用完全可学习的两阶段pipeline取代selective search和手工设计候选框的方法 [41] - 实现了极高精度与接近实时(5 FPS)检测的统一,使目标检测模型得以真正部署到实际应用中 [40] Sejnowski-Hinton奖研究 - 获奖论文《Random synaptic feedback weights support error backpropagation for deep learning》提出了著名的反馈对齐机制 [46] - 研究证明多层网络可在无需对称反馈权重下有效学习,前向权重会自然与随机反馈信号对齐 [46] - 这项工作帮助建立了生物可行学习规则的全新研究方向 [47]
a16z前合伙人重磅科技报告:AI如何吞噬世界
华尔街见闻· 2025-11-26 20:08
文章核心观点 - 生成式人工智能正引发科技产业约每十至十五年一次的平台大迁移,其最终形态和主导者仍不明确 [1][4] - 科技巨头正以前所未有的规模投资AI基础设施,但模型性能趋同、用户参与度不足、企业部署缓慢等挑战并存 [4][11][23][27][33] - AI技术成功落地后将像过去的自动化技术一样融入基础设施,不再被称为"AI" [4][40][43] 平台转移的历史规律 - 科技产业大约每十到十五年经历一次平台转移,从大型主机到个人电脑,从万维网到智能手机,每一次都重塑行业格局 [5] - 早期领导者在平台转移中往往会消失,例如微软在个人电脑时代拥有接近100%的操作系统市场份额,但在智能手机时代变得无关紧要,其全球份额从2010年前后的高点降至2025年的不足20% [5] - 类似地,在个人电脑市场早期占据主导地位的苹果也曾被IBM兼容机边缘化 [5] 当前AI发展的不确定性 - 尽管ChatGPT的发布可能是下一次"十五年之变"的起点,但三年过去,对这次转移的最终形态依然所知甚少 [4][10] - 各种可能性令人眼花缭乱,包括浏览器形态、智能体形态、语音交互或全新的用户界面范式,没有真正答案 [10] - 互联网早期和移动互联网早期失败的想法(如美国在线AOL、雅虎门户、Flash插件)提示当前AI探索同样存在不确定性 [10] 科技巨头的投资竞赛 - 微软、亚马逊AWS、谷歌、Meta四家公司2025年资本支出预计将达到4000亿美元,超过全球电信行业全年约3000亿美元的投资规模 [4][11] - 这一2025年的增长计划几乎在年内翻了一番 [14] - 美国数据中心建设正在超越办公楼建设规模,成为新的投资周期驱动力 [17] AI基础设施的供应瓶颈 - 英伟达因无法跟上需求而面临供应瓶颈,其季度收入已超越英特尔多年的积累 [17] - 台积电同样无法或不愿足够快速地扩张产能以满足英伟达的订单需求 [17] - 美国数据中心建设的主要限制因素是公用电力供应,美国电力需求增长约为2%,而AI可能额外增加1%的需求,这在美国难以快速建设 [20] 模型性能趋同与商品化风险 - 顶级大语言模型在基准测试上的差距正在缩小至个位数百分比 [23] - 如果模型性能高度趋同,意味着大模型可能正在变成"商品",价值捕获将重新洗牌 [23] - 模型领导地位每周都在变化,护城河并不明显,AI公司必须在算力规模、垂直数据、产品体验或分发渠道上重新寻找护城河 [23][26] 用户参与度与企业部署现状 - ChatGPT声称拥有8亿周活跃用户,但仅约10%的美国用户每日使用AI聊天机器人,大多数人仍处于偶尔尝试阶段 [27][30] - 企业部署缓慢,真正进入生产环境的项目仅为25%,计划2025下半年部署的约30%,至少2026才部署的约40% [33] - 目前成功案例仍集中在编程辅助、营销优化、客户支持自动化等"吸收阶段" [36] AI对广告与推荐系统的颠覆 - AI最快发生巨大改变的领域是广告与推荐系统,传统推荐依赖"相关性",而AI有能力理解"用户意图"本身 [37] - 万亿美元级广告市场的底层机制可能被重写,谷歌和Meta披露AI驱动的广告投放能带来3%至14%的转化率提升 [37] - 广告创意制作成本也可能从每年1000亿美元的大盘上进一步被自动生成技术重塑 [37] 价值捕获与竞争模式转变 - 如果模型成为商品且缺乏网络效应,竞争模式可能从基于网络效应转向基于资本获取能力 [45] - 微软的资本支出占销售收入比例从历史低点大幅上升,反映了这一竞争模式的根本变化 [45] - OpenAI采取了"对一切说是"的多元化策略,包括基础设施交易、电商集成、广告、垂直数据集及应用平台等 [45]
“AI主流发展路线已经遇到瓶颈”
第一财经· 2025-11-26 17:52
文章核心观点 - AI行业单纯依靠堆算力、扩规模的阶段已经结束,行业正从“规模化时代”回归到“研究时代”,需要重新思考通往AGI的真正范式[4][9] 对当前AI发展路径的批判 - 前OpenAI首席科学家苏茨克维认为,AI的扩展(Scaling)时代已经终结,算力规模已很大但不能持续带来更好的“扩展”,扩展与浪费算力的界线变得模糊[4] - 当前主流路线遇到瓶颈,行业从规模化扩展回到了研究范式本身,进入“只是有了更大的计算机”的研究时代[4] - 图灵奖得主杨立昆认为,绝大多数同行致力于的大语言模型是死胡同,LLM由于其计算机制的限制,无法进行复杂的推理和规划,只是为了迎合训练数据的统计规律[8] - 斯坦福大学教授李飞飞指出,当前以LLM为代表的AI虽然擅长处理抽象知识,却如同在“黑暗中行走”,缺乏对物理世界的真实理解[9] AI模型存在的核心问题 - 大模型的泛化能力比人类差很多,这是通向AGI途中需要解决的根本问题[5] - 模型在各种评测上表现出色,但在某些情况下会重复犯错,例如编程时能解决复杂问题却不断引入简单Bug,存在评测性能与现实世界性能的脱节[6] - 苏茨克维提出两种可能解释:一是强化学习训练让模型变得过于一根筋和视野狭窄;二是强化学习训练时针对评测集选择数据,导致训练数据太狭窄[6] - 当下的AI可能缺少了类似人类情绪的价值函数,这能让AI更有方向感,苏茨克维引用脑损伤案例说明情绪对人类有效决策的重要性[7] 对未来AI发展范式的探讨 - 杨立昆认为,世界模型将成为人工智能架构的主流模型,它通过摄取视觉信息来了解周围世界,学习方式类似动物幼崽或人类幼儿[8] - 杨立昆将于年底离开Meta,创建专注于世界模型的初创公司,他认为未来五到十年解决“世界模型”相关难题,有望构建真正智能、能够规划和推理的AI系统[9] - 李飞飞强调建立“世界模型”和空间智能的重要性,她认为人类对世界的理解是整体性的,关乎空间关系、意义及关联[9] - 李飞飞提出,新的“世界模型”需要具备生成性、多模态性和交互性三种核心能力,以构建环境内部表征[9]