GLM 4.6
搜索文档
遥遥无期的AGI是画大饼吗?两位教授「吵起来了」
36氪· 2025-12-22 10:08
文章核心观点 - 文章围绕“AGI能否实现”这一核心议题,呈现了两种对立的观点:一种基于物理和成本限制认为AGI和超级智能无法实现,另一种则认为当前AI系统在软硬件效率上仍有巨大提升空间,通往更强AI的道路依然存在 [1][3][27][31] 关于AGI实现的物理与成本限制 - 计算是物理的,AI架构(如Transformer)是对信息处理单元的物理优化,结合了局部计算与全局信息汇聚,已接近物理最优 [8][9] - 硬件改进面临根本瓶颈:GPU在“性能/成本”指标上约在2018年达到峰值,后续改进多为一次性特性(如16位精度、Tensor Core、HBM等),任何进一步改进都将是权衡而非纯收益 [13][14] - 线性性能改进需要指数级资源投入,这受限于物理现实和观念空间的边际收益递减,规模化带来的收益正在迅速逼近物理极限 [11][16][17] - 超级智能的概念存在根本谬误,其将智能视为抽象物,但任何系统改进都受物理规律和缩放定律制约,无法引发失控式增长 [24][25] 当前AI系统的效率现状与提升空间 - **训练效率低下**:当前最先进模型(如DeepSeek-V3、Llama-4)的训练平均FLOP利用率(MFU)仅约20%,远低于2022年开源项目(如BLOOM)达到的50% MFU [35] - **推理效率更严重**:最优化推理实现的FLOP利用率常为个位数(<5%),瓶颈在于内存带宽而非计算 [37][38][39] - **硬件利用率存在巨大提升潜力**:通过训练高效的架构协同设计、实现高质量FP4训练、设计推理高效的模型,理论上可用FLOPs可提升最多9倍 [36][40][41][42] - **模型能力是硬件建设的滞后指标**:当前发布的模型反映的是上一代硬件能力,而正在建设的新集群规模(如10万卡以上)意味着高达50倍的算力建设正在发生 [43][44][45] 行业竞争格局与基础设施价值 - **中美AI发展路径差异**:美国遵循“赢家通吃”、追求最大最强模型的思路;中国更注重模型的应用性、实用性和成本效益,认为“足够好”能带来最大生产力提升 [20][21] - **规模化基础设施优势可能迅速蒸发**:如果软件创新(如超越vLLM/SGLang的推理栈)使小模型部署效率接近前沿实验室,或AI应用转向垂直专用,当前头部公司的基础设施优势可能一夜消失 [18] - **中小型公司的挑战**:像MoonshotAI、Z.ai这样的公司已证明无需大量资源即可达到前沿性能,若在“超越规模化”方向持续创新,可能做出最好的模型 [17] 未来发展方向与投资机会 - **硬件层面的优化方向**:充分利用新一代硬件特性(如Blackwell架构的FP4训练、GB200的机架级通信域)是清晰的突破点,存在大量“低垂果实” [36][46][47][50] - **软件与算法创新**:新的后训练范式、提升样本效率的数据中心AI、以及结合领域经验的垂直应用,能让现有模型在更广泛领域变得极其有用 [52][53][54] - **新硬件平台**:大量专注于推理场景的新硬件平台及配套软件栈正在涌现,任何一个产生重大影响都可能彻底改写行业局面 [50] - **通往更强AI的具体路径**:通过模型-硬件协同设计、利用滞后释放的硬件算力、以及算法改进,存在通向至少一个数量级(10倍)算力提升的具体路径 [55][56][57][58]
遥遥无期的AGI是画大饼吗?两位教授「吵起来了」
机器之心· 2025-12-21 12:21
文章核心观点 - 文章围绕“AGI能否实现”这一核心议题,呈现了两种对立的观点:一种基于物理和成本限制认为AGI和超级智能无法实现[3][7][28],另一种则认为当前AI系统在软硬件效率上仍有巨大提升空间,通往更强AI的道路多样,实用化的“类AGI”能力可能并不遥远[33][36][66] 对AGI的悲观论据(物理与成本限制) - **计算受物理规律制约**:计算是物理过程,需要在局部计算与全局信息移动间取得平衡,随着晶体管缩小,计算变便宜但内存相对变贵,芯片面积主要被内存占据,导致算力可能因内存服务不足而成为“无效算力”[8][10][11] - **Transformer架构已接近物理最优**:该架构以最简单方式结合了局部计算与全局信息汇聚,是对信息处理单元的物理层面优化[11][12] - **线性进步需要指数级资源**:在物理现实和观念空间中,要获得线性改进,所需投入的资源呈指数级增长,观念创新因领域庞大而边际收益递减[13][15] - **GPU进步已停滞**:GPU在“性能/成本”指标上于2018年左右达峰,后续改进多为一次性特性(如16位精度、Tensor Core、HBM等),现已走到尽头,任何进一步改进都将是权衡而非纯收益[16][17] - **规模化收益面临极限**:过去GPU的指数级增长对冲了规模化所需的指数级成本,但现在规模化已变成指数级成本,物理极限可能在一到两年内逼近,规模化收益不再显著[20] - **基础设施优势可能迅速蒸发**:若研究/软件创新、强大的开源推理栈或向其他硬件平台迁移取得突破,前沿实验室的大规模基础设施优势可能一夜消失[21][22][26] - **超级智能是幻想**:超级智能自我改进引发爆炸增长的前提错误,智能改进受物理现实和缩放规律制约,线性改进需指数级资源,其发展更可能是填补能力空白而非推动边界外扩[28][29] - **AGI需具备物理执行能力**:真正的AGI需包含能在现实世界完成经济意义工作的实体机器人,但机器人领域数据收集成本高昂,现实细节复杂,许多问题经济上并不划算[25][27] 对AGI的乐观论据(效率与创新空间) - **当前AI系统被严重低估,效率远未达上限**:训练效率比几年前更低,例如DeepSeek-V3和Llama-4训练的MFU仅约20%,而2022年的BLOOM项目已达50%,当前模型设计并非为最高硬件利用率[39][41] - **推理效率存在更大提升空间**:最优化推理实现关注带宽利用率(MBU),FLOP利用率(MFU)常为个位数(<5%),这并非物理根本极限,而是当前自回归架构规模化带来的限制[43][44] - **新一代硬件提供显著算力提升**:Blackwell架构芯片的FP8吞吐量是Hopper的2.2倍,并支持原生FP4 Tensor Core,GB200等机架级方案可缓解通信瓶颈,高效FP4训练理论上可将可用FLOPs提升最多9倍[42][50] - **模型是硬件的滞后指标**:当前模型反映的是上一代硬件能力,而新一代超大规模集群(如10万卡以上)正在建设,意味着高达50倍的算力建设正在发生[47][48] - **明确的效率提升路径**:通过训练高效的架构协同设计、高质量高效率的FP4训练、推理高效的模型设计(如扩散式语言模型)等方式,可大幅提升硬件利用率[45][46][52] - **已有AI工具产生巨大经济影响**:以更务实的定义,一套在某些任务上比大多数人做得更好并能产生巨大经济影响的通用工具体系,可能并不遥远,例如当前模型已在编程等领域越过关键阈值[60][61] - **即便能力不提升,应用场景仍广阔**:假设模型能力冻结,系统层面的效率改进也足以让许多高影响力应用落地,且通过新的后训练范式、更好的样本效率等方法,可继续推进“有用AI工具”[62][63][65] 行业路径与理念差异 - **中美AI发展路径不同**:美国遵循“赢家通吃”思路,追求构建最大最强的超级智能模型;中国理念更侧重应用,认为模型能力本身没有应用重要,关键是实用性和以合理成本提升生产力[23][24] - **不同理念的可持续性**:在模型能力增速放缓的背景下,追求超级智能的目标可能遭遇困难,而推动AI经济扩散的务实思路可能更具长期优势[24][30]
AGI为什么不会到来?这位研究员把AI的“物理极限”讲透了
36氪· 2025-12-17 19:43
文章核心观点 文章核心观点认为,通用人工智能(AGI)的实现面临一系列根本性的物理和工程约束,而非单纯的理论或算法问题。当前AI行业的发展,特别是依赖模型规模扩展和硬件性能提升的路径,正在快速逼近其物理极限,预示着AGI可能不会以市场普遍预期的乐观方式到来 [1][4][9]。 被物理极限“锁死”的AGI - 计算是受物理规律约束的,信息移动的成本远高于计算本身,且成本随距离呈平方级增长,这构成了智能提升的根本限制 [5] - 芯片设计中,用于存储、互连和数据通路的面积远大于计算单元,更大的缓存必然更慢,制程进步使内存和带宽成本相对上升 [6] - Transformer架构的成功是在当前物理约束下接近最优的工程选择,其核心计算模式(局部MLP和受限的全局注意力)对应了硬件条件下最划算的操作,因此通过架构改进获得的边际收益正在快速下降 [4][7] 低垂果实已摘完 - 在成熟领域,获得线性改进往往需要付出指数级的资源投入,因为随着系统规模扩大,资源在时空和能量上的竞争导致协同效率下降 [10][16] - 绝大多数AI领域的“创新”是建立在已有框架上的渐进式改进,即使看似不同的方法(如状态空间模型与Transformer)也在解决同一核心问题,难以带来结构性跃迁 [4][11][12] - 这种约束在物理学中表现明显,验证更深层规律需要建造耗资数十亿美元的复杂装置,但带来的新答案有限,表明某些问题被资源和复杂度锁在现有能力之外 [15][17] GPU性能红利接近尾声 - AI过去的关键跃迁(如AlexNet、Transformer规模化)依赖GPU单卡性能提升和数量增加,但GPU性能的快速提升阶段大约在2018年已结束 [19][21][22] - 之后的“进步”依赖于一系列一次性、不可重复的工程红利,如采用FP16、Tensor Core、HBM高带宽内存、更低比特宽度(INT8/INT4)等,本质是用精度换吞吐,压榨物理边界 [23][24] - 这些“可压榨的空间”已基本用完,继续前进只能在计算效率与内存效率间权衡,无法带来数量级提升,硬件不再是能持续兜底问题的变量 [25][26][27][32] 规模化扩展面临成本拐点 - 过去模型规模的持续推进,依赖GPU指数级性能提升抵消了扩展所需的指数级资源投入,但现在变为指数级成本仅带来勉强的线性回报 [35][36] - 单纯靠规模扩展带来的提升窗口可能只剩一到两年,预计到2025年收益将非常有限,2026或2027年若无新研究路径或软件突破,扩展在物理上将不可持续 [36] - 当扩展的边际收益低于研究和软件创新时,硬件会从资产变成负担,一些小团队(如MoonshotAI, Z.ai)已证明无需天量算力也能接近前沿模型能力 [37][38][39] 基础设施护城河可能消失 - 大模型推理效率高度依赖规模本身,需要巨大用户规模来摊薄部署成本,这是当前开放权重模型未在成本上改写格局的原因 [41][42] - 一旦出现更适合中等规模的推理栈,能让大型模型(如3000亿参数)在较小规模下实现接近前沿实验室的推理效率,那么后者在基础设施上的护城河可能迅速消失 [44] - 小模型能力持续提升(如GLM 4.6)、AI应用垂直专业化降低对通用前沿模型的依赖、部署复杂度下降及硬件选择多样化,将共同使系统逼近物理最优解,规模优势的溢价会快速蒸发 [45] 缺乏物理载体的AGI是伪命题 - 真正的AGI需具备在现实世界中执行具有经济意义的体力劳动的能力,而这部分是人类经济活动中最受物理约束的领域 [4][48][49] - 机器人技术并未走向通用化,在受控环境(如工厂)中专用自动化系统已极其成熟且高效,而在非受控环境中,许多任务虽技术可行但经济上不成立,因为数据采集成本高而人类完成成本低 [50][51][52][54] - 机器人学习的扩展规律与大语言模型相似,但面临更严苛的现实约束(数据采集昂贵、反馈稀疏、状态空间巨大),其扩展速度远慢于纯数字环境 [53] “超级智能”叙事存在根本缺陷 - “超级智能”能自我改进并形成失控式跃迁的假设,忽略了智能是嵌入在物理系统中的能力,任何系统改进都需要资源,且线性改进往往需要指数级投入 [56] - 超级智能无法绕过GPU核心性能提升已近尾声、Transformer架构接近物理最优、大规模推理部署属成熟工程问题等基本物理和工程约束 [58] - 限制AI经济价值释放的关键是落地、部署与应用结构,而非能力上限,因此专注于降低部署门槛、推动经济普及的参与者更可能在长期胜出 [58][59]
计算机周报20251116:叙事的逆转:中美大模型差距是否在拉大?-20251116
民生证券· 2025-11-16 22:02
报告行业投资评级 - 行业投资评级为“推荐” [5] 报告核心观点 - 核心观点认为国产大模型与海外大模型差距加速缩小,以腾讯、阿里为代表的国内AI生态快速发展,国产AI有望迎来加速发展的拐点 [3][22] 市场回顾 - 本周(11月10日至11月14日)沪深300指数下跌1.08%,中小板指数下跌1.71%,创业板指数下跌3.01%,计算机(中信)板块下跌3.72% [1][30] - 计算机板块个股周涨幅前五名分别为:海峡创新(33.10%)、恒银科技(17.94%)、安博通(15.29%)、中安科(12.50%)、鸿泉技术(10.37%) [35] - 计算机板块个股周跌幅前五名分别为:淳中科技(-17.43%)、鼎捷数智(-16.04%)、格尔软件(-13.00%)、凌志软件(-12.77%)、金溢科技(-10.93%) [35] 中国大模型性能与性价比 - 以MiniMax、DeepSeek、智谱为代表的大模型厂商已稳居全球大模型第一梯队,其模型日均tokens用量稳定在全球第一大梯队,超过GPT5的70B水平 [9] - MiniMax M2是OpenRouter上第一个日token消耗量超过50B(五百亿)的中国模型,发布几天内已跃升为OpenRouter全球调用量前三、HuggingFace Trending全球第一的模型 [9] - 国产大模型具备高性能与高性价比优势,例如智谱GLM 4.6在AI编程能力排名中得分为1373,与顶尖模型如Claude Sonnet 4.5(1387分)差距不大,但其输入/输出单价最低仅为2元/8元每百万tokens,而性能接近的Claude Sonnet 4.5输入/输出单价为3/15美元每百万tokens [13][14][15][16] 国内AI生态发展 - 腾讯公司总裁刘炽平在2025年第三季度财报电话会中指出,AI在该季度对腾讯的营收和毛利做出了不小贡献,广告收入增长中约有一半来自于AI驱动的广告技术带来的ECPM提升 [18] - 腾讯元宝已打通微信、QQ、腾讯会议等数十款内部产品,覆盖社交、办公与消费等场景,腾讯AI工作台ima在9月的月活跃用户数较1月增长超80倍,QQ浏览器AI功能9月月活跃用户数较4月增长约18倍 [20] - 阿里巴巴已秘密启动“千问”项目,对其主要移动端AI应用“通义千问”进行重大改版以全面对标ChatGPT,未来几个月内将逐步引入AI Agent功能并融入淘宝购物等更多场景 [20] 行业重要动态 - AMD CEO苏姿丰预计,到2030年全球AI数据中心总可寻址市场(TAM)将从当前约2000亿美元增长至逾1万亿美元,年复合增速超过40% [23] - 工信部办公厅印发《关于进一步加快制造业中试平台体系化布局和高水平建设的通知》,从原材料、装备制造等6大领域、37个方向布局一批急需的中试平台 [24] - 我国首台具备“量子计算优越性”的超导量子计算机“天衍-287”搭建完成,该系统拥有105个数据比特和182个耦合比特,在特定任务上的处理速度比目前最快超级计算机快约4.5亿倍 [26] 公司动态 - 凌志软件拟通过发行股份及支付现金方式购买凯美瑞德(苏州)信息科技股份有限公司100%股权,发行价为15.31元/股 [2][27] - 正元智慧董事会通过回购股份集中竞价减持计划,拟减持不超过2,842,000股(不超过总股本的2%) [2][29] - 新晨科技获得发明专利“一种实现区块链上高频隐私查询的方法、装置及存储介质” [28]
最新外国「自研」大模型,都是套壳国产?
36氪· 2025-11-01 13:02
Cursor公司Composer模型发布 - Cursor发布2.0版重大更新,推出首个自家代码模型Composer以及用于并行协作多个智能体的新界面[4] - Composer是使用强化学习训练的大型MoE模型,能够出色处理实际代码且速度非常快[4] - 在内部基准测试中,该模型在编码任务上达到行业前沿水准,生成速度比同类模型快四倍[7] 模型技术来源推测 - 新模型Composer在思考时大量输出中文,行为与国产模型极其相似,引发对其基于中国AI模型开发的猜测[4][9] - 有分析认为Cognition的SWE 1.5模型是基于智谱AI的GLM大模型进行开发和改进的[11] - 网友对SWE 1.5进行“越狱”后,模型直接回答自己是智谱AI开发的GLM大模型[11] - 业界观点认为Cursor的Composer模型和Cognition的SWE-1.5都是基于中国公司智谱的GLM 4.6模型进行定制精调[16] 模型开发策略分析 - 分析指出WindSurf和Cursor的新模型都是经过微调而非从零训练,这对于开源社区是胜利[17] - 从头训练基础模型成本极其高昂,许多资源更雄厚的公司都未能成功,因此后期投资强化学习是合逻辑的选择[17] - Cursor和WindSurf团队被认为没有足够资金建设庞大训练集群,也没有足够数据和团队支持从零建立大模型[18] 中国开源模型市场地位 - 英伟达CEO黄仁勋指出开源模型已变得非常强大,大大加速AI应用进程[21] - 2025年以来,阿里的通义千问模型已占据开源模型大部分市场份额,领先优势持续扩大,衍生模型数量全球第一[21] - 在AI社区HuggingFace趋势榜上,排行前列的模型都出自中国公司,包括MiniMax、DeepSeek、Kimi、百度等[23] - 在第三方基准平台ArtificialAnalysis上,排行前列的也大多数是国产模型[24] 行业格局影响 - 中国开源基础模型已具备足够能力支持西方产品开发,全球AI正进入多极化竞争新格局[20] - 不论在模型技术水平还是全球开发者接受度上,国内开源大模型都已确立领先地位,正在改变全球AI竞争格局[26] - 开源模型推理能力、多模态能力、专业领域能力的提升,使其不仅帮助开发者,甚至已成为初创公司的命脉[23]
最新外国「自研」大模型,都是套壳国产?
机器之心· 2025-11-01 12:22
Cursor和Cognition新模型发布及性能表现 - Cursor发布2.0版重大更新,推出自家代码模型Composer及用于并行协作多个智能体的新界面[5] - Composer是使用强化学习训练的大型MoE模型,在内部基准测试中编码任务达行业前沿水准,生成速度比同类模型快四倍[6][8] - Cognition推出快速智能体模型SWE-1.5,参数量达数千亿,编码性能接近SOTA,比Haiku 4.5快6倍,比Sonnet 4.5快13倍[9][11] 新模型与中国AI模型的关联证据 - 分析发现Cursor的Composer模型思考时讲中文,行为与国产模型极其相似[6] - 对Cognition的SWE-1.5进行"越狱"后,模型直接回答自己是智谱AI开发的GLM大模型[14][15] - 业界分析认为SWE-1.5基于智谱GLM 4.6模型定制,Cursor的Composer也带有中国式推理痕迹[20][21] - Cerebras官宣推出zai-glm-4.6作为新编码模型,进一步证实与中国模型的关联[24] 开源策略与行业影响分析 - 系统架构师指出从头训练基础模型成本极高,Cursor和Windsurf团队选择在后期训练阶段投资强化学习是合理逻辑[24][25] - 许多大型实验室已建立强大规模,独立开发难以成功,基于开源模型微调成为可行路径[25] - 呼吁美国公司回归开源理念,而非发布功能受限的专有模型[27] - 中国开源基础模型已具备支持西方产品开发的能力,全球AI进入多极化竞争新格局[28][29] 中国开源模型的行业地位 - 英伟达CEO黄仁勋表示开源模型已变得非常强大,加速了AI应用进程[30] - 2025年以来阿里通义千问模型占据开源模型大部分市场份额,衍生模型数量全球第一[30] - 在HuggingFace趋势榜上,排行前列的模型都出自国内公司,包括MiniMax、DeepSeek、Kimi、百度等[32] - 在第三方基准平台ArtificialAnalysis上,排行前列的也大多数是国产模型[33] - 国内开源大模型在技术水平和全球接受度上确立领先地位,改变全球AI竞争格局[35][36]