Workflow
Transformer架构
icon
搜索文档
AI如何才能通过“终极考验”?让它重走人类来时的路
观察者网· 2026-01-20 09:08
文章核心观点 - 上海财经大学王献华教授提出名为“Nigiro Challenge”的测试方案,旨在通过一项“社会性虚拟造字测试”来评估通用人工智能是否真正拥有智能 [1][4][17] - 该方案认为,如果人工智能体能够在模拟的社会互动中,像人类发明文字一样,重新发明、创新并系统化构建一套可外化的文字体系来记录其文明,则意味着其拥有了可与人类相比的智能水平 [1][17][18] - 该观点源于对人类文字(特别是楔形文字)起源的逆向思考,将人工智能理解语言的过程视为一种“逆向工程”,并试图以此回应关于AI是否真正理解意义的哲学性质疑 [4][11][14][17] 人类文字起源与智能发展的关联 - 楔形文字的起源与三种前文字现象密切相关:陶筹(Token,用于计数和记录交易,公元前8000年已出现)、印章(用于确认归属和保证交易,公元前7000纪已使用)以及早期的数学计数系统 [4][6][8] - 文字的形成和发展与社会复杂性的增长密切相关,约在公元前3500年至公元前3000年间,楔形文字在行政管理和社会管理压力增大的背景下应运而生,从纯数字泥板发展到“数字+表意符号” [8][10] - 文字的出现被视为人类集体智能的结晶,完成了从具象计数到抽象符号的跨越,其发明能力与人类作为集体的发展相关联 [10][11] 人工智能理解语言的路径与挑战 - 现代大语言模型处理语言的核心步骤是词元化,其发展经历了从“词级”到“字符级”,再到主流的“子词”词元化的过程,以在词汇表规模和语义捕捉间取得平衡 [11][12] - Transformer架构是关键模型,它基于自注意力机制,可并行处理整个文本序列并捕捉长距离词语关系,这被认为是GPT等大模型能生成连贯文本的关键 [12] - 人工智能面临“符号接地问题”的根本性质疑,即纯粹的符号系统内部操作是否能赋予符号真正的指称和意义,还是仅仅在统计符号间的共现关系 [14] - 有观点认为,真正的人工智能应通过“具身交互”学习,即通过感知、行动与世界互动来获得理解,以解决符号接地问题 [14] 对现有智能测试的反思与新方案的提出 - 经典的“图灵测试”被反思为可能更像一面镜子,反映的是提问者的水平而非机器本身的智能,因此其作为智能检验标准受到质疑 [15][17] - “Nigiro Challenge”旨在提供一种超越图灵测试的、具有“终极”意义的测试方案,其名称“Nigiro”是“Origin”的反写,象征着对人类智能的逆向探索 [4][17] - 该测试聚焦于人工智能的“社会性”,要求智能体在模拟社会环境中互动并发明文字,这呼应了人类智能在社会环境中逐渐发展的历史观 [17] - 该方案提出,如果一个智能体社会能够独立发明文字系统,或许可以被接纳为人类社会的“合格成员”,因为文字的发明是人类文明有形的结晶 [17][18]
Sebastian Raschka 2026预测:Transformer统治依旧,但扩散模型正悄然崛起
机器之心· 2026-01-14 15:18
文章核心观点 - 行业认为Transformer架构在未来至少一至几年内仍将是AI生态系统的基石,但竞争焦点正从单纯追求模型规模转向效率优化和混合架构[4][5] - 扩散语言模型因其并行生成特性和在数据稀缺条件下的学习优势,成为2026年值得关注的新兴变量,但其在工具调用方面的缺陷限制了其作为智能体的应用[11][12][19] 效率战争:混合架构与线性注意力的崛起 - 行业近期重点转向混合架构与效率提升,例如DeepSeek V3采用混合专家模型和多头潜在注意力,在拥有6710亿参数的情况下,每次推理仅激活370亿参数,显著降低了推理成本[7] - 多家公司推出效率导向的模型变体,如Qwen3-Next、Kimi Linear、Nvidia Nemotron 3以及采用稀疏注意力的DeepSeek V3.2[7] - 标准Transformer注意力机制具有O(N²)的计算复杂度,导致长上下文处理成本剧增,因此行业正积极研发线性注意力或稀疏注意力等方案以降低计算开销[9] - 2026年的竞争核心在于如何在更长的上下文和更低的延迟下,提供同等的模型性能[10] - 部分模型采用混合策略,例如将高效的线性层与全注意力层以一定比例混合,以平衡长距离依赖捕捉能力和推理速度[14] 扩散语言模型:速度与代价的博弈 - 扩散语言模型采用并行生成方式,能够以相对快速且低廉的成本生成Token,其生成过程被类比为从噪声中并行“冲洗”出整段文字[12] - 行业预测Google可能在2026年推出Gemini Diffusion,作为其更便宜的Flash模型的替代品,并强调其生成速度“明显快于我们目前最快的模型”[12] - 扩散模型并行生成的特性导致其无法在响应链中原生地整合工具调用,这使其在作为智能体应用时面临巨大挑战[13][15] - 研究表明,若为了匹配自回归模型的性能而增加扩散模型的去噪步数,其最终计算成本可能与自回归模型相差无几[17] 数据枯竭时代的「超级学习者」 - 在互联网高质量文本数据接近枯竭的背景下,扩散语言模型可能成为更好的数据学习者[18][24] - 研究论文《Diffusion Language Models are Super Data Learners》指出,当进行多轮次训练时,文本扩散模型的表现可能优于标准的自回归大语言模型[19][25] - 在数据量受限的情况下,扩散语言模型通过增加训练轮数,其表现持续超越自回归模型,例如一个10亿参数的扩散语言模型,仅通过反复训练10亿个Token,就在HellaSwag和MMLU基准测试上分别达到了超过56%和超过33%的准确率[26][27] - 对于扩散语言模型,验证集损失的上升并不一定意味着下游任务能力的下降,即使看似“过拟合”,其在代码生成、推理等任务上的表现可能仍在提升[28] - 扩散模型具备任意顺序建模、超高密度计算以及内置的蒙特卡洛增强等特性,使其能从有限数据中进行更高效的学习[31]
速递 | DeepSeek又发论文了,这可能是V4核心预告,普通人的3个机会来了?
文章核心观点 - DeepSeek发布了一篇关于Engram模块的论文,该技术旨在解决Transformer架构缺乏原生记忆查找机制的核心缺陷,通过引入一个可扩展的查表模块,让AI能高效检索固定知识,从而解放计算资源用于复杂推理,这可能预示着DeepSeek V4的核心技术方向 [1][4][9][11][62][63] 一、核心问题与Engram模块技术原理 - Transformer架构将所有任务混合处理,没有区分固定知识检索和动态推理,导致效率低下,例如回答“戴安娜王妃的全名是什么?”需要动用多层神经网络进行计算 [6][7][18][20] - Engram模块为AI增加了“电子脑”或“速查手册”,采用现代化的N-gram方法,将固定知识组合(如“张仲景”、“四大发明”)存储在巨大词表中,实现快速调用 [9][10][22] - 该模块通过哈希函数映射解决传统N-gram存储爆炸问题,并通过“门控机制”根据上下文判断来解决多义性问题(如区分“Apple”是公司还是水果) [26] 二、反直觉发现:记忆模块对推理能力的提升 - 实验发现,在固定总参数量和算力下,调整MoE(混合专家模型)与Engram的分配比例,性能呈现U型曲线,最优性能出现在将20-25%的稀疏参数分配给Engram记忆模块时 [29][30][31][42] - 这一规律表明记忆无法替代计算,计算也无法高效模拟记忆,两者配合是最优解,且该U型曲线在不同规模下稳定存在,是一个可扩展的规律 [32][34] - 训练了27B参数的Engram模型,与同规模纯MoE模型对比,不仅知识类任务提升,推理、代码、数学等需要深度思考的任务性能提升更大,核心原因是Engram解放了早期神经网络层,使其能专注于复杂推理链条 [35][36] 三、对AI行业的冲击 - **冲击1:稀疏化进入“双轴时代”**:行业竞争从仅在MoE上卷效率,扩展到“条件记忆”这第二条路,可能导致OpenAI、Anthropic等巨头需要重新设计架构以跟进 [38][39] - **冲击2:硬件生态可能变化**:Engram的查表操作是确定性的,可提前预取并与计算重叠,实验将1000亿参数的Engram表放在CPU内存中,在H800 GPU上跑推理,吞吐量仅下降3%,这降低了对昂贵GPU内存的依赖,可能影响英伟达等硬件厂商 [40][41][43][44][45] - **冲击3:长上下文能力实现飞跃**:在处理超长文档任务时,准确率从八成多提升到九成多,实现了质的飞跃,因为Engram将局部依赖建模卸载给查表,释放了注意力容量去关注全局上下文,这对法律合同、医疗病历、长篇代码理解等场景意义重大 [46][47][48][49] 四、对普通人的机会方向 - **方向1:知识密集型应用迎来爆发期**:Engram能大幅优化固定知识检索的成本和速度,例如医疗、法律、教育领域的问答系统,成本可能降至原来的十分之一,速度提升十倍以上 [51][52][64] - **方向2:多语言和垂直领域微调服务**:Engram对语义相同但形式不同的token做了压缩,使128K词表的有效规模减少23%,且门控机制在中英文上表现良好,降低了多语言应用门槛,适合开发小语种客服机器人、金融风控报告生成等定制化服务 [54][55][58][72] - **方向3:长上下文应用的爆发**:Engram在长文本任务上的提升是质的飞跃,结合32K上下文窗口,能有效覆盖合同审查、医疗诊断、代码审计、学术研究等需要处理长文档的场景,为To B领域的企业服务提供了切入机会 [56][57][59][60][71][72]
DeepSeek开源大模型记忆模块!梁文锋署名新论文,下一代稀疏模型提前剧透
量子位· 2026-01-13 08:39
核心观点 - DeepSeek团队提出了一种名为“条件记忆”的全新建模范式,并给出了具体实现方案Engram模块,旨在为Transformer架构补上原生的知识查找机制 [1][5] - 该技术将条件记忆视为下一代稀疏模型不可或缺的建模原语 [2] - 通过将部分稀疏参数预算分配给Engram记忆模块,可以在固定计算量下显著提升模型性能,甚至在通用推理和代码数学领域带来超预期的提升 [5][34][47] 技术原理与设计 - **核心问题**:现有Transformer架构缺乏原生知识查找机制,识别静态实体(如“Diana, Princess of Wales”)需要消耗多层注意力进行低效的特征拼凑,浪费了本可用于高层推理的网络深度 [8][9][10][11][13] - **解决方案**:回归查表思想,将经典的N-gram方法嵌入Transformer,通过哈希查找以O(1)时间复杂度直接获取固定实体和短语的对应向量 [6][7][14][15] - **关键技术**: - 引入上下文感知的门控机制,用当前隐藏状态作为Query来评估检索到的记忆与上下文的匹配度,自动屏蔽噪声 [17][18] - 通过压缩tokenizer,将语义相同但形式不同的token归为一类,使128k词表的有效规模减少23% [25] - 使用多个哈希函数将N-gram映射到固定大小的embedding表,解决了传统N-gram模型的存储爆炸和语义重复问题 [24][26] 性能优化与实验发现 - **稀疏性分配**:在固定总参数量和每token激活参数量的前提下,研究MoE专家与Engram记忆之间的参数分配,结果呈现U型曲线 [30][31][32] - 纯MoE并非最优,将约20%到25%的稀疏参数预算分配给Engram记忆时,模型验证集loss达到最低 [34] - 在100亿参数规模下,最优配置比纯MoE基线的loss降低了0.0139 [35] - 最优分配点在不同计算预算下稳定在ρ=75%到80%之间 [36] - **大规模验证**:在270亿参数规模下对比纯MoE模型与加入Engram的混合模型,所有模型激活参数量均为38亿,训练token为2620亿 [39][40] - Engram-27B模型将5.7B稀疏参数分配给Engram记忆模块 [43] - Engram-40B模型进一步将Engram记忆参数增至18.5B,总参数达39.5B [44] - **性能提升**: - **语言建模**:在验证集上,Engram-27B的loss为1.622,优于MoE-27B的1.634和Dense-4B的1.768 [48] - **知识推理**:在多项基准测试中显著提升,例如MMLU准确率从57.4提升至60.4,C-Eval从58.0提升至62.7 [48] - **通用推理与代码数学**:提升幅度超预期,BBH提升5.0分,ARC-Challenge提升3.7分,HumanEval提升3.0分,MATH提升2.4分 [47][49] - **长上下文**:在RULER测试集上,Multi-Query NIAH准确率从84.2跃升至97.0,Variable Tracking从77.0提升至89.0 [55][56] - **效率提升原理**:Engram让模型早期层无需进行特征组合的“苦力活”,预测收敛速度更快。Engram-27B第5层的表征与MoE基线第12层的表征最相似,相当于“加深”了网络有效深度,释放的层数用于更复杂推理 [50][51] 工程实现与硬件效率 - **训练优化**:百亿级参数的词表通过拆分到多个GPU并使用All-to-All通信机制进行处理 [59] - **推理优化**:利用Engram确定性寻址的特点,可将巨大的嵌入表卸载至CPU内存,并通过PCIe异步预取使通信与GPU计算重叠,额外延迟开销控制在3%以内 [60][62][63] - 实验将1000亿参数的Engram表放在CPU内存,在H800上运行推理,4B密集模型吞吐量从9031 token/s降至8858 token/s,8B密集模型从6315 token/s降至6140 token/s [63][64] - **缓存设计**:利用N-gram访问的Zipfian分布特性,可设计多级缓存(高频放GPU显存、中频放CPU内存、长尾放NVMe SSD)以进一步压缩延迟 [65] - **设计原则**:Engram将“硬件感知效率”确立为核心设计原则,其存储与计算解耦的特性支持海量参数表的高效卸载 [66]
2026年,AI将从炒作走向务实
新浪财经· 2026-01-05 11:29
行业核心观点 - 2026年将是AI技术从规模扩张和概念演示转向实用化、针对性部署和与人类工作流协作的关键过渡之年 [2] - 行业焦点从构建庞大语言模型转向让AI真正可用,实践包括部署轻量模型、嵌入实体设备和设计无缝工作流系统 [2][17] AI发展范式转变:超越规模化 - 自2012年ImageNet论文和2020年GPT-3发布以来,AI产业经历了约十年的“规模化时代”,其核心信念是更多算力、数据和更大的Transformer模型能推动突破 [4][21] - 目前许多研究者认为产业正接近Scaling Law的极限,模型性能进入平台期,预训练成果趋于停滞,需要寻找全新的架构思路 [4][5][21] - Meta前首席AI科学家Yann LeCun和OpenAI联合创始人Ilya Sutskever均强调开发更优架构的必要性,预计未来五年内可能找到比Transformer有显著改进的新架构 [5][21] 小型专业化模型(SLM)崛起 - 下一波企业AI应用的驱动力将是更小巧、灵活的语言模型,它们能针对特定领域微调以提供解决方案 [5][21] - 经过微调的SLMs预计在2026年成为成熟AI企业的标配工具,因其在针对企业业务应用的准确度上可媲美更大的通用模型,且在成本和速度方面表现出色 [5][22] - 法国开源AI初创公司Mistral声称其小型模型经微调后在多项基准测试中表现优于大型模型 [5][22] - SLM的精密度、成本效益和适应性使其成为定制应用的理想选择,且更适合部署在本地设备上,这一趋势因边缘计算进步而加速 [6][22] 世界模型成为新前沿 - 许多研究者认为下一个重大突破将来自“世界模型”,这类系统通过学习物体在三维空间中的运动与交互来进行预测和行动,而非仅预测文本 [8][24] - 2026年被视为世界模型发展的关键年份,LeCun离开Meta创办世界模型实验室(据报道寻求50亿美元估值),谷歌DeepMind推进Genie项目,李飞飞的世界实验室推出商业化模型Marble,初创公司Decart、Odyssey等亮相 [9][25] - 2023年10月,初创公司General Intuition获得1.34亿美元种子轮融资用于训练智能体的空间推理能力;2023年12月,Runway发布其首款世界模型GWM-1 [9][25] - PitchBook预测,游戏领域的世界模型市场规模将从2022-2025年间的12亿美元增长至2030年的2760亿美元,得益于其生成交互式世界和更逼真非玩家角色的能力 [9][25] - 虚拟环境不仅可能重塑游戏产业,还有望成为下一代基础模型关键的测试场 [10][25] 智能体(Agent)走向实用化 - 2025年智能体未能达到市场预期,主要原因是难以与真实工作系统对接,多数被困在试点工作流中 [11][27] - Anthropic公司推出的Model Context Protocol(MCP)被誉为“AI领域的USB-C接口”,能让AI智能体与数据库、搜索引擎及API等外部工具交互,正迅速成为行业标准 [11][27] - OpenAI、微软已公开表示支持MCP,Anthropic将其捐赠给Linux基金会新成立的智能体人工智能基金会,谷歌也开始部署自家的托管式MCP服务器 [11][27] - 随着MCP降低连接阻力,2026年可能成为智能体工作流从演示真正融入日常实践的元年 [12][28] - 技术进步将推动智能体优先解决方案在各行业承担“记录系统核心角色”,渗透到家庭服务、房地产科技、医疗保健以及销售、IT和支持等横向职能中 [12][29] AI与人类协作及就业影响 - 2026年可能成为“人类之年”,讨论重点将从AI取代人类转向AI如何辅助人类工作流程 [14][31] - 预计很多公司将开始招聘,特别是在人工智能治理、透明度、安全性以及数据管理领域,并看好明年失业率平均值低于4% [14][31] - 趋势是人们希望能够驾驭API而非受制于它,2026年将是实现这一目标的关键年份 [14][31] 物理人工智能(实体化)成为主流 - 小型模型、世界模型和边缘计算等技术的进步将推动机器学习在更多物理场景中落地应用 [16][34] - 随着机器人、自动驾驶车辆、无人机和可穿戴设备等新型AI设备进入市场,物理人工智能将在2026年成为主流 [16][34] - 自动驾驶车辆和机器人虽是典型应用且将持续增长,但培训与部署成本高昂;可穿戴设备凭借消费者接受度成为更具成本效益的切入点,如雷朋Meta智能眼镜配备实时视觉助手,AI健康指环与智能手表推动全天候机身推断成为常态 [17][34] - 连接服务提供商将致力于优化网络基础设施以支持新设备浪潮,在提供连接方式上具备灵活性的运营商将占据优势 [17][34]
梁文锋DeepSeek新论文!接棒何恺明和字节,又稳了稳AI的“地基”
新浪财经· 2026-01-02 13:27
文章核心观点 - DeepSeek发布论文《mHC: Manifold-Constrained Hyper-Connections》,提出对Transformer架构最基础的残差连接组件进行重要改进,这是该领域十年来的一次根本性创新 [1] - mHC旨在解决其前身技术Hyper-Connections带来的训练不稳定问题,通过引入数学约束(双随机矩阵)为连接权重加上“数学护栏”,在保持性能提升的同时确保训练稳定 [5][10] - 这项创新不仅是算法突破,更展示了DeepSeek将复杂数学方案高效落地到大规模训练系统中的顶尖工程能力,是其核心竞争优势的体现 [15][16] 技术演进背景 - 残差连接由何恺明等人于2015年提出,其核心公式y = x + F(x)解决了深度神经网络的梯度消失问题,使训练成百上千层的网络成为可能,并因此获得CVPR 2016最佳论文奖 [3] - 自2017年Transformer问世以来,残差连接成为几乎所有主流大模型(如GPT、Claude、Llama、DeepSeek)的架构标配 [3] - 2024年9月,字节跳动提出Hyper-Connections,将单一残差流扩展为多流并行架构,实验显示能显著提升模型性能,在MoE模型上实现1.8倍的收敛加速,但带来了训练不稳定的新问题 [5] - 从ResNet到Hyper-Connections再到mHC,这是一场跨越十年的技术接力演进 [5] mHC的技术原理与创新 - mHC的核心创新是将连接权重矩阵约束在“双随机矩阵”的数学空间内,该矩阵所有元素非负,且每行、每列元素之和均为1 [10] - 此约束的数学效果是使输出信号成为输入各分量的“凸组合”(加权平均),确保结果不会超过输入最大值,从而防止信号在多层传播中被无限放大,保证了能量守恒 [10] - 双随机矩阵的谱范数恒小于等于1,这意味着对应的线性变换是“非扩张的”,无论前向还是反向传播,信号都不会被无限放大 [10] - 具体实现采用Sinkhorn-Knopp算法,通过交替进行行归一化和列归一化迭代生成双随机矩阵,论文表明仅需3次迭代即可达到足够精度,且整个过程可微分,支持端到端训练 [11] - 该方案未引入新超参数,也未改变模型表达能力,只是为权重矩阵增加了可证明的安全边界 [12] 实验效果与影响范围 - 实验结果显示,在7B规模的Dense模型训练中,采用mHC的模型全程未出现任何Loss尖峰 [12] - 在MoE模型上,mHC实现了与Hyper-Connections相近的约1.8倍收敛速度提升 [12] - 这是一个“富人的问题”,训练不稳定问题仅在训练超大规模模型(例如270亿参数以上)时才会显现,对DeepSeek等前沿实验室是必须解决的工程难题,普通研究者可能不会遇到 [10] 工程实现与公司能力 - 为了让理论上完美的数学方案落地,DeepSeek未调用现成库,而是直接手写底层CUDA内核代码,利用算子融合技术将复杂计算塞进毫秒级的训练循环中 [16] - 公司采用了激进的“选择性重计算”策略,并在多卡训练中开辟专用计算流来掩盖通信延迟 [16] - 这种将算法灵感稳定、高效地落地到整个算力体系(包括重写内核、内存管理、节点通信)的工程能力,被认为是前沿实验室的标志,也是DeepSeek的最大优势 [16] - 业内评价认为,这篇论文表面是架构论文,实际上是DeepSeek“秀肌肉”的硬核工程论文 [15] 战略意义与发展脉络 - mHC符合DeepSeek近两年的发展主线:在有限资源下,通过架构创新最大化效率,用数学约束解决工程问题,用架构创新突破资源瓶颈 [14] - 根据DeepSeek研究员与Kimi研究员的交流,hyper-connections(mHC的技术根基)被认为是2025年最值得关注的两大架构创新之一,这意味着mHC可能只是公司在这条技术路线上的第一步 [14] - 如果mHC被整合进下一代模型,结合此前的一系列技术和工程创新,可能会催生一个在效率、性能和稳定性上全面升级的新架构 [15] - DeepSeek创始人梁文锋出现在论文的19位作者名单中,显示了公司高层对该技术创新的直接参与和重视 [1]
LSTM之父率队造出PoPE:终结RoPE泛化难题,实现Transformer的极坐标进化
机器之心· 2026-01-02 09:55
文章核心观点 - 由Jürgen Schmidhuber团队提出的新型位置嵌入方法PoPE,通过解耦内容(what)与位置(where)信息,解决了当前主流方法RoPE中两者纠缠的问题,从而在多项任务中实现了更优的模型性能[1][9] RoPE的问题分析 - RoPE是Llama 3、DeepSeek-v3、Gemma 3和Qwen3等前沿模型的首选位置编码方法,它通过旋转键和查询的二维分量来编码相对位置信息[5] - 在极坐标表示下,RoPE的注意力分数公式显示,键和查询都混淆了特征存在与否的信息(what)和相对位置信息(where),这种纠缠被假设会损害模型性能[8][9] PoPE解决方案 - PoPE将键和查询转换为d元素复向量,其幅值通过softplus函数确保非负,相位则仅取决于位置,从而实现了内容与位置的解耦[12][13] - PoPE的注意力分数计算消除了RoPE中导致键和查询影响相位的交互项,并可引入一个可学习的偏置项来调整最佳相对偏移[13] - 该方案通过定制的Triton内核实现,相比标准Flash Attention仅需额外一次乘法,虽然当前通用变体内存开销较大,但可通过优化降低[14] 模型性能表现 - **间接索引任务**:RoPE平均准确率仅为11.16%,而PoPE达到94.82%,显示出PoPE在分离内容和位置信息上的显著优势[18][19] - **音乐与基因组序列建模**:在JSB和MAESTRO音乐数据集上,PoPE的负对数似然(NLL)均低于RoPE;在人类参考基因组数据集上,PoPE的NLL(4.152)也显著低于RoPE基线(4.217)[20][22][23] - **语言建模**:在OpenWebText数据集上,124M、253M和774M三种模型规模的测试中,PoPE的困惑度均始终低于RoPE[25][26] - **下游零样本任务**:在LAMBADA、Blimp、CBT、HellaSwag、PIQA和ARC-E六项任务中,PoPE在所有模型规模下的平均准确率均高于RoPE[27][28] - **长度外推能力**:在1024个token上训练,于长达10240个token的序列上评估时,RoPE性能显著下降,而PoPE显示出强大的开箱即用外推能力,优于专门的基线模型YaRN,且其外推性能随模型规模增加保持稳定,而RoPE则恶化[29][31][32]
有300亿美元也未必“再造GPT-4”?NUS尤洋最新长文:拆穿AI增长瓶颈的真相
量子位· 2025-12-31 11:37
文章核心观点 - 当前人工智能行业面临的核心瓶颈并非算力增长停滞,而是现有技术范式(以Transformer架构为核心)对持续增长的算力的吸收和转化效率正在下降,即“算力增长与智能增长之间的映射关系开始松动”[2][22] - 智能的本质可被工程化地定义为“对未来状态进行预测,并为预测结果承担实际后果的能力”,这解释了Next-Token Prediction的成功,也揭示了当前许多模型在真实世界应用中的短板[8][10] - 未来智能增长的关键在于寻找“扩展性更强的架构或Loss函数”,以在极端算力投入下(如300亿美元预算)稳定地将新增算力转化为可兑现的能力增量,而非仅仅追求效率优化(如更高的吞吐量)[23][26] 智能的本质与评估 - 智能的核心能力被定义为对未来状态的预测及承担后果的能力,这为评估智能提供了一个工程化、可验证的标准[8] - 这一视角解释了Next-Token Prediction能成为“智能发动机”的原因,也揭示了在封闭评测中表现优异的系统在真实不确定环境中暴露短板的问题[10] - 将智能凝聚为“预测”是为了划定一个工程上可对齐算力投入的核心能力维度,但规划、因果建模等能力是否能完全还原为预测仍是开放议题[10] 当前技术范式的成功与局限 - 过去十年大模型的智能跃迁依赖于三件事同时发生:GPU提供指数级增长的并行算力、Transformer架构能充分“吃下”这些算力、Next-Token Prediction提供了无限且统一的学习信号[15] - Transformer的成功不仅是算法胜利,更是模型架构与硬件体系(英伟达GPU)高度匹配的系统性结果,它是一台“伪装成神经网络的并行计算机”[6][16] - 该范式的有效性部分受益于语言任务本身高度符号化、序列化,且评测体系与训练目标高度一致的特性[17] - 在此范式下,从GPT-1到ChatGPT,算力增长、模型规模扩大与能力提升之间形成了相对稳定的正反馈链路[18][19] 智能增长的瓶颈所在 - 判断智能瓶颈的具体标准是:当一次训练的FLOPS从10^n变成10^{n+3}(即增长1000倍)时,是否还能稳定获得显著更强的模型[20] - 瓶颈的本质是“算力增长与智能增长之间的映射关系开始松动”,即现有范式对新增算力的吸收效率下降,而非算力红利消失[2][22] - FLOPS被视为最底层、最难被包装的算力尺度,比Token数、参数量等指标更能反映本质[21] - 真正的难点在于缺乏一种“扩展性更强的架构或Loss函数”,能把新增算力稳定地转化为能力增量[23] 对行业主流讨论的批判性视角 - 预训练、监督微调(SFT)、强化学习(RL)三者本质都是在计算梯度、更新参数,可被统一视为不同的“算力使用策略”[11][12] - 当前模型的主要智能来源是预训练阶段,根本原因是其消耗了最多的能源与计算[15] - 行业应关注“在算力持续投入的前提下,是否还能稳定地换取能力增长”这一更朴素的问题,而非陷入方法论之争[15] - Mamba等新架构提升了吞吐量,但解决的是“同等智能更便宜”,不自动等价于“同等成本更聪明”[6][23] 未来发展的潜在方向 - 未来AI基础设施的核心目标应是提升“并行计算体系在软硬件层面的整体扩展性”,而不仅仅是单点芯片性能,需维持或提升计算开销与通信开销的比值[24][25] - 探索方向包括:回归高精度计算(如FP32/FP64)、抛弃Adam优化器、采用更高阶优化器、探索更可扩展的架构或Loss函数、进行更多epoch与更深度的超参数探索[6][25] - 预训练所能承载的智能增长空间可能还远未走到尽头,关键在于找到在极端算力条件下持续变强的能力[26] - 只要还能找到更高效组织计算的方式,智能的上限就远未到来[27]
豆包日活破亿,接下来应该就要“搞钱”了
搜狐财经· 2025-12-28 03:41
豆包用户规模与成本结构 - 豆包日均活跃用户数已突破1亿大关,成为日活最快破亿的国产AI产品 [1] - 豆包的市场推广费用是字节跳动所有日活破亿产品中花费最低的 [1] - 截至今年12月,豆包大模型日均调用量已突破50万亿Tokens,较去年同期增长超过10倍 [3] - 以对外API服务方式计算,豆包每日仅模型调用成本约250万元 [6] - 通过混合专家架构、稀疏激活及推理优化技术,豆包App的实际运营成本大概率在200万元/天 [6] - 豆包主力模型综合单价约为1元/百万Tokens [5] AI行业商业模式与商业化挑战 - AI技术的边际成本与传统互联网产品相反,用户规模增加会带来更多推理需求,而非摊薄成本 [8] - AI行业当前是“烧钱换技术”,核心目标是追求通用人工智能 [8] - 投资机构对AI行业的“烧钱”意愿正在下降,行业叙事从“仰望星空”转向“脚踏实地” [10] - 当一级市场融资变谨慎,通过IPO从二级市场获得资金成为AI独角兽留在牌桌上的方式 [10] - 主流AI产品变现方式为付费订阅,但以ChatGPT为例,其付费渗透率也仅有5% [10] - 在付费意愿更低的国内市场,付费订阅模式可能面临更大挑战 [12] 豆包未来商业化路径推测 - 实现亿级日活后,豆包的下一步是商业化 [3] - 豆包未来大概率会通过广告方式完成商业化,例如在用户寻求建议时自然地推荐相关品牌 [12] - 这种广告方式被认为既隐蔽又高效 [12]
当姚顺雨们开始掌舵科技巨轮
钛媒体APP· 2025-12-25 13:12
文章核心观点 - AI行业发生底层范式转移 导致技术解释权与公司权力结构重构 经验丰富的资深工程师价值相对贬值 而深刻理解新范式的年轻技术领袖迅速崛起[3][4][8] - 科技公司为适应新时代 正在形成“年轻舰长负责技术探索 年长领航员负责资源整合与风险把控”的新型共生管理模式[30][31][36][37] 技术范式转移 - 2017年Transformer架构出现前 AI开发依赖精细人工规则与特征工程 经验价值高[4] - Transformer与GPT系列引爆生成式AI新时代 范式转变为依赖强大算力与海量数据 智能从混沌中涌现[4] - 新旧范式存在根本性思维差异:传统工程师思维强调节省算力与优化效率 新一代AI从业者则直觉倾向于增加参数与清洗数据[5][6] - 技术代差造成的认知隔离 如同火器时代取代冷兵器 最优秀的弓箭手教官无法指导使用机枪的新兵[7] 公司权力结构重构 - Meta引入Scale AI创始人Alexandr Wang(28岁)兼任首席AI官 其信奉工程实用主义 认为经RLHF清洗的高质量数据是AI时代不可复制的核心壁垒[10][11] - 腾讯为刚毕业的博士姚顺雨提供亿级薪酬并授予首席AI科学家头衔 因其在普林斯顿与OpenAI期间是“思维树”和“ReAct”框架核心研究者 掌握通往AGI的精确地图与关键暗知识[2][12][13] - 小米将“人车家”大模型指挥权交给95后罗福莉 因其在DeepSeek-V2模型中历练出的“小参数、高性能”模型直觉 能指挥习惯硬件堆料的老工程师 确立“算法指引硬件”的新战略[2][14][17][18] - 三位年轻领袖分别占据“数据基建”、“核心算法”、“终端应用”三个关键环节 共同构建了新技术范式下的权力闭环[9][19] 管理冲突与文化碰撞 - 技术断层导致管理层年轻化 传统科层制管理结构经受考验 老中层管理者面临认知失调[20] - 沟通逻辑冲突:传统管理者关注项目ROI与逻辑闭环 年轻领导者则认为大模型逻辑是涌现的 无法预设[21] - 技术理解冲突:传统工程师要求模型“可解释性” 年轻领导者则接受大模型是数千亿参数压缩产生的概率分布黑盒[22] - 文化冲突:年轻一代信奉极客文化与GitHub式开源协作 对繁琐的汇报流程与层级文化嗤之以鼻 导致与传统企业文化的冲撞[23][24][25][26] 未来共生模式 - 纯粹由年轻技术领袖主导存在风险 可能缺乏对用户隐私、社会安全底线及上市公司财报压力的敬畏与处理能力[29][30] - 最健康的模式是“年轻舰长 + 年长领航员”:年轻技术领袖定义技术路线与算法架构 资深管理者转型为资源整合者与保护者 负责搞定监管、预算与跨部门协调[31][32][33][34][35] - 资深管理者利用几十年积累的商业智慧与人脉 为年轻大脑构建纯粹、不受干扰的创新环境[36] - 这不是简单的年龄更替 而是认知结构的更迭 年轻领袖的成功源于其知识结构天然适配AI新时代[39]