文章核心观点 文章基于AGI-Next前沿峰会上多位中国AI领域核心人物的讨论,总结出当前中国大模型产业发展的三大核心趋势:单纯依赖扩大模型规模(Scaling)的范式面临效率瓶颈,行业正在寻求下一代范式;Token效率正成为决定大模型能力上限和国内竞争格局的关键因素;中美大模型因市场环境、Lab文化等差异,正走向不同的演进路径[10][11]。 趋势一:Scaling之外,新的范式正在成为新命题 - 行业对单纯依赖扩大算力、数据和参数规模的Scaling路径产生反思,认为其边际收益正在收窄,智能提升的增量持续变小,而成本呈指数级增长,效率已成为瓶颈[7][14] - 清华大学教授唐杰指出,继续Scaling的价值受到质疑,这成为一种“相对偷懒的方式”,核心目标应转向用更少的投入换取更高质量的智能增量[7][14][15] - 行业共识是下一代范式将围绕“自主学习”,但该概念目前仍是一组尚未被充分展开的问题集合,真正的瓶颈在于数据来源和任务定义[16] - 腾讯首席AI科学家姚顺雨观察到,自主学习已以温和方式发生(如ChatGPT拟合人类表达),但受限于预训练能力与通用底座,更大的突破可能要到2026年才会出现迹象[17] - 新范式的挑战不仅在于技术,还在于想象力和验证方法,同时商业化进程可能影响创新基因,这使得新范式在全球范围内都尚未清晰落地[17][18] 趋势二:Token效率愈加成为国内大模型能力的决定性因素 - Token效率已从训练效率问题,上升为直接决定模型智能上限和能走多远的结构性约束[8][20][22] - 月之暗面创始人杨植麟指出,预训练阶段的Token总量是常量,一旦消耗完,模型智能上限即被锁死,因此关键在于每个Token能换来多少有效智能[8][21][22] - 在长上下文(上千至数十万Token)和Agent任务成为主流后,Token的位置损耗显著,其利用效率直接决定了模型处理复杂推理和搜索任务的潜力[22][24] - 月之暗面在过去一年将核心工作集中于提升Token效率,在其K2模型中通过新优化器与架构设计,实现了用一半数据达到相同效果,获得了等价于一次Scaling的收益[23] - Token效率与长上下文能力是需要同时优化的乘积变量,共同构成Agent能力放大的基础,这正在重塑国内大模型的技术路线选择[24][25] 趋势三:中美大模型正在走向不同的演进路径 - 中美大模型的差距并非简单的“能力高低”,而是市场环境、应用场景和Lab文化差异导致的两条分叉演进路径[26][27][29] - 美国市场的大模型发展明显向生产力与企业级场景集中(如Coding与Agent),模型能力直接重塑工作方式并与个体生产力强绑定,因此市场对模型能力的价格容忍度更高,模型被视为可直接定价的“生产资料”[27] - 相比之下,中国企业对成本高度敏感,且toB场景碎片化,需求更侧重于稳定性、可控性与交付效率,而非单点“最强智能”,模型更像是一种被嵌入既有系统的基础能力,难以独立获得高溢价[27][28] - 底层Lab文化存在差异:美国鼓励长期投入高风险、高不确定性的前沿问题研究;而中国的研究环境更强调效率、反馈周期以及与业务目标的紧密对接,更倾向于做“安全的事情”[29] - 这种文化差异导致美国更关注“什么是正确的事情”和自身体验,而中国则相对更看重“刷榜或数字”,最终使得中美大模型的演进路径分化,差距越来越少被理解为“领先或落后”,而是不同现实条件下的不同路线选择[29]
唐杰、杨植麟、林俊旸、姚顺雨:他们眼中的 AGI 三个转折点
虎嗅APP·2026-01-11 17:52