撞墙的不是Scaling Laws，是AGI。

文章核心观点 - Scaling Laws本身并未失效，其是数据结构的内在属性，当前大模型发展的瓶颈在于训练数据的质量和分布，而非计算规模本身[1][7][14] - 互联网原始数据总量虽大，但针对特定任务的有效数据分布稀疏，且不同Token的价值不均等，导致模型通用智能发展受限[4][8][15] - 行业趋势正从追求通用大模型转向专注于高价值领域的专业化模型，通过使用合成数据提升数据密度，可在减小模型尺寸的同时显著提升特定领域能力[10][11][12] 数据与Scaling Laws的关系 - Scaling Laws反映了数据结构的内在属性，基于Transformer的下一词预测复杂度随计算量和参数数量呈对数线性下降[3][4][14] - 原始互联网数据混合体并非实现AGI的最佳数据分布，模型训练为每个Token投入的计算量相同，但不同Token的价值并不相等[4][15] - 通过改变预训练数据的幂律分布，例如均衡每个Token的智能含量，可以从根本上改进Scaling Laws[15] 大模型发展现状与趋势 - GPT-4级别的模型已基本消耗完互联网可用数据，其涌现的智能主要是基础的语言智能，而非行业专业知识[9] - 从Claude Opus 3开始，通过引入合成数据，模型的专业能力（如代码能力）得到增强，同时模型行为更具可控性[10] - 模型发展呈现专业化趋势，例如Sonnet 3.5相比Sonnet 3模型尺寸更小，但因合成数据密度更高，其在代码方面的能力更强[11] - GPT-5体现了极致专业化，模型尺寸减小、专业性增强，但通用聊天能力被削弱，这引发了用户争议[12] 行业驱动因素与影响 - 模型厂商面临成本压力，将逐渐放弃通用性和超大模型路线，将智能资源集中堆叠于高价值领域[7][12] - 高价值领域如编程和搜索市场规模巨大，搜索领域可能催生两万亿美元的估值预期[12] - 高密度合成数据结合强化学习，能显著提升模型在特定行业的模式匹配能力和自动化水平，但全球上千个行业中，仅有少数像编程和搜索这样具有足够高价值来吸引AI公司投入[12] - 当前“你喂我吃”的深度学习范式下，单个语言模型通向AGI的道路天然受到成本限制，对全球的影响力可能有限[12]