Workflow
撞墙的不是Scaling Laws,是AGI。
自动驾驶之心·2025-09-29 07:33

文章核心观点 - Scaling Laws本身并未失效,其是数据结构的内在属性,当前大模型发展的瓶颈在于训练数据的质量和分布,而非计算规模本身[1][7][14] - 互联网原始数据总量虽大,但针对特定任务的有效数据分布稀疏,且不同Token的价值不均等,导致模型通用智能发展受限[4][8][15] - 行业趋势正从追求通用大模型转向专注于高价值领域的专业化模型,通过使用合成数据提升数据密度,可在减小模型尺寸的同时显著提升特定领域能力[10][11][12] 数据与Scaling Laws的关系 - Scaling Laws反映了数据结构的内在属性,基于Transformer的下一词预测复杂度随计算量和参数数量呈对数线性下降[3][4][14] - 原始互联网数据混合体并非实现AGI的最佳数据分布,模型训练为每个Token投入的计算量相同,但不同Token的价值并不相等[4][15] - 通过改变预训练数据的幂律分布,例如均衡每个Token的智能含量,可以从根本上改进Scaling Laws[15] 大模型发展现状与趋势 - GPT-4级别的模型已基本消耗完互联网可用数据,其涌现的智能主要是基础的语言智能,而非行业专业知识[9] - 从Claude Opus 3开始,通过引入合成数据,模型的专业能力(如代码能力)得到增强,同时模型行为更具可控性[10] - 模型发展呈现专业化趋势,例如Sonnet 3.5相比Sonnet 3模型尺寸更小,但因合成数据密度更高,其在代码方面的能力更强[11] - GPT-5体现了极致专业化,模型尺寸减小、专业性增强,但通用聊天能力被削弱,这引发了用户争议[12] 行业驱动因素与影响 - 模型厂商面临成本压力,将逐渐放弃通用性和超大模型路线,将智能资源集中堆叠于高价值领域[7][12] - 高价值领域如编程和搜索市场规模巨大,搜索领域可能催生两万亿美元的估值预期[12] - 高密度合成数据结合强化学习,能显著提升模型在特定行业的模式匹配能力和自动化水平,但全球上千个行业中,仅有少数像编程和搜索这样具有足够高价值来吸引AI公司投入[12] - 当前“你喂我吃”的深度学习范式下,单个语言模型通向AGI的道路天然受到成本限制,对全球的影响力可能有限[12]