Sonnet 3.5
搜索文档
撞墙的不是Scaling Laws,是AGI。
自动驾驶之心· 2025-09-29 07:33
文章核心观点 - Scaling Laws本身并未失效,其是数据结构的内在属性,当前大模型发展的瓶颈在于训练数据的质量和分布,而非计算规模本身[1][7][14] - 互联网原始数据总量虽大,但针对特定任务的有效数据分布稀疏,且不同Token的价值不均等,导致模型通用智能发展受限[4][8][15] - 行业趋势正从追求通用大模型转向专注于高价值领域的专业化模型,通过使用合成数据提升数据密度,可在减小模型尺寸的同时显著提升特定领域能力[10][11][12] 数据与Scaling Laws的关系 - Scaling Laws反映了数据结构的内在属性,基于Transformer的下一词预测复杂度随计算量和参数数量呈对数线性下降[3][4][14] - 原始互联网数据混合体并非实现AGI的最佳数据分布,模型训练为每个Token投入的计算量相同,但不同Token的价值并不相等[4][15] - 通过改变预训练数据的幂律分布,例如均衡每个Token的智能含量,可以从根本上改进Scaling Laws[15] 大模型发展现状与趋势 - GPT-4级别的模型已基本消耗完互联网可用数据,其涌现的智能主要是基础的语言智能,而非行业专业知识[9] - 从Claude Opus 3开始,通过引入合成数据,模型的专业能力(如代码能力)得到增强,同时模型行为更具可控性[10] - 模型发展呈现专业化趋势,例如Sonnet 3.5相比Sonnet 3模型尺寸更小,但因合成数据密度更高,其在代码方面的能力更强[11] - GPT-5体现了极致专业化,模型尺寸减小、专业性增强,但通用聊天能力被削弱,这引发了用户争议[12] 行业驱动因素与影响 - 模型厂商面临成本压力,将逐渐放弃通用性和超大模型路线,将智能资源集中堆叠于高价值领域[7][12] - 高价值领域如编程和搜索市场规模巨大,搜索领域可能催生两万亿美元的估值预期[12] - 高密度合成数据结合强化学习,能显著提升模型在特定行业的模式匹配能力和自动化水平,但全球上千个行业中,仅有少数像编程和搜索这样具有足够高价值来吸引AI公司投入[12] - 当前“你喂我吃”的深度学习范式下,单个语言模型通向AGI的道路天然受到成本限制,对全球的影响力可能有限[12]
Big Tech's great flattening is happening because it's out of options
Business Insider· 2025-05-19 20:24
Welcome back! In case you missed it, our new newsletter, Tech Memo, written by the great Alistair Barr, launched on Friday. Check out the first edition here. And if you aren't already, subscribe here. In today's big story, we're looking at Big Tech's obsession with cutting out middle managers and flattening their orgs. Markets: When companies like Facebook and Zillow IPO, they turn to this man Tech: How one of the hottest coding startups almost died. Business: Gen Z is turning to blue-collar jobs. But first ...