扩展定律
搜索文档
喝点VC|YC对谈Anthropic预训练负责人:预训练团队也要考虑推理问题,如何平衡预训练和后训练仍在早期探索阶段
Z Potentials· 2025-10-16 11:03
预训练核心策略 - 预训练的核心目标是推动损失函数下降,这是模型开发中持续追求的唯一目标[5] - 自回归语言建模(预测下一个词)已成为主流预训练方法,其优势在于能从互联网海量无标签数据中自动生成密集的学习信号,并且其损失函数能直接反映模型生成文本的核心能力[8][9] - 扩展定律表明,模型性能(损失值下降)与计算资源、数据量或模型参数的增加之间存在可预测的幂律关系,这构成了技术商业正反馈循环的基础:更好的模型带来产品收入,进而投入更多算力训练更优模型[9][10] - 在模型架构选择上,只要不出现极端配置错误,持续增加算力对模型性能的提升作用远大于超参数微调带来的边际效益[11][13] 大规模工程挑战 - 大规模模型训练面临复杂的工程难题,需要将计算任务在成千上万个GPU上进行分布式并行,涉及数据并行、流水线并行和模型并行等多种模式的极致优化[18][19] - 硬件层面的极限调试至关重要,包括需要理解芯片的物理布局、机房网络延迟,甚至通过聚类算法来推测和解决由硬件故障或连接问题导致的训练瓶颈[17][28] - 随着算力规模从单个机房扩展到整个园区,系统可靠性面临严峻挑战,最小的硬件故障(如单块GPU损坏、供电波动或电容不足)都可能导致耗时数月的训练任务崩溃[28][29] - 技术栈的复杂性要求团队具备全栈调试能力,问题可能出现在从高级机器学习动态到底层网络协议或芯片架构的任何层面,而能跨越多层级进行问题诊断的人才非常稀缺[66] 数据与评估瓶颈 - 高质量数据的可用性是一个核心挑战,尽管互联网数据量巨大,但其有用部分的规模增长可能慢于算力增长,且数据的质量与数量需要权衡[35][36] - 使用AI模型生成的数据来训练新模型存在根本性风险:新模型只会学习到原始模型的分布,如果原始分布存在错误,新模型将无法接近真实知识,这可能导致性能瓶颈或模式崩塌[43][44] - 损失函数仍然是评估预训练效果最直接有效的指标,理想的评估标准应同时满足三点:反映真实关心目标、低噪声、快速易用,其中明确“真实关心目标”是最困难的部分[47][48] - 对于AGI级别的评估,需要设计能捕捉复杂智能行为的任务(如模拟医生与患者的长时间对话),但这类评估通常噪声高、执行慢,难以直接用于快速迭代[50] 对齐与组织管理 - AI对齐的核心问题是让模型的目标与人类目标一致,尤其是在模型比人类更聪明时,当前主要通过后训练(如强化学习)快速迭代调整模型行为,而非在预训练阶段直接嵌入[51][56] - 在组织设计上,需要避免因团队分工(如预训练团队与后训练团队)而导致科学决策被团队本位主义绑架,应保持合作以共同产出最优模型[34][35] - 团队构成以工程能力为核心,最需要的是能解决极难工程问题、实现大规模系统正确性的工程师,而非仅专注于发表论文的研究人员[67][68] - 预训练团队需要与推理团队紧密合作,在模型设计阶段就考虑推理效率,避免模型过于庞大或引入不必要的通信步骤影响最终用户体验和服务的经济性[70][71][73] 未来发展方向 - 当前AI研究最大的瓶颈之一是计算资源受限,而非算法突破,这限制了模型训练和实验迭代的速度[5][74] - 未来可能出现范式转变,例如向强化学习倾斜更多算力,但最令人担忧的风险是难以察觉的代码错误,这些细微的bug可能使耗时数月的训练任务失效且难以排查[62][63] - 对于创业公司,机会在于利用当前模型智能,专注于能快速落地的具体应用,但需避免构建过于复杂的中间层(脚手架),因为下一代更强大的模型可能使其变得多余[76] - 行业存在对专业化工具和服务的需求,例如能精确检测芯片计算错误的服务,或能帮助快速扩展AI团队、管理组织问题的解决方案[77]
市场激辩“AI泡沫”,德银劝投资者:别试图“择时”,长期持有是最佳策略
华尔街见闻· 2025-10-05 15:28
AI投资规模与融资动态 - 科技巨头正进行前所未有的AI基础设施投资,OpenAI宣布5000亿美元Stargate计划,Meta承诺投入数千亿美元建设数据中心[1][2] - OpenAI预计将在AI基础设施上花费数万亿美元,并考虑债务融资,预计到2029年将消耗1150亿美元现金[2] - 英伟达同意向OpenAI数据中心建设投资多达1000亿美元,Meta获得260亿美元融资,Vantage Data Centers获得超过220亿美元贷款[2] - 其他公司积极参与,Nebius与微软签署194亿美元基础设施协议,Nscale与英伟达、OpenAI和微软合作建设数据中心[4][5] 市场对AI泡沫的争论 - 德意志银行研究显示关于"AI泡沫"的网络搜索量从峰值大幅下降至15%,媒体对AI投资担忧评分从7.3分降至5.1分[13] - 贝佐斯认为当前AI投资是"好的泡沫",即便破裂也将为社会带来长期利益,类似互联网泡沫留下的基础设施遗产[1][11] - 高盛CEO所罗门警告大量涌入AI领域的资本可能无法获得预期回报,预计未来12-24个月可能出现股市回调[1][13] - 对冲基金Greenlight Capital创始人David Einhorn表示极端投资数字可能导致大量资本被摧毁[10] AI技术发展与回报挑战 - OpenAI首席执行官承认在实现通用人工智能方面"缺少重要东西",GPT-5模型发布后反响平平[8] - 麻省理工学院研究发现95%的组织在AI投资上未获得任何回报[6] - 哈佛和斯坦福研究人员指出员工使用AI可能让大型组织每年损失数百万美元生产力[7] - DeepSeek发布低成本AI模型曾引发科技股万亿美元抛售,英伟达单日暴跌17%[8] 投资策略建议 - 德意志银行强调识别泡沫几乎不可能,泡沫通常以非线性的方式发展,在互联网泡沫期间纳斯达克曾出现7次10%以上回调[15] - 历史数据显示,如果1996年初投资1万美元并持有至今年6月,价值将超过17万美元,但错过最佳10个交易日回报将减半,错过最佳20个交易日回报仅为四分之一[17] - 最佳和最差交易日往往相邻出现,在1996年至今年6月期间最佳的10个交易日中,有5个出现在最差10个交易日的一周内,表明精确择时极其困难[19] - 建议采用长期持有策略,以获取补偿股权投资风险所需的风险溢价[19]
扎克伯格“暴利抢人”继续,挖走OpenAI前首席科学家创业项目CEO
36氪· 2025-07-04 17:55
Safe Superintelligence(SSI)人事变动 - SSI联合创始人丹尼尔·格罗斯于6月29日离职并加入Meta担任AI产品部门负责人 [2] - 创始人伊利亚·苏茨克维亲自出任CEO 另一位联合创始人丹尼尔·利维升任公司总裁 [2] - 公司拒绝Meta的收购意向 强调专注于开发安全的超智能技术 [2][4] SSI公司背景与发展 - 公司成立于2024年6月 专注于开发安全的超智能技术 [4] - 2025年4月融资后估值达320亿美元 获得Alphabet和英伟达投资 [4] - 创始人苏茨克维是扩展定律的早期倡导者 但认为单纯扩大模型规模已不是AI发展的最佳路径 [4] Meta的AI人才战略 - Meta展开数百亿美元AI招聘潮 包括向Scale AI投资140亿美元并吸引其创始人加入 [5] - 公司计划通过挖掘顶尖人才解决AI发展困境 但Llama 4 Behemoth模型开发进度因技术问题推迟 [5] - Meta失去Llama研究论文14名原始作者中的11名 工程师陷入"恐慌模式" [5] AI行业人才争夺战 - Meta与OpenAI展开激烈人才竞争 OpenAI CEO指责Meta提供巨额薪酬挖角 [6] - 传闻Meta为挖高级人才开出1亿美元奖金 但遭新聘研究员否认 [6] - OpenAI紧急调整薪酬策略 首席研究官表达强烈不安 [7] Meta的技术布局与挑战 - Meta明确招聘推理专家特拉皮特·班萨尔以弥补技术短板 [7] - 公司已集结强大AI团队 但混乱做法引发对其能否维持领导地位的质疑 [7] - 行业人力资本竞争正在重塑AI领域格局 [7]