自回归建模
搜索文档
喝点VC|YC对谈Anthropic预训练负责人:预训练团队也要考虑推理问题,如何平衡预训练和后训练仍在早期探索阶段
Z Potentials· 2025-10-16 11:03
预训练核心策略 - 预训练的核心目标是推动损失函数下降,这是模型开发中持续追求的唯一目标[5] - 自回归语言建模(预测下一个词)已成为主流预训练方法,其优势在于能从互联网海量无标签数据中自动生成密集的学习信号,并且其损失函数能直接反映模型生成文本的核心能力[8][9] - 扩展定律表明,模型性能(损失值下降)与计算资源、数据量或模型参数的增加之间存在可预测的幂律关系,这构成了技术商业正反馈循环的基础:更好的模型带来产品收入,进而投入更多算力训练更优模型[9][10] - 在模型架构选择上,只要不出现极端配置错误,持续增加算力对模型性能的提升作用远大于超参数微调带来的边际效益[11][13] 大规模工程挑战 - 大规模模型训练面临复杂的工程难题,需要将计算任务在成千上万个GPU上进行分布式并行,涉及数据并行、流水线并行和模型并行等多种模式的极致优化[18][19] - 硬件层面的极限调试至关重要,包括需要理解芯片的物理布局、机房网络延迟,甚至通过聚类算法来推测和解决由硬件故障或连接问题导致的训练瓶颈[17][28] - 随着算力规模从单个机房扩展到整个园区,系统可靠性面临严峻挑战,最小的硬件故障(如单块GPU损坏、供电波动或电容不足)都可能导致耗时数月的训练任务崩溃[28][29] - 技术栈的复杂性要求团队具备全栈调试能力,问题可能出现在从高级机器学习动态到底层网络协议或芯片架构的任何层面,而能跨越多层级进行问题诊断的人才非常稀缺[66] 数据与评估瓶颈 - 高质量数据的可用性是一个核心挑战,尽管互联网数据量巨大,但其有用部分的规模增长可能慢于算力增长,且数据的质量与数量需要权衡[35][36] - 使用AI模型生成的数据来训练新模型存在根本性风险:新模型只会学习到原始模型的分布,如果原始分布存在错误,新模型将无法接近真实知识,这可能导致性能瓶颈或模式崩塌[43][44] - 损失函数仍然是评估预训练效果最直接有效的指标,理想的评估标准应同时满足三点:反映真实关心目标、低噪声、快速易用,其中明确“真实关心目标”是最困难的部分[47][48] - 对于AGI级别的评估,需要设计能捕捉复杂智能行为的任务(如模拟医生与患者的长时间对话),但这类评估通常噪声高、执行慢,难以直接用于快速迭代[50] 对齐与组织管理 - AI对齐的核心问题是让模型的目标与人类目标一致,尤其是在模型比人类更聪明时,当前主要通过后训练(如强化学习)快速迭代调整模型行为,而非在预训练阶段直接嵌入[51][56] - 在组织设计上,需要避免因团队分工(如预训练团队与后训练团队)而导致科学决策被团队本位主义绑架,应保持合作以共同产出最优模型[34][35] - 团队构成以工程能力为核心,最需要的是能解决极难工程问题、实现大规模系统正确性的工程师,而非仅专注于发表论文的研究人员[67][68] - 预训练团队需要与推理团队紧密合作,在模型设计阶段就考虑推理效率,避免模型过于庞大或引入不必要的通信步骤影响最终用户体验和服务的经济性[70][71][73] 未来发展方向 - 当前AI研究最大的瓶颈之一是计算资源受限,而非算法突破,这限制了模型训练和实验迭代的速度[5][74] - 未来可能出现范式转变,例如向强化学习倾斜更多算力,但最令人担忧的风险是难以察觉的代码错误,这些细微的bug可能使耗时数月的训练任务失效且难以排查[62][63] - 对于创业公司,机会在于利用当前模型智能,专注于能快速落地的具体应用,但需避免构建过于复杂的中间层(脚手架),因为下一代更强大的模型可能使其变得多余[76] - 行业存在对专业化工具和服务的需求,例如能精确检测芯片计算错误的服务,或能帮助快速扩展AI团队、管理组织问题的解决方案[77]
视频实时生成可交互! 两位自动驾驶大牛创业世界模型:40毫秒/帧,无需任何游戏引擎,人人免费可玩
量子位· 2025-05-29 15:19
公司概况与融资背景 - 公司Odyssey由Oliver Cameron和Jeff Hawke联合创立,两位创始人均在自动驾驶领域有深厚从业背景[5][28] - 公司成立不到2年,已从EQT Ventures、谷歌GV和Air Street Capital等投资机构筹集2700万美元(约合人民币1.9亿元)[5] - 皮克斯创始人兼图灵奖得主Ed Catmull为公司董事会成员[5] - 公司90%以上的技术人员职业生涯大部分时间在Cruise、Wayve、Waymo和特斯拉等公司从事自动驾驶开发[30] 核心技术:世界模型 - 世界模型与视频模型存在根本区别:世界模型一次预测一帧并对事件做出反应,每个未来都是可能的,且完全互动;视频模型则一次性生成完整视频,结局固定且无互动性[10] - 世界模型能够根据当前状态和用户动作灵活预测下一个状态,支持实时交互,而视频模型适合生成固定帧的视频剪辑[11] - 公司开发了窄分布模型,先在广泛视频数据上预训练,后在特定地点密集视频数据上后训练,以提高模型稳定性和自回归生成持久性[20] - 公司正在开发下一代世界模型以提高泛化能力[21] 技术性能与当前阶段 - AI能以40毫秒/帧的速度实时生成视频,远超人类眨眼所需的100-400毫秒[1] - 当前预览版由美国和欧盟的H100 GPU集群提供算力支持,传输速度为30 FPS,能输出5分钟甚至更长时间的连贯视频[25] - 世界模型目前仍处于起步阶段,最大挑战是自回归建模,即根据先前状态预测未来状态,复杂的状态空间可能导致模型不稳定性[17][18] - 公司承认从开放式真实视频中学习相当困难,因视频内容嘈杂多样、动作连续且不可预测[16] 产品发布与市场定位 - Odyssey产品发布即免费可用,用户可实时观看并与AI生成的世界交互,官方称每小时体验成本为1-2美元[2][6][27] - 公司相信从几十年真实生活视频中学习像素和动作能提升模型上限,因真实世界视频具有更丰富的视觉信息和不受限制的动作类型[15] - 目前已有超过10家车企和自动驾驶公司提出世界模型概念,包括特斯拉、蔚来、理想、地平线、商汤等[38] - 自动驾驶车企被视为孕育世界模型的天然温床[40]