AI发展态势与核心观点 - AI发展并未减速,而是沿着稳定持续的指数级曲线加速前进,外界感受到的“停滞”源于突破形态的改变,行业从一味做大模型转向构建更聪明、更能思考的模型 [1] - 技术进步总体呈平稳的指数级提升,来源于新发现、算力提升和更好的工程实现,语言模型发展呈S型曲线,预训练处于S曲线上段,扩展定律并未失效 [3] - 新的推理范式处于S曲线下部,在相同成本下能获得比预训练更多的收益,因为还有大量发现待释放 [4] 技术范式演进:从预训练到推理模型 - 预训练依然关键但已不再是唯一引擎,推理模型的出现像是给基础模型加了“第二大脑”,让模型学会推导、验证与自我纠错,而不仅是预测下一个词 [1] - 推理模型在给出最终答案前会形成“思考链条”,并能借助外部工具理清思路,其学习重点是“如何思考”本身,目标是找到更优的推理路径,训练方式从预测下一个词转向强化学习 [8] - 模型通过强化学习训练,学会质疑自己的输出,在觉得可能出错时会重新思考,这种自我验证的能力是从强化学习中自然涌现的 [12] - 从ChatGPT 3.5到当下,核心变化在于模型不再仅依赖记忆权重输出答案,而是能查网页、推理分析后给出正确答案 [5] 模型能力现状与不均衡性 - AI的“智能地形图”极不均匀,最强模型能攻克奥数难题却可能在儿童拼图里数不清物体,能写出超越专业程序员的代码却仍会误判照片的空间关系 [1] - 推理训练主要依赖科学领域数据,远不如预训练的数据广泛,导致模型能力很不均衡,某些方面极其出色但相邻领域却表现不佳 [22] - 多模态能力发展面临挑战,模型在处理图像和声音方面远不如处理文本成熟,视觉任务的基础识别不够稳健,跨模态的语义对齐是核心难题 [6][24] - 模型能解出数学奥赛题,却可能做不出一年级的数学题,而人类只需十秒就能解决,暴露了推理模型在将文本中学到的思维链策略自动迁移到视觉输入上的根本局限 [22][24] 工程挑战与优化方向 - 大量明显需要改进的地方属于工程层面问题,包括实验室基础设施和代码优化、训练方法中强化学习比预训练更棘手、数据质量是瓶颈 [6] - 数据质量是瓶颈,过去使用Common Crawl等互联网原始数据仓库需大量清洗工作,如今大公司设有专门团队提升数据质量,合成数据正在兴起但工程实现细节非常重要 [6] - 多模态推理的改进方向明确,但要取得实质突破可能需要从头开始训练新一代基础模型,这意味着数月时间和巨额资源的投入 [6] - 当前讨论的问题包括多模态推理都是可解的工程挑战而非根本性理论障碍,推理模型的“锯齿状”能力曲线会随着训练和蒸馏逐渐减小 [25] 成本效率与商业化现实 - 面对上亿级用户,成本效率已压过算力堆叠,模型蒸馏从“可选项”变为“必需品”,能否让小模型复现大模型的智慧决定了AI能否真正普及 [1] - ChatGPT拥有十亿用户,每天产生海量对话需求,需要大量GPU资源支撑,用户不愿意为每次对话支付过高费用,迫使公司开发更经济的小模型 [17] - 技术产品化后必须考虑成本,行业不再只追求最大模型,而是努力用更小更便宜的模型提供同等质量,这种降本增效的压力非常现实 [17] - 蒸馏技术重新受到重视,通过将大模型的知识提炼到小模型中,既能保证质量又能控制成本,训练超大模型仍然是蒸馏优质小模型的基础 [17] 研究资源分配与内部组织 - GPU分配主要基于技术需求,目前预训练消耗的GPU最多,资源优先分配给它,强化学习和视频模型对GPU的需求也在快速增长 [15] - 大多数实验室都在做类似工作,如改进多模态模型、提升推理能力、优化预训练或基础设施,通常有专门团队负责这些方向,人员会流动 [15] - 预训练在技术上已进入平稳发展期,投入更多算力仍能提升效果,虽然回报不如推理技术显著,但确实能增强模型能力,值得持续投入 [16] 未来发展方向与突破领域 - 多模态推理正在成熟,当AI能同时理解图像和语言,就会真正赋能机器人和科研领域,它不再只是猜测文字,而是开始在脑子里模拟真实世界的运作逻辑 [29] - 科学领域可能最先被颠覆,语言模型不再只分析数据,而是能主动提出猜想、设计实验、解读结果,到2026年底可能会在顶级期刊上看到第一篇由AI提出核心假设、人类主要做验证的论文 [29] - “自主研究”正在模糊训练和推理的边界,模型能主动设计实验、写代码、分析结果,甚至生成自己的训练数据,形成自我提升的循环 [28] - 真正的AGI里程碑是模型能自主发现新算法,而不只是完成现有任务,这需要强化学习能支持“探索未知”,而不仅限于可验证的任务 [28]
AI到顶了?OpenAI首席科学家否认,行业从堆算力转向追求智能密度
36氪·2025-12-01 08:15