Transformer作者重磅预言：AI无寒冬，推理革命引爆万亿市场

AI行业技术范式转移 - Transformer架构共同作者Łukasz Kaiser认为，推理模型正引发AI领域重大的范式转移，这被视为继2017年Transformer之后最重大的突破[3] - 推理模型具备自我反思、动态分配计算资源、调用外部工具及生成并筛选多条推理路径的能力，完全不同于GPT-4这类纯自回归大语言模型[19] - 在绝大多数推理密集型任务中，OpenAI的首个推理模型o1显著优于当时最强的通用模型GPT-4o，尤其在数学、程序分析等结构化任务上效果明显[21][23] AI技术发展瓶颈与核心制约因素 - AI未来一两年极速跃升的瓶颈不在于算法，而在于GPU计算能力与能源供应，这是当前所有实验室面临的根本性制约[1][17] - 推理模型所需训练数据量比传统模型少几个数量级，但对算力的需求巨大，目前缺乏足够的算力支撑其并行开展更多实验[17] - 通用的互联网数据基本上已被使用完，谁也无法轻易获得比这多得多的数据，纯粹的Scaling在经济上已不可行[35] 行业内对AGI发展路径的争论 - 强化学习之父Richard Sutton与图灵奖得主Yann LeCun等专家认为大语言模型已走入死胡同，其改进能力存在极限，且这个极限远比众所周知的要近[11][13] - OpenAI等公司推动的“LLM+数据+GPU+能源”的AGI路径被部分经济学家认为已接近成功，甚至有观点认为2025年4月16日就是AGI日[4][7] - Łukasz Kaiser反驳“LLM是死胡同”的观点，认为推理模型代表着根本性突破，并指出AI能力会持续增强，但短期内物理世界相关领域仍将存在人类不可替代的工作[17][27] 推理模型的技术特点与应用前景 - 推理模型不急于生成响应，而是先进行推理、检索、调用工具等“深度思考”过程，像人类在回答问题前的犹豫，从而能真正“搞定一件事”[23] - 该方法已能真正胜任职场中的某些工作任务，并且能持续工作数小时产出有价值成果，例如在编程领域能理解大型代码库、进行代码审查、发现漏洞甚至安全威胁[28][31] - 代码模型在三个月前还只是辅助工具，但现在却能真正处理复杂代码库，展现出指数级进步[34] 多模态学习与未来研究方向 - 当前多模态训练已取得成功，模型能将音频编码成离散的音频token，图像被分成多个图像块进行编码，并通过预测下一个token来进行训练[40] - 视频训练虽然数据量巨大，但大部分信息对推理帮助有限，AI需要学会“挑重点”，只提取有意义的部分如运动、因果、变化[42] - 语言模型已掌握对抽象世界的建模，最欠缺的是对人类最熟悉的物理世界的理解，填补这个空白是实现实用机器人的关键突破[42] AI行业未来发展趋势预测 - Łukasz Kaiser认为AI冬天不会来临，未来一两年内改进可能非常猛烈，之后世界将翻天覆地[39] - 未来推理模型需要实现“多线并行思考”，例如同时运行多个思维链然后让它们“讨论”并选出最佳答案，GPT-5 Pro已初步实现这一点[39] - 谷歌的Gemini 1.5 Robotics已开始结合推理与视觉，未来机器人将具备“快反应系统”和“慢思考系统”的结合[43][45]