2025年大语言模型年度回顾核心观点 - 2025年标志着大语言模型训练哲学从“概率模仿”向“逻辑推理”的决定性跨越,其核心驱动力是可验证奖励强化学习的成熟[1] - 行业正处于从“模拟人类智能”向“纯粹机器智能”跨越的临界点,未来竞争将转向对“如何让AI高效思考”这一核心逻辑范式的深度挖掘[2] - 尽管行业进步迅猛,但人类目前对这一新计算范式潜力的挖掘尚不足10%,未来发展空间极其广阔[2] 技术范式转移:可验证奖励强化学习 - 基于可验证奖励的强化学习在2025年脱颖而出,成为大语言模型生产堆栈中事实上的核心新阶段,它通过在数学、代码等可自动验证奖励的环境中训练,迫使模型自发形成近似人类“推理”的策略[4] - 该技术具备极高的“能力/成本比”,甚至占用了原本用于预训练的大量计算资源,成为2025年模型能力提升的主要引擎[5] - 与监督微调、基于人类反馈的强化学习等微调阶段不同,可验证奖励强化学习针对客观奖励函数开展训练,支持更长周期的优化过程,并带来了通过生成更长推理轨迹来灵活调控计算量的新调节维度[4][5] - OpenAI的o1模型是该技术的首次公开亮相,而2025年初o3模型的发布成为行业能力发生质性飞跃的明确拐点[5] 智能本质与性能特征 - 大语言模型的智能本质被比喻为“被召唤出的幽灵”,而非“逐步进化成长的动物”,其所有技术组成部分都与生物智能的演化逻辑截然不同[6] - 由于优化目标(模仿人类文本、在数学问题中获取奖励等)与人类大脑不同,大语言模型在可验证奖励强化学习普及的领域能力会出现“爆发式增长”,整体呈现出“锯齿状性能特征”:既是多领域天才,也可能在基础常识上存在认知缺陷[7][8] - 2025年,行业对各类基准测试失去了兴趣与信任,因为其构建逻辑基于“可验证环境”,极易被可验证奖励强化学习或合成数据生成等方式“攻击”,“针对测试集进行定向训练”已成为一种新型技术操作[8] 应用层演进:垂直整合与智能体 - 以Cursor为代表的大语言模型应用揭示了一个全新层级,其核心价值在于为特定垂直领域整合并编排大语言模型调用逻辑,包括处理上下文工程、编排复杂调用图、提供场景化图形界面及调节AI自主权[9] - 大语言模型实验室倾向于培育“通识能力极强的大学生”式模型,而垂直应用则通过整合私有数据、传感器等,对这些模型进行针对性组织与微调,使其成为特定领域的“专业团队”[9] - Claude Code的问世令人信服地展现了智能体的核心能力,其关键创新在于本地化运行模式,直接部署在用户电脑中,访问本地私有环境与数据,重塑了AI交互范式,使其成为“栖息”在用户电脑中的智能实体[9][10] 氛围编程的兴起 - 2025年,AI突破关键能力阈值,使得“氛围编程”兴起,普通人仅凭自然语言就能构建功能强大的程序,编程正从专业人士的专属技能转变为普通人的通用能力[11] - 与以往技术不同,普通人从大语言模型中获得的收益超过了专业人士、企业与政府,氛围编程不仅赋予普通人技术创作权,也让专业开发者能高效实现原本因门槛或成本不会尝试的项目[11] - 在氛围编程模式下,代码变得廉价、即时、可塑,支持“用完即弃”的轻量化使用场景,这将彻底改造软件开发生态并重新定义相关职业的核心价值[12] 大语言模型图形界面的雏形 - 与大语言模型的“文本对话交互”被视为类似20世纪80年代向电脑终端输入指令的初级模式,并非人类最易接受的交互形式[13] - 未来的“大语言模型图形界面”应采用人类偏好的可视化形态进行交互,如图像、信息图、幻灯片、白板、动画/视频等,当前趋势的早期萌芽是表情符号与标记语言实现的文本视觉化排版[13] - 谷歌Gemini Nano Banana是未来形态的早期雏形,其核心价值在于模型权重中深度融合了文本生成、图像生成与世界知识的联合建模能力[14]
大模型的2025:6个关键洞察,来自OpenAI创始人、AI大神“AK”
36氪·2025-12-22 12:22