可验证奖励强化学习(RLVR)
搜索文档
大语言模型2025这一年
中国经营报· 2025-12-30 17:40
行业整体发展态势 - 2025年大语言模型行业处于朝气蓬勃的发展状态,国内外头部厂商及专业公司在技术、应用和生态上持续竞争[1] - 互联网巨头(如字节跳动、阿里巴巴、百度、腾讯)在大模型应用方面相比专业公司具有天然优势,更懂得大规模获取用户和解决实际问题[1] - 行业未来发展可概括为“更聪明、更垂直、更贴近生活”,正从技术突破走向深度应用[7] 主要厂商动态与竞争格局 - **DeepSeek**:凭借开源策略和推理功能成为黑马,用户增长迅速[1]。其DeepSeek-V3(2024年12月发布)为开源标杆,采用MLA和MoE架构,总参数达6710亿,每个token激活370亿参数,在数学推理和代码生成中表现突出[2]。DeepSeek-R1(2025年1月发布)聚焦推理,性能与OpenAI o1相当[2]。后续推出DeepSeek-V3.2系列,旨在平衡推理与输出长度及探索能力边界[3] - **字节跳动(豆包)**:已成为国内AI领域头部玩家,日均token使用量突破50万亿,稳居中国第一、全球第三[3]。技术突破包括采用MoE架构将万亿参数模型推理成本降至行业平均水平的60%,性能杠杆提升至7倍[3]。多模态融合方案在汽车工厂将缺陷检测响应时间从分钟级缩短至秒级[3] - **腾讯(混元)**:2025年发展路径清晰,从技术攻坚到生态应用铺开,再到“世界模型”战略卡位[2]。推出TurboS(快思考)与T1(慢思考)组合以增强推理与响应能力[2] - **阿里巴巴(千问)**:Qwen2.5-VL-32B-Instruct采用统一Transformer架构,实现“万物皆可token化”,跨模态生成准确性提升40%以上,在多模态基准测试中达到业界领先水平[4] - **智谱AI**:实现参数规模从5万亿到10万亿级的翻倍增长,推理精度提升至98.5%[4]。新发布的GLM-4.7在编程能力上表现突出,在相关榜单中拿下开源模型第一[4] - **其他厂商**:“大模型四小龙”(智谱AI、月之暗面、百川智能、MiniMax)均推出了特色产品[4]。OpenAI的o3模型在可验证任务中表现突出,GPT-4o能处理多模态信息且成本更低、响应更快[7] 技术发展趋势 - **推理能力**:成为关键竞争点,如DeepSeek-R1、腾讯混元的快慢思考组合[2] - **模型架构**:混合专家模型(MoE)架构被广泛采用以降低推理成本、提升性能[3][4] - **多模态融合**:成为重要方向,如豆包的“视觉—语言—控制”三模态方案、千问的统一架构与跨模态对齐[3][4] - **技术前沿**:可验证奖励强化学习(RLVR)成为核心,让AI实现从“模仿”到“自主思考”[7]。实时语音模型实现端到端语音理解与生成[3] 应用场景与生态建设 - **应用趋势**:从通用走向垂直领域专业化,整合编排成为新趋势,例如通过优化提示词将通用模型改造成垂直领域的“专业团队”[7] - **智能体发展**:本地化智能体(如Claude Code)可访问本地数据,实现低延迟交互,实用价值高[8] - **具体应用方向**:专家更看重有实际应用场景的智能体应用,例如在医疗、图文生成等行业[6]。未来重要应用方向包括虚拟内容生成(图文、视频)和具身智能领域[9] - **交互革新**:可视化交互成为新趋势,大语言模型将告别纯文本时代[8] - **开发者工具**:编程门槛降低,“氛围编程”兴起,普通人可用自然语言构建复杂程序[8] 未来挑战与机遇 - **发展瓶颈**:数据多样性与质量是主要瓶颈,需提升数据来源和标注质量[8]。模型可解释性和透明度不足,需加强监管[8]。技术标准与规范缺乏,需制定统一标准[8] - **企业战略方向**:专家认为大模型企业未来有两个主要发展方向:一是在基础技术能力上持续增强,代表中国与国际领先者竞争;二是在应用层面深入,特别是在虚拟内容生成和具身智能等国家鼓励的方向[9] - **其他进步领域**:语言翻译和本地化将显著进步,隐私保护技术将有助于建立用户信任[8]
大模型的2025:6个关键洞察
36氪· 2025-12-23 19:39
行业核心范式转移 - 2025年标志着AI训练哲学从单纯的“概率模仿”向“逻辑推理”的决定性跨越 [1] - 这一转变的核心动力源于可验证奖励强化学习(RLVR)的成熟,它通过数学与代码等客观反馈环境,迫使模型自发生成类似于人类思维的“推理痕迹” [1] - 长周期的强化学习已经开始蚕食传统的预训练份额,成为提升模型能力的新引擎 [1] 技术路径:可验证奖励强化学习(RLVR) - 基于可验证奖励的强化学习在2025年脱颖而出,成为大语言模型生产堆栈中事实上的核心新阶段 [4] - 通过在数学、代码谜题等大量可自动验证奖励的环境中训练,模型会自发形成人类视角下近似“推理”的策略,学会将复杂问题拆解为中间计算步骤 [4] - 与监督微调、基于人类反馈的强化学习等计算量相对较小的微调阶段不同,RLVR针对客观奖励函数开展训练,支持更长周期的优化过程 [4] - RLVR具备极高的“能力/成本比”,甚至占用了原本用于预训练的大量计算资源,2025年大语言模型能力的提升主要源于各实验室对这一新阶段“存量潜力”的挖掘 [5] - 2025年模型参数规模未发生显著变化,但强化学习训练的周期大幅延长 [5] - RLVR带来了全新的调节维度:通过生成更长的推理轨迹、增加模型“思考时间”,可灵活调控测试阶段的计算量,进而实现能力提升 [5] - OpenAI在2024年底推出的o1模型是RLVR技术的首次公开亮相,而2025年初o3模型的发布成为明确的拐点,使人们能直观感受到大语言模型能力的质性飞跃 [5] 智能本质与性能特征 - 大语言模型是智能空间中一类全新的实体,其技术栈的所有组成部分都与生物智能的演化逻辑截然不同,可比喻为“被召唤出的幽灵”而非“逐步进化成长的动物” [6] - 随着RLVR在可验证领域的普及,大语言模型在这些特定领域的能力会出现“爆发式增长”,整体呈现出“锯齿状性能特征”:既是精通多领域的天才博学家,也可能在基础常识上存在认知缺陷 [8] - 2025年对各类基准测试(Benchmarks)彻底失去了兴趣与信任,因为基准测试极易被RLVR训练或合成数据生成等方式“攻击”,“针对测试集进行定向训练”已成为一种新型技术操作 [8] 应用层演进:垂直整合与智能体 - 像Cursor这样的大语言模型应用,揭示了一个全新层级,核心价值在于为特定垂直领域整合并编排大语言模型调用逻辑 [9] - 具体体现在处理“上下文工程”、将多个大语言模型调用编排为有向无环图(DAG)、为“人机回圈”提供适配的图形用户界面、提供可调节的“自主权滑块” [9] - 行业讨论围绕大语言模型实验室是否会通吃所有应用场景,观点是大语言模型实验室培育“通识能力极强的大学生”式模型,而大语言模型应用则通过整合私有数据、传感器、执行器及反馈闭环,驱动它们成为特定垂直领域的“专业团队” [9] - Claude Code(CC)的问世令人信服地展现了大语言模型智能体(Agent)的核心能力,能够以循环方式串联工具使用与推理过程,完成长时间跨度的问题求解 [10] - CC的显著特点是其本地化运行模式:直接部署在用户电脑中,可访问本地私有环境、数据与上下文,这比云端运行的智能体集群在当前更具实用价值 [10] - Anthropic将CC封装为极简的命令行界面(CLI)形式,重塑了AI的用户认知,使其成为“栖息”在用户电脑中的智能实体,标志着一种全新的AI交互范式诞生 [11] 开发范式变革:氛围编程 - 2025年,AI突破了关键能力阈值,使得人们仅凭自然英语就能构建各类功能强大的程序,即“氛围编程” [12] - 氛围编程让编程不再是高训练门槛的专业技能,成为普通人也能掌握的通用能力,普通人从大语言模型中获得的收益超过专业人士、企业与政府 [12] - 氛围编程让专业开发者能够高效实现原本因技术门槛或成本问题不会尝试的软件项目,代码变得廉价、即时、可塑,支持“用完即弃”的轻量化使用场景 [13] - 氛围编程将彻底改造软件开发生态,并重新定义相关职业的核心价值 [13] 交互界面演进:大语言模型图形界面(LLM GUI) - 与大语言模型的“文本对话交互”类似20世纪80年代向电脑终端输入指令的操作模式,并非人类最易接受的交互形式 [14] - 人类更倾向于通过视觉化、空间化的方式获取信息,因此大语言模型也应采用人类偏好的格式进行交互——通过图像、信息图、幻灯片、白板、动画/视频、网页应用等可视化形态 [14] - 谷歌Gemini Nano Banana是2025年最具突破性、最可能引发范式转移的模型之一,是未来“大语言模型图形界面”的早期雏形 [14][15] - 其核心价值不仅在于图像生成能力本身,而在于模型权重中深度融合的文本生成、图像生成与世界知识的联合建模能力 [15] 行业现状与未来展望 - 当前的大语言模型既展现出远超预期的智能水平,也存在令人意外的认知短板,但已具备极高的实用价值 [15] - 即便以当前的能力水平,整个行业对大语言模型潜力的开发仍不足10% [2][15] - 该领域仍有无数创新想法等待探索,从概念层面来看,发展空间依然极为广阔 [15] - 随着RLVR等技术的普及,2026年的AI竞争将不再局限于算力的军备竞赛,而是转向对“如何让AI高效思考”这一核心逻辑范式的深度挖掘 [2]
大模型的2025:6个关键洞察
腾讯研究院· 2025-12-23 16:33
文章核心观点 - 2025年标志着大语言模型训练哲学从“概率模仿”向“逻辑推理”的决定性跨越,其核心驱动力是基于可验证奖励的强化学习的成熟[2] - 行业对大语言模型潜力的挖掘尚不足10%,正处于从“模拟人类智能”向“纯粹机器智能”跨越的临界点,未来竞争将转向对核心逻辑范式的深度挖掘[3][4][25] 基于可验证奖励的强化学习 - 基于可验证奖励的强化学习在2025年脱颖而出,成为大语言模型生产堆栈中事实上的核心新阶段,它通过在数学、代码等可自动验证奖励的环境中训练,迫使模型自发形成近似人类“推理”的策略[6][7] - 该技术具备极高的“能力/成本比”,占用了原本用于预训练的大量计算资源,成为2025年模型能力提升的主要来源,模型参数规模未显著变化,但强化学习训练周期大幅延长[8] - OpenAI的o1模型是该技术的首次公开亮相,而2025年初o3模型的发布成为直观感受模型能力质性飞跃的明确拐点[9] 智能的本质与性能特征 - 大语言模型的智能形态本质被比喻为“被召唤出的幽灵”,而非“逐步进化成长的动物”,其优化目标与生物智能演化逻辑截然不同[10][11] - 在可验证奖励强化学习的驱动下,模型能力呈现“锯齿状性能特征”:在特定领域能力“爆发式增长”,表现如天才博学家,但在基础常识上可能脆弱如孩童,甚至可能被“越狱指令”诱导[12] - 2025年行业对各类基准测试失去兴趣与信任,因为其构建逻辑基于“可验证环境”,极易被针对性训练“攻击”,“针对测试集进行定向训练”已成为一种新型技术操作[12][13] 应用层的新范式与竞争格局 - Cursor的爆发式增长揭示了大语言模型应用的一个全新层级,其核心价值在于为特定垂直领域整合并编排大语言模型调用逻辑,包括处理上下文工程、编排复杂调用、提供人机回圈界面及自主权控制[14][15] - 行业围绕该应用层的“厚度”展开讨论:大语言模型实验室倾向于培育“通识能力极强的大学生”式模型,而垂直应用则通过整合私有数据、传感器等,将这些模型组织成特定领域的“专业团队”[15] 本地化智能体的实用化趋势 - Claude Code的问世令人信服地展现了大语言模型智能体的核心能力,其关键特点是本地化运行模式,可直接访问用户电脑的本地环境、私有数据与上下文[16][17] - 核心差异并非运算位置,而是对已启动设备、预装环境、本地上下文、私有数据及低延迟交互的利用,这重塑了AI的用户认知,使其从需要主动访问的网站转变为“栖息”在用户电脑中的智能实体,标志一种全新交互范式的诞生[18] 氛围编程的兴起与影响 - 2025年,AI突破关键能力阈值,使得“氛围编程”兴起,普通人仅凭自然英语就能构建功能强大的程序,编程成为通用能力[19][20] - 大语言模型正在逆转技术普及的传统逻辑,普通人从中获得的收益超过专业人士、企业与政府,氛围编程让代码变得廉价、即时、可塑,支持“用完即弃”的轻量化使用场景,将彻底改造软件开发生态并重新定义相关职业的核心价值[20][21] 大语言模型图形界面的演进 - 与大语言模型的“文本对话交互”类似20世纪80年代的电脑终端指令模式,并非人类最易接受的交互形式,人类更倾向于通过视觉化、空间化的方式获取信息[23][24] - 大语言模型应采用人类偏好的格式进行交互,如图像、信息图、幻灯片等可视化形态,谷歌Gemini Nano Banana是未来“大语言模型图形界面”的早期雏形,其核心价值在于文本生成、图像生成与世界知识的联合建模能力[24]
大模型的2025:6个关键洞察,来自OpenAI创始人、AI大神“AK”
36氪· 2025-12-22 12:22
2025年大语言模型年度回顾核心观点 - 2025年标志着大语言模型训练哲学从“概率模仿”向“逻辑推理”的决定性跨越,其核心驱动力是可验证奖励强化学习的成熟[1] - 行业正处于从“模拟人类智能”向“纯粹机器智能”跨越的临界点,未来竞争将转向对“如何让AI高效思考”这一核心逻辑范式的深度挖掘[2] - 尽管行业进步迅猛,但人类目前对这一新计算范式潜力的挖掘尚不足10%,未来发展空间极其广阔[2] 技术范式转移:可验证奖励强化学习 - 基于可验证奖励的强化学习在2025年脱颖而出,成为大语言模型生产堆栈中事实上的核心新阶段,它通过在数学、代码等可自动验证奖励的环境中训练,迫使模型自发形成近似人类“推理”的策略[4] - 该技术具备极高的“能力/成本比”,甚至占用了原本用于预训练的大量计算资源,成为2025年模型能力提升的主要引擎[5] - 与监督微调、基于人类反馈的强化学习等微调阶段不同,可验证奖励强化学习针对客观奖励函数开展训练,支持更长周期的优化过程,并带来了通过生成更长推理轨迹来灵活调控计算量的新调节维度[4][5] - OpenAI的o1模型是该技术的首次公开亮相,而2025年初o3模型的发布成为行业能力发生质性飞跃的明确拐点[5] 智能本质与性能特征 - 大语言模型的智能本质被比喻为“被召唤出的幽灵”,而非“逐步进化成长的动物”,其所有技术组成部分都与生物智能的演化逻辑截然不同[6] - 由于优化目标(模仿人类文本、在数学问题中获取奖励等)与人类大脑不同,大语言模型在可验证奖励强化学习普及的领域能力会出现“爆发式增长”,整体呈现出“锯齿状性能特征”:既是多领域天才,也可能在基础常识上存在认知缺陷[7][8] - 2025年,行业对各类基准测试失去了兴趣与信任,因为其构建逻辑基于“可验证环境”,极易被可验证奖励强化学习或合成数据生成等方式“攻击”,“针对测试集进行定向训练”已成为一种新型技术操作[8] 应用层演进:垂直整合与智能体 - 以Cursor为代表的大语言模型应用揭示了一个全新层级,其核心价值在于为特定垂直领域整合并编排大语言模型调用逻辑,包括处理上下文工程、编排复杂调用图、提供场景化图形界面及调节AI自主权[9] - 大语言模型实验室倾向于培育“通识能力极强的大学生”式模型,而垂直应用则通过整合私有数据、传感器等,对这些模型进行针对性组织与微调,使其成为特定领域的“专业团队”[9] - Claude Code的问世令人信服地展现了智能体的核心能力,其关键创新在于本地化运行模式,直接部署在用户电脑中,访问本地私有环境与数据,重塑了AI交互范式,使其成为“栖息”在用户电脑中的智能实体[9][10] 氛围编程的兴起 - 2025年,AI突破关键能力阈值,使得“氛围编程”兴起,普通人仅凭自然语言就能构建功能强大的程序,编程正从专业人士的专属技能转变为普通人的通用能力[11] - 与以往技术不同,普通人从大语言模型中获得的收益超过了专业人士、企业与政府,氛围编程不仅赋予普通人技术创作权,也让专业开发者能高效实现原本因门槛或成本不会尝试的项目[11] - 在氛围编程模式下,代码变得廉价、即时、可塑,支持“用完即弃”的轻量化使用场景,这将彻底改造软件开发生态并重新定义相关职业的核心价值[12] 大语言模型图形界面的雏形 - 与大语言模型的“文本对话交互”被视为类似20世纪80年代向电脑终端输入指令的初级模式,并非人类最易接受的交互形式[13] - 未来的“大语言模型图形界面”应采用人类偏好的可视化形态进行交互,如图像、信息图、幻灯片、白板、动画/视频等,当前趋势的早期萌芽是表情符号与标记语言实现的文本视觉化排版[13] - 谷歌Gemini Nano Banana是未来形态的早期雏形,其核心价值在于模型权重中深度融合了文本生成、图像生成与世界知识的联合建模能力[14]
近两百万人围观的Karpathy年终大语言模型清单,主角是它们
机器之心· 2025-12-21 11:01
2025年大语言模型(LLM)发展的核心观点 - 2025年是大语言模型快速演进、重磅事件密集出现的一年,行业格局发生了真正的改变[2][6] - 大语言模型正在显现出一种全新的智能形态,其既比预期的聪明得多,又比预期的愚蠢得多[37] - 大语言模型已经极其有用,但行业甚至还没有发挥出它们10%的潜力[38] 可验证奖励强化学习(RLVR)成为新标配 - 2025年初,几乎所有实验室的LLM生产训练流程都包含预训练、监督微调(SFT)和基于人类反馈的强化学习(RLHF)[8][9] - 2025年,一种新的训练阶段——可验证奖励强化学习(RLVR)——浮出水面并迅速成为事实上的标配[10] - RLVR的核心是让模型在可自动验证的环境中接受强化学习训练,模型能自发学会类似“推理”的策略,如将复杂问题拆解成中间步骤并逐步逼近答案[10] - 与SFT或RLHF这类“计算量相对较小的薄层微调”不同,RLVR使用客观、难以被投机取巧的奖励函数,使得训练可以持续非常久[10] - RLVR提供了极高的能力/成本比,大量吞噬了原本准备用于预训练的算力[10] - 2025年的大部分能力提升,并非来自模型规模的暴涨,而是来自相似规模模型加上更长时间的强化学习训练[11] - RLVR带来了新的“旋钮”:通过在推理时生成更长的思考链条、投入更多测试时算力,模型能力可以继续提升,并呈现出新的扩展定律[11] - OpenAI的o1是第一个明确展示RLVR思路的模型,而2025年初的o3则是让人直观感受到质变拐点的版本[12] 对LLM智能“锯齿状”分布的新认知 - 2025年,行业第一次真正直觉性地理解了LLM智能的“形状”,认识到其与人类智能的优化目标完全不同[14] - 大语言模型的智能被描述为“锯齿状”明显的能力分布:它们可以在某些可验证领域表现得像博学的天才,同时在另一些地方像困惑的小学生,甚至容易被攻击[14] - 这种“锯齿状”智能也解释了为何在2025年对基准测试普遍不当回事与不信任,因为基准测试本质上是可验证环境,天然容易被RLVR或“合成数据训练”所攻破[15] - 模型团队往往会在基准所在的嵌入空间附近“培育能力突起”,把能力尖刺精准地长到测试点上,“在测试集上训练”已经演变成了一门艺术[15] Cursor揭示LLM应用新范式 - Cursor在2025年的爆发清晰地揭示了一种全新的LLM应用层[16] - 像Cursor这样的LLM应用,本质是在为特定垂直领域打包和编排LLM能力,引发了关于“这一层会有多厚”的大量讨论[17] - 基础模型会趋向于“一个通用能力很强的大学毕业生”,而真正把他们组织成专业团队、在具体行业中落地的会是应用层,通过私有数据、传感器、执行器和反馈回路将模型组织并投入实际工作流程[17] - 应用层的关键功能包括:上下文工程、在后台编排多次LLM调用形成复杂的有向无环图、提供面向人的领域专用图形用户界面、提供“自主性滑块”[18] Claude Code定义本地化智能体新形态 - Claude Code被认为是第一个“真正的LLM智能体”,它以循环方式将推理与工具调用串联起来,能持续解决长任务[19] - 更重要的是,它运行在用户的本地电脑上,直接使用用户的环境、数据和上下文[20] - 在一个能力锯齿、起飞缓慢的世界里,更合理的顺序是先让智能体成为开发者身边的伙伴,Claude Code用一个极其优雅、极简、极具说服力的命令行界面形态呈现了这一点[20][21] - 这代表AI不再只是一个访问的网站,而是一个住在电脑里的伙伴,是一次全新的交互范式转变[22][23] “氛围编程”重塑软件开发 - 2025年,AI跨过了关键门槛,使得人们可以只用英语构建复杂程序,甚至忘记代码本身的存在,这被称为“氛围编程”[24][25] - “氛围编程”让编程不再只是专业工程师的专利,同时也让专业工程师可以写出大量原本永远不会被写出来的软件[27] - 代码变得不值钱、短暂存在、并可随意改写与丢弃,这正在重塑软件形态和工作角色[28][29] Nano Banana预示LLM的图形用户界面未来 - Google Gemini的“Nano Banana”是2025年最令人震撼的模型之一,它被视为构建真正LLM图形用户界面的一个早期但重要的信号[31][33] - 其意义不只在于图像生成,而在于文本、图像与世界知识在同一模型中深度纠缠[34] - 在UI/UX层面,“聊天”就像80年代的命令行,而人们更喜欢视觉化、空间化的信息,因此LLM应该用人类偏好的形式(如图片、信息图、幻灯片)进行交流[32][33]
卡帕西2025大模型总结火爆硅谷
量子位· 2025-12-20 12:20
文章核心观点 - 行业专家卡帕西认为,大模型的潜力仅被挖掘了10%,2025年将是AI技术范式、应用和交互方式发生关键变革的一年 [6][7] 大模型训练新范式:RLVR - 2025年,大模型训练范式从预训练、SFT、RLHF演进至RLVR(可验证奖励强化学习)阶段 [8][14] - RLVR使模型能在可自动验证的奖励环境中进行强化学习,自发形成复杂的推理策略(如问题分解、循环计算),这些策略在旧范式中极难实现 [8] - 与SFT和RLHF不同,RLVR涉及客观奖励函数训练,优化时间较长,但能带来更高的“能力/成本”比,并消耗原先用于预训练的计算资源 [10] - RLVR成为2025年大模型能力增长的重要驱动因素,在模型规模相当的前提下,强化学习的运行时间大幅延长 [11] - RLVR带来了新的调控手段和Scaling Law,可通过生成更长的推理轨迹和增加思考时间,来控制能力作为测试时间计算量的函数 [11] - 2024年末的o1模型是首个RLVR展示,而2025年初o3的发布是明显的拐点 [12] 对大模型智能本质的新认知 - 大模型的智能不应被简单类比为动物智能,其技术栈(神经架构、训练数据、训练算法、优化压力)的不同导致智能实体差异巨大 [13][16] - 人类神经网络为生存而优化,大模型神经网络则为模仿人类、获得奖励而优化 [17] - 随着RLVR在可验证领域的应用,大模型性能将快速爆发并呈现“锯齿状”特征,即“锯齿智能” [18] - “锯齿智能”模型既是通才,也存在认知局限,可能被越狱攻击导致数据泄漏 [19] - 基准测试因构建于可验证环境,极易受RLVR和合成数据影响,导致研发团队围绕基准测试优化,形成在测试集上训练的现象 [20][21] - 这解释了为何当前大模型能在基准测试中取得压倒性胜利,却仍未实现AGI [22] 应用层演进:Cursor与“Cursor for X” - Cursor的出现揭示了大模型应用的新层面,即“Cursor for X”,它不仅是模型接口,更是围绕模型调用构建的应用层 [23][24] - 该应用层能进行上下文工程、协调多个模型调用组成复杂DAG(需权衡性能与成本)、提供特定应用GUI、并带有自主性滑块 [24][30] - 行业在讨论新AI应用层的“厚度”,即其价值会被底层模型实验室榨干,还是为垂直领域应用开发者留下空间 [24] - 卡帕西预测,大模型实验室将趋向于培养“能力全面的大学毕业生”,而应用开发者则负责组织、微调,并让这支“学生团队”在特定行业(通过引入私有数据、传感器、执行器及反馈闭环)中成为可部署、可交付成果的专业人才 [24] 智能体发展:Claude Code加速端侧普及 - Claude Code是首个令人信服的大模型智能体范例,它采用循环方式结合工具使用与推理以解决复杂问题 [26][27] - 其关键优势在于能在个人电脑上运行,充分利用用户的私有环境、数据和上下文 [27] - 与OpenAI将精力集中于由ChatGPT编排的云部署容器不同,Claude Code专注于端侧部署 [28] - 尽管云端智能体集群被视为AGI的终极形态,但当前大模型能力参差不齐,发展处于缓慢过渡阶段 [29] - 在此现实下,Claude Code让智能体本地运行、适配开发者工作流,更贴合实际需求,并以美观简约的命令行界面改变了人们对AI的传统认知,使其如同栖息在个人电脑中的小精灵 [32][33] 编程范式变革:Vibe Coding - 2025年,AI跨越能力门槛,可通过自然语言构建程序,即“氛围编程” [34] - 氛围编程使编程不再局限于专业人士,任何人都能参与,专业人士也能借此编写更多有意思的软件 [37] - 例如,卡帕西在nanochat项目中,就用氛围编程的方式在Rust语言中编写了定制的高效BPE分词器,而无需采用现有库或学习更多Rust知识 [37] - 氛围编程将重塑软件行业并改变现有的工作内容 [38] 人机交互新范式:Nano Banana - 谷歌的Gemini Nano Banana是2025年最令人惊讶、最具范式转移意义的模型之一 [40] - 大模型被视为继计算机时代后的下一个主要计算范式,尤其在用户界面和用户体验方面与计算机有相似性 [42] - 由于人们喜欢以视觉和空间方式获取信息,大模型也应提供类似格式,对文本进行美化和视觉排版 [43] - Nano Banana展现了这一趋势,它并非只关注图像生成,而是将文本生成、图像生成和世界知识融合在一起,为未来大模型GUI发展提供了参考 [43]
这些大神在Meta的论文看一篇少一篇了
36氪· 2025-11-17 17:52
研究核心观点 - 研究团队揭示了大模型强化学习训练中的一个关键现象:尽管强化学习能带来巨大的性能提升,但其参数更新却极为稀疏,这背后是由一种固定的模型条件优化偏差机制所驱动[1][3] - 团队提出了“三门理论”来解释RLVR训练的内在机制,阐明参数更新如何被约束、引导并最终定位到特定的参数区域[3][7] 参数更新稀疏性发现 - 对包括Qwen系列和DeepSeek-R1-Distill-Qwen在内的多个开源模型的分析显示,经过超过3000步长时间RL训练后,RL参数更新的稀疏度高达36%到92%,而监督微调的稀疏度仅为0.6%到18.8%,相差一个数量级[5][6] - 具体数据显示,Qwen3-30B-A3B模型经过GRPO算法在数学数据上训练后,稀疏度达到91.7%;而Qwen3-8B-Base模型的SFT稀疏度仅为0.6%[6] 三门理论机制解析 - 第一门KL锚定机制通过策略梯度更新的KL界限确保每步相对于当前策略的漂移很小,限制了参数的移动范围,即使在无显式KL正则项的DAPO算法中,比例裁剪技巧仍会施加O(ε²)的KL界限[8] - 第二门模型几何机制指出预训练模型具有高度结构化的几何特性,在KL约束下,RL更新倾向于保持模型的原始权重结构,自然偏向于优化景观中的低曲率方向[9] - 第三门精度过滤机制揭示bfloat16的有限精度只有7位尾数,小于单位最低位阈值的变化无法表示,导致在RL不愿施加大改变区域的微小更新被隐藏,表现为稀疏性[11] 实验验证与发现 - 通过奇异值分解分析发现,RL更新与主成分权重的重叠度始终低于随机水平,表明RL强烈倾向于避开这些权重,而与低幅度权重显示出超随机的重叠[11] - 因果性验证实验通过正交旋转和头部置换故意扰乱模型几何结构,结果显示在被干预的层中更新重叠度降至随机水平,证明预训练模型的几何结构是优化偏差的来源[13] - 光谱分析表明RLVR检查点在顶部主成分内表现出明显稳定的谱,跨层的主子空间旋转一致较小,谱漂移最小,奇异值曲线几乎与基础模型相同[14] 对参数高效微调方法的启示 - 研究发现许多SFT时代的参数高效微调方法在RLVR中迁移效果很差,仅更新主成分权重会产生最差的优化轨迹,KL曲线上升缓慢,显示过度干预和退化的训练动态[17] - 对于LoRA变体,主成分定向的PiSSA在用于匹配全参数性能的较高学习率下经常变得不稳定并提前崩溃,因为强制沿主方向更新会触及RLVR倾向于避免的高曲率区域[17]
不改模型也能提升推理性能?ICLR投稿提出测试时扩展新范式OTV
量子位· 2025-10-23 08:08
文章核心观点 - 提出一种名为单token验证(OTV)的新机制,旨在不改变原始模型参数的前提下,实现对大语言模型推理过程的实时自主监控[2] - OTV通过利用模型内部的键值缓存(KV Cache)和轻量级的LoRA角色向量,使模型能够边推理边判断自身推理的正确性[8][9] - 该方法在多个模型规模和高难度数学推理数据集上的实验显示,其准确率全面领先于现有主流基线方法,并能显著降低计算开销[14][15][17] 现有主流范式的局限性 - LoRA微调虽参数高效且便于部署,但依赖详细监督数据并可能引发遗忘效应[3] - 后置验证器通过对生成结果进行质量筛选来增强可信度,但纠偏滞后且无法窥探内部推理过程[4] - RLVR(可验证奖励强化学习)节省标注成本,但流程复杂、计算代价高昂,难以普及[6] OTV机制的技术原理 - 核心是利用Transformer架构的键值缓存(KV Cache)作为完整的推理轨迹记录,捕捉模型内部动态最丰富的信息源[9] - 通过插入特殊"ToT"(Token of Truth)token,使其与整个序列的KV缓存进行注意力交互,从而回顾整条推理路径[9][11] - 内部验证器由一个LoRA实现的轻量角色向量和一个轻量回归头构成,输出0~1之间的正确性评分[9][10] OTV的训练与效率 - 训练目标以最终答案正确性为信号,为每个生成token分配启发式伪标签(正确路径得分从0.5线性增至1,错误路径递减至0)[10] - 训练流程高度并行,计算成本与传统LoRA微调相当[10] - 验证一次仅相当于模型多生成一个token的计算量,过程极其高效[9] 实验验证结果 - 在Qwen3-4B、Qwen3-8B、DAPO-Qwen-32B等模型上,使用AIME数据集测试,OTV在加权多数投票设置下稳定超越所有基线[14][15] - 具体表现为:在Qwen3-4B-Instruct-2507模型上,AIME24准确率达83.33%,AIME25达69.32%;在DAPO-Qwen-32B模型上,AIME24达70.83%,AIME25达49.58%[16] - 在高效推理设置下,OTV的"HALF 300"策略在计算量减少近90%的前提下,仍能保持最优或接近最优的准确率[17][19] OTV的优势与潜力 - 评分信号更稳定、真实且具有区分度,能清晰区分正确(红色轨迹稳定上升)与错误(绿色轨迹被压制)的推理路径[20][22][24] - 赋予模型动态控制计算开销的能力,可实时淘汰低质量路径,节省不必要的计算[17] - 未来潜力包括扩展为引入"不确定"状态的三元系统、具备安全控制潜力以终止高风险路径生成,以及推广至不同架构模型[25][26]
OpenAI路线遭质疑,Meta研究员:根本无法构建超级智能
36氪· 2025-06-20 20:00
超级智能发展路径 - 超级智能是超越AGI和人类通用能力的更高维度AI发展方向,Meta等头部公司正投入巨资追求这一目标 [1][3] - OpenAI CEO认为构建超级智能是工程问题而非科学问题,暗示已有可行路径 [1][3] - Meta研究员质疑当前主流LLM+RL路径的有效性,认为无法实现超级智能 [1][2] 技术实现争议 - 构建超级智能的三种可能路径:纯监督学习(SL)、人类验证的强化学习(RL)、自动验证器的RL [2] - 当前LLM在训练分布内任务表现持续提升,但难以发展为单一超级智能模型 [2][34] - 文本数据具有特殊价值,非文本数据(图像/视频等)尚未证明能提升模型整体性能 [6][7] 数据与规模挑战 - 互联网文本数据面临枯竭风险,行业正全力挖掘剩余数据(如转录YouTube视频) [8][19] - 模型规模扩展遭遇硬件和电力瓶颈,部分公司尝试分布式训练甚至收购核电站 [18][19] - 参数规模突破10^19的假设难以实现,当前最大模型约千亿参数级别 [17][18][19] 学习方法比较 - 监督学习(SL)面临规模扩展极限,未来3-4年可能仅能扩展10倍 [19][20] - 强化学习(RL)存在冷启动问题,需结合SL解决 [22][23] - RLVR(可验证奖励强化学习)成为新方向,OpenAI已展示在数学题上的成功案例 [32][33] 行业竞争格局 - Meta建立秘密"超级智能"实验室,投入数十亿美元资金 [3] - OpenAI、Anthropic和Google DeepMind均公开超级智能研发目标 [3] - 行业可能进入RL任务集军备竞赛,争夺最优训练环境设计 [33]
LLM加RL遭质疑:故意用错奖励,数学基准也显著提升,AI圈炸了
机器之心· 2025-05-28 16:09
大模型强化学习有效性研究 - 核心观点:虚假奖励(随机/错误信号)在Qwen-Math模型上能显著提升数学推理能力,但对其他模型无效,挑战了强化学习依赖高质量监督信号的传统认知[5][9][16] 实验发现 虚假奖励效果 - 随机奖励使Qwen2 5-Math-7B在MATH-500准确率提升21%,错误奖励提升25%,接近真实奖励的28 8%增幅[5] - 仅要求答案包含`\boxed{}`格式的虚假奖励使Qwen2 5-1 5B准确率绝对提升49 9%,但损害Llama3和OLMo2性能(分别降低7 3%和5 3%)[23] 模型特异性 - 虚假奖励仅对Qwen系列有效:Qwen-Math-7B代码推理频率达65%,RLVR训练后提升至90%以上[28][34] - Llama3和OLMo2等模型无法从虚假奖励中获益,甚至出现性能下降[17][23] 机制分析 预训练策略影响 - Qwen-Math通过RLVR强化了预训练已有的代码推理能力(Python代码生成频率与性能强相关)[27][34] - 虚假奖励通过GRPO裁剪触发"集中效应",使模型聚焦现有优势策略而非学习新能力[46] 策略转换收益 - Qwen-Math从自然语言推理转向代码推理时,单问题性能提升55%(虚假奖励)至60 2%(真实奖励)[36] - 模型总增益:Qwen2 5-Math-7B提升23 5%,1 5B版本提升28 5%[37] 方法论启示 - 当前RLVR研究过度依赖Qwen模型,结论可能无法泛化至其他架构[21][25] - 建议未来研究需跨模型验证,并优先分析预训练获得的推理策略[50]