Workflow
OpenAI o1
icon
搜索文档
开年的AI狂欢,是利好还是隐忧?
36氪· 2026-01-16 19:45
当前AI行业的热度与市场心态 - 金融行业将AI产品视为关键绩效指标,若未推出或产品令客户亏损将面临职业风险 [1] - 2026年初AI领域投融资形势大好,智谱与MiniMax两大独角兽上市,Meta以约20亿美元收购AI智能体公司Manus [1] - 市场存在“AI+”概念炒作现象,部分公司仅宣称使用AI降本增效即可吸引关注,与实际业务关联度可能不高 [1] - 公众对AI热潮存在FOMO(恐惧错过)心理,认为参与有风险但错过的风险更大 [3] - 旁观者对AI表现出狂热,即便暂时没有利润兑现和业绩支撑也格外有信心,与从业者的审慎形成鲜明对比 [3][8] AI技术在各行业的实际落地情况 - 除金融、互联网等数字化基础好的行业外,绝大多数行业的AI业务渗透率普遍在10%—30%之间,真正进入核心业务环节的并不多 [3] - 有资深技术人员指出,在某些行业(如石油石化)中,大模型的应用尚处于起步阶段,只能处理非常细微的任务 [1] - 2025年《关于深入实施“人工智能+”行动的意见》发布后,相关部门强调需避免无序竞争和一哄而上 [3] AI行业当前存在的风险与挑战 - 大量垂直应用的喧嚣可能遮蔽核心技术的突破,如DeepSeek的mHC新架构迭代、医疗AI隐私问题等关键讨论被资本喧嚣淹没 [4] - 新技术从实验室到规模商用必经残酷竞争,历史表明押对技术路线也未必能收割红利(如爱迪生与特斯拉的电流之战) [6] - AI领域竞争格外激烈,开源模式(如Llama系列、DeepSeek)打破了闭源壁垒,加速技术扩散,使依靠新技术盈利的难度增大 [7] - 全球知名大模型竞技榜单Imarena数据显示,自2023年年中以来,所有登顶模型的平均榜首停留时间仅约35天,技术创新难以沉淀为持久壁垒 [7] - AI创业者面临巨大压力,有从业者表示“3个月就有一家公司倒下,30天就会落后一代产品” [8] 对“AI泡沫”与历史规律的审视 - 市场出现“AI泡沫是铁打的”等说法,将AI与黄金、金属并称为“新三大最坚硬的泡沫” [9] - 历史规律显示,每次大泡沫前专家常宣称“这次不一样”,但泡沫最终都回归均值,例如19世纪多国国债违约 [9] - 本次AI热潮与以往的不同之处在于:大模型技术确定性更强,大幅降低了AI的落地门槛与成本;同时AI领域的杠杆率较低,减少了非理性繁荣的基础 [11] 对普通参与者的建议 - 建议普通人将参与AI的方式控制在自身能力边界内,包括认知边界、信息边界和风险承受边界 [12] - 最直接的方式是亲身体验高质量的AI产品,以感知技术迭代速度并建立准确认知 [12] - 在信息选择上,应聚焦高质量信源,并关注AI、云、硬件、IoT等多元要素结合的产业智能化进程,而非仅关注短期模型波动 [12] - AI的红利不仅在于资本回报,更在于借助其提升工作效率、拓展职业可能、辅助学习等实际场景,这些是普通人可把握的零风险红利 [13] - AI最终将成为像电力、互联网一样的公共基础设施,无需过度FOMO [13]
35天,版本之子变路人甲:AI榜单太残酷
36氪· 2026-01-16 08:13
文章核心观点 - 人工智能大模型行业正经历前所未有的快速迭代 模型性能的领先地位极不稳定 曾经备受推崇的顶尖模型在短时间内排名大幅下滑[1][2][3] - 大模型的技术壁垒和领先优势的“保鲜期”急剧缩短至平均约35天 行业已从“大象漫步”进入“果蝇”般的超短生命周期阶段[6] - 基础模型的进化速度已远超应用层产品的开发速度 导致许多基于特定模型开发的产品和功能在发布前就已过时 对创业公司和开发者构成“降维打击”[5][8][13] - 行业生存法则正趋向两极分化:要么采取极度轻量化的快速试错模式赚取短期利润 要么转向挖掘模型无法替代的私有数据、复杂物理场景和人际信任等核心价值[16][18][20] 行业竞争格局与模型表现 - OpenAI的o1-preview模型在发布初期在多项关键评估中全面领先 在“总体”、“困难提示”、“指令遵循”、“编码”、“数学”、“多轮对话”及“长查询”等维度均排名第一[2] - 行业竞争异常激烈 排名变动迅速 OpenAI o1模型在几个月内从巅峰跌落至第56位 而Claude 3 Opus更是下滑至第139名[3] - 数据显示 一个模型登顶后 其领先优势维持时间很短 仅需5个月就会被踢出前5名 7个月后则可能跌出前10名[8] 技术迭代速度与行业影响 - 基础模型(ΔModel)的进化速度已远超过应用产品(ΔProduct)的迭代速度 颠覆了过去“应用倒逼基建”的行业发展模式[9] - 模型能力的快速“原生内置”使得许多创业公司耗时数月研发的核心功能瞬间失去价值 产品在发布前即面临淘汰风险[8] - 模型供应商的更新决策(如Anthropic宣布Claude 3 Opus于2026年1月5日退役)可能使开发者基于其API构建的代码失效 造成重大影响[11][14] 对市场参与者(公司/开发者)的启示 - 依赖于特定模型缺陷或能力而构建的产品(如复杂的Prompt工程、单一的PDF总结工具、AI翻译插件)具有极高的一次性风险 如同“在冰块上雕花”[15][16] - 试图在中间地带建立长期竞争优势的策略可能失效 行业生存需要选择极端路径[18] - 一条路径是成为“游击队” 采用极度轻量化的模式快速组装和验证产品 在短暂的窗口期内获利后迅速撤退 Builder.ai的案例表明 仅靠炒作期赚快钱的模式难以持久[16][18] - 另一条更可持续的路径是放弃对“模型智商”的单一追逐 转而构建模型无法轻易复制的优势 例如深度整合私有数据、解决复杂物理世界问题 以及建立深厚的人际信任关系[18][20]
吴恩达年终总结:2025年或将被铭记为AI工业时代的黎明
华尔街见闻· 2025-12-30 18:27
AI工业时代的开启 - 2025年标志着AI从“学术探索”正式迈向“工业化基础设施”时代,创新将模型性能推向新高度,AI驱动的应用变得不可或缺 [1][10] - AI投资成为驱动美国GDP增长的核心力量,2025年上半年数据中心和AI投资几乎占美国国内生产总值增长的全部 [1][20] - 全球年度资本支出突破3000亿美元,其中大部分用于建设新的数据中心来处理AI任务 [1][17] 万亿级基础设施投资与能源挑战 - 科技巨头开启大规模数据中心计划,单项投资动辄数千亿美元,例如OpenAI与合作伙伴宣布耗资5000亿美元的“Stargate”项目,并计划最终在全球建设20吉瓦的容量 [1][5][19] - 主要公司2025年基础设施支出巨大:微软全球数据中心支出达800亿美元,亚马逊预计支出1250亿美元,Alphabet预计支出930亿美元,Meta在基础设施项目上花费约720亿美元 [5][19] - 电力供应成为硬约束,科技公司开始通过重启核电站来保障算力需求,例如微软签署为期20年的协议计划于2028年重启宾夕法尼亚州的三里岛核反应堆以提供835兆瓦电力 [1][5][19] - 电网容量不足已导致硅谷部分数据中心闲置,且贝恩公司估计到2030年AI年收入需达到2万亿美元以支撑建设规模,这超过了主要科技巨头2024年的总盈利 [5][24] 推理模型成为主流与智能体编码爆发 - 以OpenAI o1和DeepSeek-R1为代表的推理模型成为主流,AI具备了“多步思考”能力,显著提高了在数学、科学和编程任务中的表现 [1][7][11] - 推理的早期形式通过提示“让我们一步步思考”兴起,关键是通过强化学习进行微调,训练模型在生成输出前“思考”问题 [11] - 当推理模型学会使用工具时性能更好,例如结合工具使用的OpenAI o4-mini在一项多模态理解测试中达到了17.7%的准确率,比没有工具时高出3个百分点以上 [7][14] - “智能体编码”爆发,AI智能体已能独立处理复杂的软件开发任务,到2025年底,基于最新大模型的编码智能体在SWE-Bench基准测试中能够完成超过80%的任务 [1][7][21] - 编码应用从代码补全发展到能管理广泛软件开发任务的智能体系统,Claude Code、Google Gemini CLI、OpenAI Codex等成为竞争焦点 [7][21][25] 天价薪酬重塑人才市场 - 顶尖AI人才身价飙升至职业体育明星水平,Meta在2025年打破了传统薪酬结构,向研究人员提供部分四年期合同价值高达3亿美元的薪酬包 [2][6][15] - 扎克伯格亲自参与人才争夺战,成功招募了OpenAI的Jason Wei和Hyung Won Chung等关键研究人员 [6][18] - 作为回应,OpenAI为新员工提供了更激进的股票期权归属时间表和高达150万美元的留任奖金 [6][17] - AI工程师薪资轨迹反映了AI从学术好奇心到革命性技术的演变,顶级薪酬不断攀升 [16][18] 行业竞争与公司动态 - 顶级AI公司为熟练从业者展开激烈争夺战,从竞争对手处吸引顶尖人才,Meta从OpenAI、谷歌和Anthropic挖角,而微软AI首席执行官从Google挖走了20多名研究人员 [6][18] - 埃隆·马斯克的xAI从Meta聘请了十几名AI研究人员,马斯克谴责竞争对手的“疯狂”offer [18] - 除了人才竞争,模型制造商和集成开发环境开发者之间存在拉锯战,导致一些IDE提供商构建自己的模型,而谷歌构建了自己的IDE Antigravity [25] - 开放权重模型如Z.ai GLM-4.5和Moonshot Kimi K2成为热门选择,使自动化编码初创公司能够大幅削减成本 [25] 面临的现实挑战与成本 - 推理过程增加了推理成本,例如启用推理的Gemini 3 Flash在基准测试中使用了1.6亿个token,而未推理版本仅使用740万个token [13] - 生成推理token可能会延迟输出,增加了LLM推理提供商更快服务token的压力,但研究人员正在寻找使过程更高效的方法 [13] - 苹果和Anthropic的研究指出推理模型在某些复杂逻辑上仍存在局限性,且推理步骤可能遗漏对结论有关键贡献的信息 [7][14] - 尽管存在对AI泡沫的担忧,但对于计划花费数百亿美元建设AI数据中心的公司来说,高薪被认为是合理的支出 [17]
Andrej Karpathy年度复盘:AI大模型正在演变成一种新型智能,今年出现6个关键拐点
华尔街见闻· 2025-12-20 12:41
文章核心观点 - 2025年是大型语言模型领域蓬勃发展的关键一年,出现了六个改变行业格局的“范式转变”拐点,揭示了LLM正在演变成一种全新的智能形态 [1][3] - LLM展现出独特的“锯齿状”智能特征,既是博学的天才,又像思维混乱的小学生,其潜力目前实现尚不足10%,预计未来将持续飞速进展 [1][3] - 从训练范式、智能形态到应用层、交互界面,LLM技术栈的各个层面均发生根本性变革,标志着AI应用进入新的发展阶段 [3] 技术范式转变 - **拐点一:基于可验证奖励的强化学习成为训练新阶段**:传统的LLM生产流程(预训练、指令微调、基于人类反馈的强化学习)被改变,基于可验证奖励的强化学习成为新阶段 [4][5] - RLVR通过在数学题、代码谜题等可自动验证的环境中训练,使LLM自发演化出类似“推理”的策略,如将问题拆解为中间步骤并掌握多种解决方法 [5] - 与指令微调和基于人类反馈的强化学习不同,RLVR针对客观且不可作弊的奖励函数,允许更长周期的优化,具有极高的“能力/成本比” [5] - 2025年大部分能力提升源于各实验室将原本用于预训练的算力转向消化RLVR这一新阶段的“算力积压” [5] - OpenAI o3的发布是真正的拐点,RLVR带来了通过增加“思考时间”来控制推理能力的新调节旋钮 [6] LLM智能形态认知 - **拐点二:“幽灵智能”展现锯齿状性能特征**:业界开始理解LLM是一种与生物智能完全不同的全新智能实体,其神经架构、训练数据、算法和优化压力均不同 [7] - LLM展现出“锯齿状”性能特征:在可验证领域附近能力“激增”,但整体表现极不均衡,既是博学天才,又可能被简单提示词破解 [3][7] - 这种现象导致对基准测试产生信任危机,因为基准测试本质是可验证环境,极易受到RLVR攻击,“面向测试集训练”成为新艺术形式 [7] 应用层与交互范式革新 - **拐点三:Cursor引领新一代LLM应用层崛起**:Cursor的成功揭示了“LLM应用”的全新层级,标志着垂直领域LLM应用的兴起 [8] - 此类LLM应用为特定垂直领域封装并编排LLM调用,核心功能包括处理上下文工程、编排多个LLM调用串联成复杂有向无环图、提供特定图形界面以及提供“自主程度调节滑块” [8] - LLM实验室倾向于培养通用能力的“大学生”,而LLM应用则通过提供私有数据、传感器、执行器和反馈闭环,将这些“大学生”组织成特定领域的专业从业者 [8] - **拐点四:Claude Code开创本地AI智能体新范式**:Claude Code成为LLM智能体的首次令人信服展示,它以循环方式串联工具调用和推理进行长时间问题解决,且运行在用户电脑上,使用私有环境、数据和上下文 [9] - 这种本地化、个性化的AI交互范式改变了AI的样貌,使其从被动访问的网站变为“住”在电脑里的灵体,强调了隐私保护和个性化体验的重要性 [9] - **拐点五:Vibe Coding让编程能力普及化**:2025年AI跨越关键能力阈值,使人们仅凭英语就能构建复杂程序,“Vibe Coding”概念的流行标志着编程门槛的彻底降低 [10] - 编程不再是专业人士专利,普通人从LLM中获益远超专业人士、企业和政府,代码变得免费、瞬时、可塑,用完即弃,将重塑软件生态并让创意实现的成本接近零 [11] - **拐点六:Nano Banana开启LLM图形界面时代**:谷歌Gemini Nano Banana被称为2025年最震撼、最具范式转移意义的模型,预示着LLM交互界面的根本变革 [12] - 文本并非人类偏好的信息消费格式,真正的“LLM GUI”需要以人类偏好的图像、信息图、幻灯片、白板、动画视频、网页应用等方式进行交流 [12] - Nano Banana的显著特征不仅是图像生成,更是文本生成、图像生成和世界知识在模型权重中的交织融合,提供了多模态融合能力的早期雏形 [12]
拒绝“熵崩塌”和“熵爆炸”!这项研究让大模型学会“精确探索”,推理成绩飙升
量子位· 2025-10-13 16:47
RLVR方法的重要性与当前瓶颈 - 2024年以来以OpenAI o1、DeepSeek-R1、Kimi K1、Qwen3等为代表的大模型在数学、代码和科学推理任务上取得显著突破主要得益于RLVR方法[1] - RLVR通过数学验证、单元测试等可自动判断对错的方式提供训练信号替代了传统依赖人类评判的流程使模型能够进行大规模高效率的自我改进[1] - RLVR在实践中面临探索机制极易失衡的关键瓶颈要么探索受限陷入熵崩塌要么探索失控引发熵爆炸[2] 传统熵正则化方法的困境 - 传统熵正则化方法在RLVR训练中面临两难陷阱探索强度系数β过小会导致探索受限发生熵崩塌模型迅速退化为近似确定性策略所有回答高度相似[9] - 当β稍大时模型易在庞大的动作空间与超长的推理轨迹中失控概率分布被摊平导致熵爆炸生成内容充斥无意义符号逻辑断裂[10] - 传统方法失效的根本原因是熵正则化的激励是无差别的而大语言模型的生成过程具有鲜明的结构性忽略了探索价值的非均匀分布[10] SIREN方法的创新机制 - 选择性熵正则化方法通过三重机制实现对探索行为的精准调控包括划定探索范围识别关键决策点稳定训练过程[14] - Top-p掩码机制将熵的计算范围严格限定于概率最高的核心token集合确保探索仅在语义合理的候选词中进行避免无效探索[14][15] - 峰值熵掩码机制自动识别生成序列中熵值显著高于平均水平的逻辑关键词并将探索激励集中作用于这些关键位置[16] - 自锚定正则化将熵值目标从最大化调整为维持合理区间通过动态锚定机制使探索强度始终处于可控范围避免训练失稳[17] SIREN方法的实验效果 - 在Qwen2.5-Math-7B上SIREN平均maj@k达到54.6%超越最强基线4.8%[22][24] - 在最具挑战的AIME24/25数据集上性能提升均达到6.6%[34] - 该方法在1.5B到8B不同规模不同基座的模型上均稳定有效展现出良好的泛化能力[34] - 与传统的熵正则方法相比SIREN展现出更合理有效的探索模式能够避免困惑度坍缩保持答案多样性训练过程平稳可控[25][28][30] 行业影响与未来展望 - 随着强化学习成为大模型后训练的主流方法如何实现稳定可控高效的探索将成为释放大模型潜力突破性能瓶颈的核心议题[35] - 该研究提出的选择性探索调控机制为探索的精细化提供了一种可行的解决方案有望为下一代推理模型的训练范式提供启发[35] - 该方法有望推动大模型在数学代码科学推理等复杂任务以及其他更广阔的应用领域取得进一步突破[35]
放弃 CoT?Agentic 时代为什么更需要隐式推理?
机器之心· 2025-09-28 15:05
放弃CoT?Agentic时代为什么更需要隐式推理 - 以CoT为代表的显式推理通过将思考过程外化为人类可读的文本步骤,推动了LLM推理能力的飞跃,成为业界最佳实践[8] - 随着产业向Agentic AI倾斜,显式推理的局限性暴露,其固有的序列化操作过程在需要归纳推理的任务上会主动引入并放大错误,损害模型性能[9] - 研究揭示CoT推理常与模型实际隐藏计算路径不符,其分步思考能力往往是不忠实的,不应被视为可解释性技术[9] - CoT推理更像是对训练数据分布内模式的复现,一旦输入任务与训练数据存在差异,推理链条会迅速失效,呈现脆弱性[9] - 显式推理过程极其耗时,导致需要实时响应的Agent无法适应这种延迟,且对简单问题毫无必要,被诟病为废话生成器[10] - CoT每次思考消耗大量token,直接增加API调用成本,使得大规模、高频次Agent应用在经济上不可行[10] - 未来AI Agent需具备根据任务难度动态调整思考深度和速度的能力,即在智能频谱的不同频率间切换[10] - 智能频谱概念由1X的AI副总裁Eric Jang提出,类比电磁波谱,一端为极慢智能,一端为极快智能,当前主流AI聊天助手处于1-2Hz智能,远不及人类10Hz的自然对话节奏[10] - 未来通用智能体需覆盖从缓慢战略规划到流畅日常对话再到瞬时反应的整个智能频谱[11] - 相比显式推理常用的先思后言模式,隐式推理将推理过程内化到模型潜在空间中,具备更低延迟和成本,更适配智能体任务场景[11] - 隐式推理此前最大的黑箱问题,可能随着人们对智能体可靠性要求的变化而不再成为硬伤[12] 实时推理的挑战与路径 - 在先思后言范式中,模型在输出前完成基于完整上下文的思考,生成可被人类专家审查的显式推理步骤,这在非实时、高风险决策场景中具备必要性[13] - 当Agent作用于真实物理环境,其实时推理能力直接影响用户体验,先思后言范式导致AI在回答前思考数秒的尴尬停顿,无法适用于语音助手、车载系统等场景[13] - DeepSeek-R1和OpenAI o1等采用先思后言范式的模型具备复杂推理能力,但深度思考功能带来的延迟使其无法用于端到端对话模型[14] - 深度思考或完全不思考带来两种极端体验,即要么得到强大但反应迟钝的助手,要么得到迅速但思维简单的助手[15] - 针对端到端对话模型在实时性与推理能力间的矛盾,研究者探索理论上更高效的隐式推理方法,其推理过程在内部不可见的潜在表示中进行,不生成任何中间文本步骤[15] - 由于无需生成冗长中间文本,隐式推理速度极快,计算成本远低于显式推理,但早期工作因性能局限和可解释性问题而未如CoT流行[15] - 在早期或较小模型中,没有显式步骤指导的隐式推理难以在复杂多步问题上实现泛化,模型倾向学习浅层模式匹配而非真正结构化推理,问题结构稍变时准确性会急剧下降[16]
Mini-Omni-Reasoner:实时推理,定义下一代端到端对话模型
机器之心· 2025-09-20 12:37
技术方案与核心创新 - 提出Mini-Omni-Reasoner新范式,通过“Thinking-in-Speaking”实现边思考边表达,兼顾实时反馈与高质量推理 [4] - 采用Thinker-Talker架构,Thinker负责语音理解和逻辑推理,Talker专司语音生成,实现功能解耦 [12] - 设计2:8的回答-推理token交替比例,在保证推理深度的同时维持语音合成的流畅性,例如每秒生成50个token时可提供10个回答token [13] 实现机制与技术细节 - 模型在生成过程中同时维护回答流和推理流,循环输出p个回答token与q个推理token,实现token级别的思维与输出交替生成 [11] - 构建超过百万份高质量训练数据的Spoken-Math-Problems-3M数据集,并设计四阶段数据管线解决“逻辑错位”问题 [17] - 采用五阶段训练管线,包括对齐训练、混合数学预训练、文本thinking-in-speaking训练、语音thinking-in-speaking训练及Talker训练,确保稳定收敛 [19][22] 性能表现与实验结果 - 在Spoken-MQA数据集上测试,模型相比基座模型Qwen2.5-Omni-3B有明显性能提升 [21] - “Thinking-in-Speaking”方法能在保持回复内容自然简洁的情况下维持高质量的推理过程 [24] 行业意义与发展前景 - 该技术是对话模型迈向复杂问题解决的早期尝试,旨在释放大模型推理能力在对话系统中的应用潜力 [25] - 未来探索方向包括通用问题推理增益评测、模型自主决定思考时机以及突破固定比例生成以实现更灵活的思维范式 [26][28]
清华、上海AI Lab等顶级团队发布推理模型RL超全综述
具身智能之心· 2025-09-15 08:04
强化学习在大推理模型中的发展历程 - 强化学习自1998年Sutton提出概念以来 明确奖励信号可使智能体在复杂环境中超越人类 [4] - 2013年DeepMind展示RL训练智能体仅凭像素和得分反馈学会玩《打砖块》游戏 [4] - AlphaGo和AlphaZero通过自我对弈和奖励信号在围棋等棋类达到人类难以企及水平 [4] - 大模型时代RL应用于人类反馈强化学习(RLHF)使模型回答更符合人类偏好 [4] 大推理模型(LRM)的新趋势 - 研究者希望通过RL让模型不仅"更听话"且真正学会"推理" 通过可验证奖励提升数学题答对率或代码测试通过率 [5] - OpenAI的o1和DeepSeek-R1展示RL训练后模型具备更好规划、反思和自我纠正能力 [5][13] - 推理能力可通过扩展不断增强 与参数规模、训练数据并列成为新扩展路径 [5][13] 技术实现与核心突破 - LRM采用可验证奖励训练(RLVR)掌握长链推理能力 包括规划、反思和自我纠错 [13] - OpenAI o1性能随额外RL训练算力增加和推理阶段"思考时间"算力增加持续提升 [13] - DeepSeek-R1在数学任务采用基于规则准确率奖励 编程任务采用编译器/测试驱动奖励 展示大规模GRPO算法引导复杂推理能力 [13] - RL方法从RLHF(2022)演进至DPO(2023)再到RLVR(2025) 任务解决能力和能力提升持续增加 [15] 系统特性与扩展路径 - LRM在推理过程分配大量计算资源生成、评估和修正中间推理链 性能随计算预算增加提升 [15] - 提供与预训练数据规模和参数规模扩展互补的能力增长路径 [15] - 利用奖励最大化目标在存在可靠验证器领域实现自动可检验奖励 [15] - RL通过生成自监督训练数据克服数据限制 被视为实现通用人工超级智能(ASI)的潜在技术路径 [15] 研究综述内容框架 - 引入LRM语境下RL建模基本定义 梳理自OpenAI o1发布以来前沿推理模型发展 [16] - 回顾RL for LRM核心组件:奖励设计、策略优化和采样策略 比较不同研究方向和技术方案 [16] - 讨论基础性与争议性问题:RL角色、RL vs SFT、模型先验、训练方法及奖励定义 [16] - 总结训练资源包括静态语料库、动态环境和训练基础设施 [16] - 综述RL在编程任务、智能体任务、多模态任务、多智能体系统、机器人任务及医学应用 [16][18] - 探讨未来研究方向包括新算法、新机制、新功能及其他潜在路径 [16][18] 领域挑战与机遇 - RL在大推理模型应用面临奖励设计合理性、算法效率、数据与算力支撑等挑战 [6] - 扩展挑战不仅限于计算资源 还涉及算法设计、训练数据和基础设施 [8][15] - 如何扩展RL实现更高水平智能并产生现实价值仍是未解决问题 [15] - 需重新审视领域发展 探索增强RL可扩展性策略以迈向通用人工超级智能 [8][15]
清华、上海AI Lab等顶级团队发布推理模型RL超全综述,探索通往超级智能之路
机器之心· 2025-09-13 16:54
文章核心观点 - 强化学习正成为推动大语言模型向大推理模型演进的核心方法 通过可验证奖励机制提升模型在数学、编程等复杂任务中的推理能力 [2][3][5] - OpenAI o1和DeepSeek-R1展示了RL训练带来的突破性进展:模型性能随训练算力和推理思考时间增加而持续提升 揭示了除预训练外的新扩展路径 [10] - RL通过奖励最大化目标和自监督数据生成克服数据限制 被视为实现通用人工超级智能的潜在技术路径 [12] 前沿模型发展 - DeepMind早期已证明RL智能体仅凭像素和得分反馈即可学会玩《打砖块》游戏 AlphaGo系列通过自我对弈超越人类棋手 [2] - 大模型时代RL最初应用于人类偏好对齐(RLHF) 近期转向提升模型推理能力 形成大推理模型新范式 [2][3] - OpenAI o1和DeepSeek-R1成为重要里程碑:前者通过RL训练和推理时间扩展提升性能 后者采用基于规则的准确率奖励和编译器测试驱动奖励 [10] 基础组件 - 奖励设计包含可验证奖励(如数学答案正确率)、生成式奖励、密集奖励、无监督奖励和奖励塑形等多类方法 [14] - 策略优化涵盖策略梯度目标、基于评论家算法、无评论家算法、离策略优化和正则化目标等方向 [14] - 采样策略包括动态结构化采样和采样超参数优化 旨在提升训练效率 [14] 关键问题 - RL在大推理模型中的角色存在"能力锐化"与"能力发现"之争 需明确其核心作用 [14] - RL与监督微调(SFT)存在泛化与记忆的差异 需平衡两者关系 [14] - 奖励类型区分过程奖励与结果奖励 影响模型学习路径 [14] 训练资源 - 静态语料库、动态环境和训练基础设施构成三大资源类别 需进一步标准化发展 [14] - 现有资源虽可复用 但仍需完善以支撑大规模RL训练需求 [5] 应用场景 - 编程任务通过代码测试通过率作为奖励 提升模型代码生成能力 [14] - 智能体任务关注语言智能体与环境的长期交互演化 [7] - 多模态任务、多智能体系统、机器人任务和医学应用构成RL重要落地方向 [14][15] 未来方向 - 持续RL、基于记忆的RL和基于模型的RL被视为LLM强化学习重点发展领域 [15] - 潜在研究方向包括高效推理教学、潜在空间推理、预训练RL、扩散模型RL及科学发现应用等 [15]
“神经-符号”融合规划器性能显著超越o1:借鉴人类运动学习机制|中国科学院磐石研发团队
量子位· 2025-08-06 13:56
科研智能规划技术突破 - 中国科学院磐石研发团队提出新型"神经-符号"融合规划器,融合神经规划系统与符号规划系统优势,解决传统智能规划方法效率低下和盲目性高的问题[1] - 该技术借鉴人类闭环反馈机制构建双向规划机制,在表达能力、适应能力、泛化能力和可解释性上显著提升[3] - 规划器已集成至"磐石·科学基础大模型",面向科学领域提供专用模型支持[5] 闭环反馈机制设计原理 - 基于人类运动学习的Knowledge of Result(KR)闭环系统,通过反馈、错误检测和纠正实现动态调整[6][7] - 规划任务与人类运动学习具有相似性,将问题、规划器和动作序列对应为试验、学习者和行动序列[8] - KRCL机制通过正向神经规划器生成动作序列与反向KR反馈构成动态闭环,实现双向信息传递和持续校正[10] 神经与符号系统融合架构 - 采用神经规划器与符号规划识别器双向连接模式,结合神经网络的表示能力与符号系统的可解释性[11][12] - 正向神经规划器生成高效灵活的动作序列,反向符号规划识别器推理最可能目标并增强模型可解释性[14][15][16] - KR增强信息通过文本相似度量化,校正结果并提升规划精准度[17] 自适应反馈控制机制 - 引入自我控制机制,根据问题难度和模型表现动态激活反向规划识别器,避免固定KR机制的冗余反馈[18][20] - 通过预定义阈值控制反馈频率,减少规划器对反馈的依赖性,提升模型自主性和学习效率[21][22] 性能评估与行业对比 - 在IPC竞赛8个规划任务中,KRCL平均覆盖率达70.81%,显著高于ASNet(57.12%)和OpenAI o1等竞品[23][24] - PlanBench测试显示KRCL在Blocks和Mystery Blocks任务中覆盖率均达100%,平均耗时0.8秒,远优于o1的75.33%覆盖率和61.9秒耗时[25][26]