Coconut
搜索文档
o1之后下一个范式?隐式CoT大突破,让推理不再「碎碎念」
机器之心· 2026-02-01 12:22
文章核心观点 - 研究提出了一种名为SIM-CoT(Supervised Implicit Chain-of-Thought)的新方法,旨在解决隐式思维链(Implicit CoT)在扩展时出现的训练不稳定和语义塌缩问题[2] - 该方法的核心创新在于引入了一个即插即用的步骤级监督模块,通过辅助解码器在训练时将每个隐式token对齐到可解释的推理步骤上,从而稳定优化并提升性能,且在推理阶段无需该模块,实现零额外开销[2][3] - 实验表明,SIM-CoT在多个模型(如GPT-2, LLaMA)和数据集上均能稳定提升推理准确率,首次实现了隐式CoT性能超越显式CoT,同时保持了更高的token效率[3][17][18] 技术背景与挑战 - 复杂推理任务(如数学、符号推理)传统上依赖显式思维链(CoT),但存在token开销高、时延增加以及容易产生模板化、无效推理的瓶颈[9] - 隐式CoT旨在用少量隐式token在内部完成多步推理以降低开销,但面临“潜变量不稳定”的关键挑战:增加隐式token数量时,训练易变得不稳定甚至塌缩,导致关键运算符信息丢失和语义同质化[7][9] - 现有隐式CoT方法(如Coconut, CODI)的监督粒度较粗,主要在答案或整体轨迹层面,缺乏对中间推理步骤的约束,难以保证隐式token学到有效的推理过程[10][12] SIM-CoT方法原理 - SIM-CoT基于一个新视角:高质量的隐式推理应与其“可对齐的逐步语义”成正比,即每个隐式token应能对应解码为一个具体的推理步骤[14] - 方法在训练阶段引入一个辅助解码器,对每个隐式latent token进行步骤级监督,将其“拉回”并与对应的显式推理步骤对齐,从而丰富并稳定隐式推理的潜在空间[2][14] - 该辅助解码器仅在训练时使用,在推理阶段被移除,因此不会引入任何额外的计算开销或时延[3][15] 实验结果与性能提升 - 在GPT-2模型上,使用Coconut作为骨干网络,SIM-CoT在in-domain数据集GSM8k-Aug上的准确率从36.6%提升至44.8%(绝对提升+8.2%),超过了准确率为42.7%的显式监督CoT方法[18] - SIM-CoT实现了2.3倍的token效率,其平均token使用量远低于显式SFT-CoT[18] - 在GSM-Hard、MultiArith、SVAMP三个out-of-domain数据集上,SIM-CoT(Coconut骨干)的平均准确率从42.6%提升至46.9%(绝对提升+4.3%),展示了其扎实的泛化推理能力[19] - 在更强的基线CODI之上,SIM-CoT在GPT-2上仍能带来in-domain准确率+0.6%和out-of-domain平均准确率+0.3%的提升[20] - 方法可扩展至更大模型,在LLaMA 3.2 3B模型上带来in-domain准确率+1.5%和out-of-domain平均准确率+0.7%的提升;在LLaMA-3.1 8B模型上对CODI带来+3.0%的提升[20] - 在LLaMA 1B模型上,SIM-CoT(Coconut骨干)将准确率从33.2%提升至42.2%(+9.0%),在CODI骨干上从52.7%提升至56.1%(+3.4%)[22] 方法优势与特点 - **性能提升显著且稳定**:在不同规模模型(GPT-2, LLaMA 1B/3B/8B)上均能带来稳定的准确率提升,范围在+1.5%至+9.0%之间,即使在8-16个隐式token的易崩设置下也能保持稳定[3][22] - **推理零额外开销**:辅助解码器训练后即丢弃,推理效率与其他隐式方法一致,并相对显式CoT仍有速度优势[3][21] - **首次实现隐式超越显式**:在GPT-2上,SIM-CoT的准确率首次超过了监督训练的显式CoT方法(SFT-CoT)[18] - **潜在可解释性**:该方法使得隐式推理首次变得可解释,能够将每个latent token解码为人类可读的中间推理步骤[2]
太疯狂了!Meta裁员裁到田渊栋头上,连组员一锅端
量子位· 2025-10-23 11:52
Meta AI裁员事件概述 - Meta AI研究院(FAIR)进行大规模裁员,波及资深研究科学家总监田渊栋及其领导的整个团队[1] - 此次裁员由新任首席AI官亚历山大王主导,涉及整组裁撤[6] 田渊栋的专业背景 - 拥有上海交通大学计算机系本科和硕士学位,卡内基梅隆大学机器人研究所博士学位[7] - 职业生涯始于谷歌无人驾驶汽车项目组软件工程师[8] - 2014年加入Facebook(现Meta)人工智能研究院(FAIR),任职近十年[9] - 现任FAIR研究科学家总监,领导规模约10人的规划与推理团队[3][14] 主要技术贡献 - 2015年主导开发围棋AI"Dark Forest",早于DeepMind的AlphaGo达到顶尖业余棋手水平[3][12] - 完成开源复现项目ELF OpenGo,仅靠单GPU就能战胜世界顶级人类选手[12] - 开发内存高效训练方法GaLore,将预训练7B模型所需内存压缩至24GB以内,实现单张消费级显卡预训练[16] - 推出快慢思考整合的Dualformer模型,使模型能动态切换简单问题直接回答和复杂问题深入推理[3][16] - 开创连续思维链(Coconut)范式,将推理轨迹压缩保留在连续隐空间中[3][16] - 2024年9月发表独作论文,从梯度动力学第一性原理揭示超参数在"顿悟"中的关键作用[15] 行业影响与市场反应 - 田渊栋被裁后,OpenAI及多家初创公司迅速在社交媒体评论区展开人才争夺[4] - 包括Dar Mehta所在公司、JimZ所在的东海岸公司以及Nuance AI等企业均公开表示招聘意向[6] - 2019年OpenAI联合创始人Ilya Sutskever曾邀请其加入共同研发语言模型,但被拒绝[13]
首篇潜空间推理综述!模型思考不必依赖Token,带宽暴增2700+倍
量子位· 2025-07-16 09:49
潜空间推理综述核心观点 - 潜空间推理是一种新兴范式,通过内部连续表示推理过程,带宽比显式思维链(CoT)提升2700多倍(显式CoT每token约15bits,潜式CoT每步约40960bits)[15] - 提出统一框架整合循环、递归、连续思维等潜空间推理形式,该框架基于机械可解释性原理,与模型内部运作直接关联[2][3] - 框架为未来研究方向提供基础,包括通过扩散模型实现无限深度推理等高级范式[4] 潜空间推理技术实现 基本概念 - 核心区别在于使用潜式思维链(Latent Chain-of-Thought),以高维隐藏状态替代离散自然语言token,突破词汇表限制[13][14][16] - 理论基础可追溯至2019年《Universal Transformers》提出的自适应计算时间(ACT)机制[7][8] 处理模式 **垂直循环模式** - 通过重复处理同一组层扩展计算深度,实现"反复思考"[20][21] - 优势:动态分配计算资源处理复杂任务[23] - 局限:长推理链可能引发梯度消失/爆炸[24] - 实现变体包括: - Universal Transformer的架构层实现[25] - Coconut训练层插入连续思维向量[25] - CoTFormer隐藏激活回输机制[25] **水平循环模式** - 沿时间维度扩展记忆能力,维护压缩隐藏状态聚合跨时空信息[28][29] - 实现方式: - 线性状态循环(隐藏状态更新/衰减规则)[30] - 梯度状态循环(隐藏状态作为在线学习参数)[30] 机械可解释性验证 - 层深度与推理能力呈线性关系,构成推理容量瓶颈(需2-3层支持两步推理)[34][39][45] - 分层功能特化: - 浅层:基础信息处理/事实存储[49] - 中层:核心推理引擎[49] - 深层:决策制定/逻辑整合[49] - 信息流动机制: - 注意力机制关键作用:跨层传输计算信息[48] - 存在双向流动(反向注意力)增强推理能力[51][52] 前沿发展方向 无限深度推理 **空间无限推理** - 文本扩散模型实现路径: - 遮蔽扩散模型:并行预测/渐进解遮蔽[55] - 嵌入扩散模型:连续空间高斯去噪[55] - 混合AR-扩散模型:结合自回归稳定性[55] **时间无限推理** - 时间-深度交换原理:序列长度等价于优化迭代[57] - 具体方法: - 无限注意力机制[59] - 测试时训练(SGD优化)[59] - 隐式不动点RNN[59] 学术贡献与影响 - 首篇系统性综述,由字节SEED实习生等四位共同一作完成[5] - 整合Meta Coconut等顶会研究成果[9][12] - 建立理论基础:从清华层数限制研究到谷歌研究院的线性关系定理[34][45]
“椰子很甜,和三亚一样甜!”
海南日报· 2025-05-02 08:30
旅游行业营销活动 - 三亚在"五一"假期期间全城开启"椰子派送模式",免费发放5 1万颗椰子,覆盖机场、车站、景区、夜市等热门点位 [1] - 多家酒店推出入住即送椰子福利,景区为游客准备免费椰子水,增强游客体验 [1] - 活动吸引酒店、景区、民宿、餐饮等100多家旅游企业自愿参与,形成行业联动效应 [4] 游客体验与互动 - 大东海景区举办椰趣嘉年华活动,设置椰子保龄球、椰子套圈等游戏,吸引中外游客参与互动 [2] - 俄罗斯游客对赶椰子游戏表示高度赞赏,体现活动的国际吸引力 [2] - 志愿者在机场、景区等点位主动派送椰子,游客反馈积极,如重庆游客秦女士对免费椰子表示惊喜 [1][2] 创新服务与品牌推广 - 三亚携程车队自发组建"甜椰"车队,100辆车提供免费接送服务,车辆以青椰、红椰标识区分状态,打造移动的"椰香名片" [4] - 两辆椰子闪送车按9条线路穿梭三亚,覆盖景区、餐饮区、商业综合体等人流密集区域,提升品牌曝光 [1] - 活动通过免费派送椰子传递三亚的诚意与温暖,强化"椰子很甜,和三亚一样甜"的城市形象 [1][4]