Workflow
Coconut
icon
搜索文档
首篇潜空间推理综述!模型思考不必依赖Token,带宽暴增2700+倍
量子位· 2025-07-16 09:49
潜空间推理综述核心观点 - 潜空间推理是一种新兴范式,通过内部连续表示推理过程,带宽比显式思维链(CoT)提升2700多倍(显式CoT每token约15bits,潜式CoT每步约40960bits)[15] - 提出统一框架整合循环、递归、连续思维等潜空间推理形式,该框架基于机械可解释性原理,与模型内部运作直接关联[2][3] - 框架为未来研究方向提供基础,包括通过扩散模型实现无限深度推理等高级范式[4] 潜空间推理技术实现 基本概念 - 核心区别在于使用潜式思维链(Latent Chain-of-Thought),以高维隐藏状态替代离散自然语言token,突破词汇表限制[13][14][16] - 理论基础可追溯至2019年《Universal Transformers》提出的自适应计算时间(ACT)机制[7][8] 处理模式 **垂直循环模式** - 通过重复处理同一组层扩展计算深度,实现"反复思考"[20][21] - 优势:动态分配计算资源处理复杂任务[23] - 局限:长推理链可能引发梯度消失/爆炸[24] - 实现变体包括: - Universal Transformer的架构层实现[25] - Coconut训练层插入连续思维向量[25] - CoTFormer隐藏激活回输机制[25] **水平循环模式** - 沿时间维度扩展记忆能力,维护压缩隐藏状态聚合跨时空信息[28][29] - 实现方式: - 线性状态循环(隐藏状态更新/衰减规则)[30] - 梯度状态循环(隐藏状态作为在线学习参数)[30] 机械可解释性验证 - 层深度与推理能力呈线性关系,构成推理容量瓶颈(需2-3层支持两步推理)[34][39][45] - 分层功能特化: - 浅层:基础信息处理/事实存储[49] - 中层:核心推理引擎[49] - 深层:决策制定/逻辑整合[49] - 信息流动机制: - 注意力机制关键作用:跨层传输计算信息[48] - 存在双向流动(反向注意力)增强推理能力[51][52] 前沿发展方向 无限深度推理 **空间无限推理** - 文本扩散模型实现路径: - 遮蔽扩散模型:并行预测/渐进解遮蔽[55] - 嵌入扩散模型:连续空间高斯去噪[55] - 混合AR-扩散模型:结合自回归稳定性[55] **时间无限推理** - 时间-深度交换原理:序列长度等价于优化迭代[57] - 具体方法: - 无限注意力机制[59] - 测试时训练(SGD优化)[59] - 隐式不动点RNN[59] 学术贡献与影响 - 首篇系统性综述,由字节SEED实习生等四位共同一作完成[5] - 整合Meta Coconut等顶会研究成果[9][12] - 建立理论基础:从清华层数限制研究到谷歌研究院的线性关系定理[34][45]
“椰子很甜,和三亚一样甜!”
海南日报· 2025-05-02 08:30
旅游行业营销活动 - 三亚在"五一"假期期间全城开启"椰子派送模式",免费发放5 1万颗椰子,覆盖机场、车站、景区、夜市等热门点位 [1] - 多家酒店推出入住即送椰子福利,景区为游客准备免费椰子水,增强游客体验 [1] - 活动吸引酒店、景区、民宿、餐饮等100多家旅游企业自愿参与,形成行业联动效应 [4] 游客体验与互动 - 大东海景区举办椰趣嘉年华活动,设置椰子保龄球、椰子套圈等游戏,吸引中外游客参与互动 [2] - 俄罗斯游客对赶椰子游戏表示高度赞赏,体现活动的国际吸引力 [2] - 志愿者在机场、景区等点位主动派送椰子,游客反馈积极,如重庆游客秦女士对免费椰子表示惊喜 [1][2] 创新服务与品牌推广 - 三亚携程车队自发组建"甜椰"车队,100辆车提供免费接送服务,车辆以青椰、红椰标识区分状态,打造移动的"椰香名片" [4] - 两辆椰子闪送车按9条线路穿梭三亚,覆盖景区、餐饮区、商业综合体等人流密集区域,提升品牌曝光 [1] - 活动通过免费派送椰子传递三亚的诚意与温暖,强化"椰子很甜,和三亚一样甜"的城市形象 [1][4]