Workflow
机器之心
icon
搜索文档
LSTM之父率队造出PoPE:终结RoPE泛化难题,实现Transformer的极坐标进化
机器之心· 2026-01-02 09:55
文章核心观点 - 由Jürgen Schmidhuber团队提出的新型位置嵌入方法PoPE,通过解耦内容(what)与位置(where)信息,解决了当前主流方法RoPE中两者纠缠的问题,从而在多项任务中实现了更优的模型性能[1][9] RoPE的问题分析 - RoPE是Llama 3、DeepSeek-v3、Gemma 3和Qwen3等前沿模型的首选位置编码方法,它通过旋转键和查询的二维分量来编码相对位置信息[5] - 在极坐标表示下,RoPE的注意力分数公式显示,键和查询都混淆了特征存在与否的信息(what)和相对位置信息(where),这种纠缠被假设会损害模型性能[8][9] PoPE解决方案 - PoPE将键和查询转换为d元素复向量,其幅值通过softplus函数确保非负,相位则仅取决于位置,从而实现了内容与位置的解耦[12][13] - PoPE的注意力分数计算消除了RoPE中导致键和查询影响相位的交互项,并可引入一个可学习的偏置项来调整最佳相对偏移[13] - 该方案通过定制的Triton内核实现,相比标准Flash Attention仅需额外一次乘法,虽然当前通用变体内存开销较大,但可通过优化降低[14] 模型性能表现 - **间接索引任务**:RoPE平均准确率仅为11.16%,而PoPE达到94.82%,显示出PoPE在分离内容和位置信息上的显著优势[18][19] - **音乐与基因组序列建模**:在JSB和MAESTRO音乐数据集上,PoPE的负对数似然(NLL)均低于RoPE;在人类参考基因组数据集上,PoPE的NLL(4.152)也显著低于RoPE基线(4.217)[20][22][23] - **语言建模**:在OpenWebText数据集上,124M、253M和774M三种模型规模的测试中,PoPE的困惑度均始终低于RoPE[25][26] - **下游零样本任务**:在LAMBADA、Blimp、CBT、HellaSwag、PIQA和ARC-E六项任务中,PoPE在所有模型规模下的平均准确率均高于RoPE[27][28] - **长度外推能力**:在1024个token上训练,于长达10240个token的序列上评估时,RoPE性能显著下降,而PoPE显示出强大的开箱即用外推能力,优于专门的基线模型YaRN,且其外推性能随模型规模增加保持稳定,而RoPE则恶化[29][31][32]
告别KV Cache枷锁,将长上下文压入权重,持续学习大模型有希望了?
机器之心· 2026-01-02 09:55
文章核心观点 - 由Astera研究所、英伟达、斯坦福大学、加州大学伯克利分校、加州大学圣地亚哥分校联合提出的TTT-E2E(端到端测试时训练)技术,是迈向AGI(通用人工智能)持续学习能力的重要一步[2] - TTT-E2E打破了传统模型在推理时静态不变的局限,将长上下文建模从“架构设计”问题转变为“学习问题”,使模型能在推理阶段通过在线优化(梯度下降)来学习和压缩信息[2][9][10] - 该方法采用“以计算换存储”的思路,旨在实现像RNN一样的恒定推理延迟,同时保持像Transformer一样的长距离性能,为处理无限长上下文提供了新路径[8][29] 长上下文建模的现有困境 - 当前长上下文建模面临“召回与效率的永恒博弈”:Transformer的全注意力机制性能优异,但推理成本随上下文长度线性增长,在处理128K或更长文本时延迟压力巨大[5] - 为提升效率而采用的循环神经网络(RNN)或状态空间模型(SSM,如Mamba),虽然拥有恒定每token计算成本,但在处理超长文本时性能大幅下降,无法有效利用远距离信息[5] - 传统RNN性能下降的根源在于“压缩率的固定”,即将无限序列压缩进固定大小的状态向量会导致信息丢失[6][7] TTT-E2E的核心机制 - 核心思想是将模型在测试阶段(推理阶段)的行为定义为一个在线优化过程,模型在读取长上下文时,不仅进行前向传播,还同步进行梯度下降[9][10] - 模型将上下文视为学习资料,在预测下一个token前,先在已读过的token上进行自监督学习,从而将信息编码进模型权重W中,而非存储在外部的KV Cache里[11] - 为实现这一构想,引入了两大核心技术支撑:1) 元学习,通过外层循环优化模型初始化参数,让模型“学会如何学习”;2) 混合架构,结合固定大小(如8K)的滑动窗口注意力处理短期记忆,由TTT更新后的MLP层承担长期记忆[13] 工程实现与架构设计 - 为平衡计算开销,仅针对最后四分之一的Transformer块进行测试时训练(TTT)[14] - 为这些块设计了双MLP结构:一个保持静态以锁定预训练知识,另一个作为“快速权重”在测试时动态更新,以解决知识遗忘问题[15] - 该设计模仿了生物记忆系统的层级结构:滑动窗口如同瞬时感官记忆,动态更新的权重则如同长期经验[13] 实验结果:性能与效率 - 在3B参数规模的模型上进行实验,TTT-E2E展现出与全注意力Transformer几乎一致的性能扩展曲线[18][21] - 当上下文长度从8K扩展到128K时,其他RNN基准模型(如Mamba和Gated DeltaNet)的测试损失在达到32K后显著回升,而TTT-E2E的损失持续下降,始终追赶甚至在某些指标上优于Transformer[21] - 在推理效率上,由于无需存储海量KV Cache,TTT-E2E的推理延迟不随上下文长度增加,在128K上下文测试中,处理速度比全注意力Transformer快了2.7倍[22] 技术局限性与未来方向 - TTT-E2E的训练成本目前较高,由于需要计算“梯度的梯度”(二阶导数),其在短上下文下的训练速度比传统模型慢得多[23] - 团队提出可通过从预训练好的Transformer节点开始微调,或开发专门的CUDA内核来弥补训练速度的短板[24] - 在极度依赖精确召回的任务(如大海捞针NIAH)中,全注意力模型仍是霸主,这印证了TTT的本质是压缩和理解,而非逐字暴力存储[24] 行业意义与未来展望 - TTT-E2E标志着大模型正从静态模型转变为动态个体,模型处理长文档的过程本质上是微型的自我进化[27] - 该“以计算换存储”的思路描绘了未来愿景:模型可在阅读海量资料(如一万本书)过程中不断调整自身,将大量信息浓缩进参数矩阵,而无需担心硬件缓存限制[29]
重新定义视频大模型时序定位!南大腾讯联合提出TimeLens,数据+算法全方位升级
机器之心· 2026-01-02 09:55
文章核心观点 - 多模态大模型在视频时序定位能力上存在严重缺陷,制约了精细化视频理解的发展 [2] - 南京大学、腾讯ARC Lab和上海AI Lab的联合研究团队提出了TimeLens,通过系统性解决数据质量和算法设计问题,显著提升了模型性能 [2] - 仅8B参数的TimeLens模型在多项指标上超越了GPT-5和Gemini-2.5-Flash等闭源大模型,成为开源模型的新SOTA [2][27] 数据质量与评测基准 - 研究发现,Charades-STA、ActivityNet Captions和QVHighlights等主流视频时序定位评测基准存在大量标注错误,包括文本描述模糊、事件未出现、时间边界错误和漏标等问题 [7] - 团队构建了经过严格交叉验证的高质量评测基准TimeLens-Bench,纠正了原有基准严重高估开源模型能力、掩盖闭源模型真实水平的问题 [11] - 团队通过自动化流水线清洗和重标训练数据,发布了高质量大型训练数据集TimeLens-100K,数据质量提升带来了显著的模型性能增长 [13] - 实验数据显示,使用TimeLens-100K训练后,在Charades-TimeLens数据集上R1@0.3指标从52.6提升至70.0,在ActivityNet-TimeLens上R1@0.5从35.6提升至48.3,在QVHighlights-TimeLens上R1@0.5从61.3提升至73.0 [14] 算法设计与最佳实践 - 在时间戳编码方面,实验表明最优策略是简单的交错文本编码,即在每一帧的视觉Token前插入文本形式的时间戳token,该方法实现简洁且效果最优 [17] - 在训练范式上,单阶段的Thinking-free RLVR范式在计算效率和性能上均优于其他范式,它直接输出定位结果并根据IoU给予奖励,无需生成中间思考过程 [19] - 训练技巧方面,针对RL训练应采用早停策略,奖励指标进入平台期后继续训练会导致性能下降;同时,基于难度的数据采样对提升模型性能至关重要 [23] - 消融实验表明,Thinking-free RLVR范式在Charades-TimeLens数据集上R1@0.5达到53.9,优于SFT范式的54.9,且训练时间仅为1.0倍基准 [22] 模型性能与行业影响 - TimeLens-8B模型性能卓越,在Charades-TimeLens基准上R1@0.5达到63.0,超过GPT-5的42.0和Gemini-2.5-Flash的56.1 [28] - 在ActivityNet-TimeLens基准上,TimeLens-8B的R1@0.5为58.4,超过GPT-5的44.9和Gemini-2.5-Flash的57.5 [28] - 在QVHighlights-TimeLens基准上,TimeLens-8B的R1@0.5为71.6,超过GPT-5的60.4和Gemini-2.5-Flash的69.4 [28] - 该成果证明,通过系统性提升数据质量和采用有效算法设计,开源小尺寸模型完全具备挑战甚至超越闭源大模型的能力 [27][28] - TimeLens在数据和算法双维度的系统性探索为后续研究提供了方法论与设计蓝图,其代码、模型、训练数据和评测基准均已开源 [29][30]
刚刚,梁文锋署名,DeepSeek元旦新论文要开启架构新篇章
机器之心· 2026-01-01 16:22
文章核心观点 - DeepSeek公司发布了一篇新论文,提出了一种名为“流形约束超连接”的新架构,旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益 [1] - mHC通过将传统Transformer的单一残差流扩展为多流并行架构,并利用Sinkhorn-Knopp算法将连接矩阵约束在双拟随机矩阵流形上,成功解决了超连接在大规模训练中因破坏恒等映射属性而导致的数值不稳定和信号爆炸问题 [1] - 该方法在保留“加宽残差流”带来的性能提升的同时,解决了其导致的训练不稳定和显存消耗过大的问题 [4] 技术背景与问题 - 传统的残差连接凭借“恒等映射”保证了信号无损传输和训练稳定性,但瓶颈在于信息通道的宽度受限于隐藏层维度 [3] - 以超连接为代表的研究通过扩展残差流宽度和多样化连接模式,拓展了残差连接范式,带来了显著的性能提升,但也带来了两个严重问题 [3] - 问题一:从根本上破坏了残差连接固有的恒等映射属性,导致了严重的训练不稳定性和受限的可扩展性 [3] - 问题二:额外增加了显著的内存访问开销 [3] - 原始的HC中,连接矩阵是自由学习的,没有约束,导致信号在经过多层传播后,数值会“爆炸”或“消失”,破坏了恒等映射的特性,模型越深越难训练 [6] - 通道变宽意味着显存读写和通信成本成倍增加,即“显存墙”问题 [6] mHC方法原理 - mHC是一个通用框架,它将HC的残差连接空间投影到一个特定的流形上,以恢复恒等映射属性,同时结合严格的基础设施优化以确保效率 [3] - 核心前提是将残差映射约束在一个特定的流形上,既能保持跨层信号传播的稳定性,又能促进残差流之间的相互作用,以保持模型的表达能力 [8][9] - 具体做法是将残差映射限制为双拟随机矩阵,即具有非负项且行和与列和均为1的矩阵 [10] - 团队利用Sinkhorn-Knopp算法将残差连接矩阵投影到Birkhoff多胞形上,这使得信号传播变为特征的“凸组合”,从数学上严格保证了信号范数的稳定性 [4] - 选择双拟随机性的原因包括:其谱范数有界且不超过1,这意味着学习到的映射是非扩张的,可有效缓解梯度爆炸问题 [15] - 双拟随机矩阵集对矩阵乘法具有封闭性,确保了跨多层的复合残差映射仍保持双拟随机,从而可在整个模型深度上维持稳定性 [15] - 该集合构成了Birkhoff多胞形,是排列矩阵集的凸包,这意味着残差映射充当了排列的凸组合,其重复应用会单调地增加跨流的信息混合,起到鲁棒的特征融合作用 [15] - 团队还对输入映射和输出映射施加了非负约束,以防止因正负系数复合导致的信号抵消 [12] - 最终的约束映射通过Sinkhorn-Knopp算子获得,在实验中采用t_max=20次迭代 [16] 高效基础设施设计 - DeepSeek为mHC量身定制了基础设施设计,使其在扩展倍率n=4时在大模型中的训练开销仅增加6.7% [4][17] - 算子融合:重新调整RMSNorm的顺序以提高效率,并采用混合精度策略 [17] - 开发了统一的算子,将多次扫描和矩阵乘法融合,减少内存带宽瓶颈和算子启动开销 [18] - 在单个算子中实现Sinkhorn-Knopp迭代及其自定义反向传播 [19] - 将输入和输出映射的应用与残差合并融合,显著减少了内存读写量 [20] - 重计算:为了减轻n流设计带来的内存压力,在前向传播后丢弃mHC算子的中间激活,并在反向传播时即时重新计算 [21] - 通过推导得出最优重计算块大小,以最小化总内存占用 [22] - DualPipe中的通信重叠:扩展了DualPipe调度算法,以改善流水线并行阶段边界处的通信与计算重叠 [23] - 在专用高优先级计算流上执行MLP层的内核,并避免在注意力层使用持久算子,以防止阻塞通信流并提高设备利用率 [23] 实验设置与模型配置 - 研究团队通过语言模型预训练来验证所提方法的有效性,并对基线模型、超连接以及提出的mHC进行了对比分析 [25] - 采用了受DeepSeek-V3启发的MoE架构,训练了四种不同的模型变体 [26] - HC和mHC的扩展率n均设置为4,主要关注点是一个27B参数规模的模型 [26] - 训练了较小的3B和9B模型来分析计算扩展性,并训练了一个独立的3B模型在一个固定的1T Token的语料库上以研究Token规模的影响 [26] - 27B模型的总参数量为27.0B,训练了262B个Token [27] 实验结果:训练稳定性 - 在27B参数规模的模型上,mHC有效缓解了在HC中观察到的训练不稳定问题,与基线模型相比,最终损失降低了0.021 [29] - 梯度范数分析证实了稳定性的提升:mHC表现出明显优于HC的行为,保持了与基线模型相当的稳定轮廓 [29] 实验结果:下游任务性能 - 在8个不同的下游基准测试中,mHC始终优于基线模型,并在大多数基准测试中超越了HC [30] - 与HC相比,mHC进一步增强了模型的推理能力,在BBH和DROP任务上分别实现了2.1%和2.3%的性能增益 [31] - 具体性能数据对比(27B模型): - BBH:基线43.8, HC 48.9, mHC 51.0 [30] - DROP:基线47.0, HC 51.6, mHC 53.9 [30] - GSM8K:基线46.7, HC 53.2, mHC 53.8 [30] - HellaSwag:基线73.7, HC 74.3, mHC 74.7 [30] - MATH:基线22.0, HC 26.4, mHC 26.0 [30] - MMLU:基线59.0, HC 63.0, mHC 63.4 [30] - PIOA:基线78.5, HC 79.9, mHC 80.5 [30] - TriviaOA:基线54.3, HC 56.3, mHC 57.6 [30] 实验结果:规模扩展性 - 计算规模扩展曲线涵盖了从3B、9B到27B参数规模的规模扩展过程,轨迹表明即使在更高的计算预算下,性能优势依然稳健地得以保持,仅表现出轻微的衰减 [34] - Token扩展曲线展示了3B模型在训练过程中的轨迹,验证了mHC在大规模场景下的有效性 [34]
OpenDataArena全面升级版正式上线,四大核心模块重构数据价值评估新格局
机器之心· 2026-01-01 16:22
项目发布与核心理念 - 上海人工智能实验室OpenDataLab团队开源了首个全面、公正的后训练数据价值评测平台OpenDataArena,旨在将数据选择从“盲目试错”转变为可复现、可分析、可累积的严谨科学[2] - 该项目在初版发布后经过数月高强度技术验证与功能打磨,近期迎来全面升级,正式面向全体开发者开放[2] - ODA的核心理念是数据价值必须通过真实的训练来检验,而非主观臆测,其正式版本由四个相互支撑的核心模块组成,标志着平台已进入可进行系统化评测的阶段[4] 核心模块一:数据价值排行榜 - ODA构建了数据价值排行榜,通过统一的训练与评测流程,在固定模型规模和配置下对不同领域的文本及多模态数据进行横向评测[6] - 评测覆盖通用、数学、代码、科学与长链推理等能力维度,使数据价值能通过下游任务的实际表现量化[6] - 平台已从仅评测文本数据扩展到支持多模态数据集质量评测,并以Qwen3-VL作为真实训练的基准模型[6] - 排行榜数据显示,在Llama-3.1-8B模型上,OpenThoughts3-1.2M数据集使平均分提升27.3分,数学能力提升55.8分,代码能力提升37.9分[7] - 在相同模型上,OmniThought-0528数据集使平均分提升21.7分,数学能力提升57.8分[7] - AM-Thinking-v1-Distilled-math数据集使平均分提升18.7分,数学能力提升58.5分[7] 核心模块二:数据血缘探索器 - ODA发布“数据血缘探索器”,旨在清晰刻画数据集之间的继承、混合与蒸馏关系,以解决数据界的“近亲繁殖”问题[8][9] - 该工具通过结构化建模与可视化展示,让研究者能直观看到数据集间的高度重叠与依赖关系,以及社区中被反复复用的核心数据源[9] - 此能力有助于结构性解释为何某些数据集能长期占据排行榜前列,并更清晰地发现潜在的训练-测试污染问题[9] 核心模块三:多维数据评分器 - ODA从数据本体出发,提供了一个细粒度的数据质量评分框架,基于模型评估、LLM-as-a-Judge与启发式指标等多种方法[12] - 该框架从指令复杂度、响应质量、多样性等维度对数据进行深度剖析,生成每份数据的专属“体检报告”[12] - 平台已对千万级样本的评分结果进行开源,并已扩展支持80多种多维度的评分器,支持用户一键对所需数据维度进行打分[12] 核心模块四:全开源评测工具箱 - ODA完全开源其训练、评分和可视化工具,覆盖从模型微调到结果复现的完整流程,以及精细化的数据评价打分器[15] - 工具支持用户一键复现结果,或对自己私有数据进行标准化评测,实现真正意义上的横向对比[15] 关键研究发现 - 在对120多个主流数据集进行超过600次训练和4000万条数据的深度分析后,团队得出了一系列重塑业界认知的结论[16] - 研究发现,解答质量比问题复杂度更关键,解答的长度与最终质量呈强正相关,在数学和科学类任务中尤为突出[17] - 代码数据具有“异类”属性,讲究简洁精准,长篇大论反而损害效果,通用的评分标准在代码领域经常失效[18] - 开源数据“近亲繁殖”严重,社区反复依赖的核心数据源有限,造成了严重的数据同质化,且数据污染问题加剧,大量训练样本直接与测试集重叠[18] - “少即是多”的策略存在局限性,实验证明其极度依赖模型底座的先天能力,若底座一般,过少的数据量会导致性能崩塌,真正稳健的路径是追求“高质量且具规模”的数据配方[18] - 以AM-Thinking-distilled为代表的超大规模聚集型数据集能同时在数学与代码任务上取得优势,关键在于其跨领域融合能力,它通过递归方式整合了435个数据节点,显著提升了数据分布的多样性与互补性[18] - 数据可以弥补底座差距,即使Llama 3.1和Qwen 2.5之间存在显著的底座分差,使用如OpenThoughts3-1.2M这样的高质量微调数据,这个差距几乎可以被抹平[19] 未来展望 - OpenDataArena的远景不满足于仅建立排行榜,更致力于将数据研发从“玄学”推向可复现、可分析的“科学”[21] - 未来,ODA将持续进化,探索智能体数据,以及金融、医疗等垂直领域的深层价值[21]
谷歌三年逆袭:草蛇灰线,伏脉千里
机器之心· 2026-01-01 12:33
行业竞争态势 - 2025年12月1日,OpenAI宣布进入最高级别“红色警报”状态,暂停所有非核心项目,将全部资源集中于改进ChatGPT [1][2] - 2022年11月30日ChatGPT发布后,五天内用户突破百万,两个月突破一亿,导致谷歌内部迅速拉响“红色警报” [4] - 谷歌在经历低谷后,通过推出Gemini 3大语言模型、Nano Banana图像生成模型、Veo3视频生成模型以及TPU芯片,在各个战线全面开花,重夺技术制高点 [10] - 竞争远未结束,OpenAI即将发布性能超越Gemini 3的推理模型,并研发代号Garlic的新模型,Anthropic的Claude在企业市场扩张,Meta以高薪挖角顶尖人才 [71][72] 公司战略与组织变革 - 谷歌一改以往“追求完美才发布”的传统,转变为“先发布再迭代”的敏捷策略,要求“一百天内打造一个能与ChatGPT抗衡的产品” [18][23] - 2024年至2025年间,谷歌启动了历史上最大规模的组织扁平化行动,裁撤了约35%的负责小团队的经理岗位,消除冗余层级 [26] - 2023年4月,谷歌将Google Brain和DeepMind合并,成立新的Google DeepMind部门,由德米斯·哈萨比斯出任CEO,结束资源内耗和技术分歧 [34][35] - 谷歌打破部门墙,AI成为全公司核心战略,搜索、云计算、广告、硬件等业务线围绕AI重组,形成“AI优先”文化 [40] 产品发布与市场反应 - 2023年2月8日,谷歌Bard人工智能演示直播中出现事实性错误,导致Alphabet股价下跌近9%,市值蒸发约1000亿美元 [21] - 望远镜事件后,皮查伊安排8万名员工花费两到四个小时对Bard进行内部测试,并为项目增派数百名员工 [22] - 谷歌实验室引入类似创业公司的快速迭代机制,负责人直接在社交媒体回应用户反馈,并实时转化为工程师的修复任务 [27][28] - 2024年,Gemini产品团队从搜索部门转移到DeepMind,这是DeepMind首次直接负责面向消费者的产品 [39] 创始人回归与技术驱动 - 2023年,已退居幕后的联合创始人谢尔盖·布林重新回归,提交了多年来的首次代码访问权限申请,并花费大量时间与AI团队在一起,亲自参与技术工作 [43][44][45] - 布林亲自审查Gemini模型的训练损耗曲线,关注底层技术细节,并习惯在开车时与更先进的Gemini型号进行实时对话 [46] - 布林直接介入打破内部流程障碍,例如解决Gemini被禁止用于写代码的规定,并通过使用Gemini识别贡献来促进员工晋升 [47][48][49][50][51] - 布林的存在简化了招聘流程,他多次亲自打电话邀请顶级科学家重返谷歌参与Gemini项目 [52] 人才战略与激励机制 - 2025年,谷歌招聘的AI软件工程师中,约20%是曾经离职又被请回来的“老兵”,他们能迅速上手,降低磨合成本 [58][59] - 最具代表性的是Transformer论文作者之一Noam Shazeer的回归,谷歌在2024年支付了高达27亿美元的许可费给其创办的Character.AI,以召回其团队 [60][62] - 谷歌吸引人才的核心筹码是“基础设施羡慕”,包括能调度数十万个TPU节点的超级计算集群,以及处理来自九个超过10亿用户产品的真实世界数据 [64] - 2025年,谷歌改革激励机制,将高绩效AI人才的报酬更多地与产品落地指标(如模型推理效率、用户活跃度)挂钩,而非仅仅是论文发表量 [67] 企业文化与运营节奏 - 谷歌AI负责人曾坦承,公司因面临更大的“声誉风险”而行动比创业公司保守,这种过度的风险厌恶导致了早期的被动局面 [16][17] - 皮查伊在内部要求员工内化紧迫感,加快公司运转速度,以应对激烈的竞争和业务挑战 [25] - 联合创始人布林曾对AI部门表示,员工应每日到岗,每周60小时是“最佳效率区间”,强调必须“全速推进”以维持领先 [30] - Gemini项目组遍布全球八个时区,数百个协作聊天室昼夜同步,负责人德米斯·哈萨比斯习惯于工作到凌晨 [31][32]
系统学习Deep Research,这一篇综述就够了
机器之心· 2026-01-01 12:33
Deep Research (DR) 综述的核心观点 - 大模型应用正从对话与创意写作,走向解决开放、复杂的研究型问题,催生了Deep Research这一新方向,旨在超越传统RAG静态的“一次检索+一次生成”范式,以支撑多步推理与长期研究流程[2] - 来自山东大学、清华大学、CMU、UIUC、腾讯等机构的团队发布了目前最全面的深度研究智能体综述《Deep Research: A Systematic Survey》,系统性地提出了三阶段能力发展路径,并从系统视角梳理了关键组件及训练优化方法[2] Deep Research 的定义与能力演进路径 - DR并非具体模型或技术,而是一条从信息获取到完整科研流程的逐步演进能力路径[5] - **阶段1:Agentic Search**:模型具备主动搜索与多步信息获取能力,能根据中间结果动态调整查询策略,核心目标是持续找对关键信息[5] - **阶段2:Integrated Research**:模型能对多源证据进行理解、筛选和整合,最终生成逻辑连贯的报告[6] - **阶段3:Full-stack AI Scientist**:模型扩展到完整科研闭环,具备提出研究假设、设计执行实验、基于结果反思与修正的能力,强调自主性与长期目标驱动的科研能力[6] - 能力对比显示,从标准RAG到Full-stack AI Scientist,智能体的动作空间从Narrow变为Broad,推理视野从Single变为Long-horizon,工作流从Fixed变为Flexible,输出形式从Short Span发展为Academic Paper[8] Deep Research 的四大核心组件 - **查询规划**:负责决定下一步查询什么信息,将“如何提问”纳入推理过程,使模型能在多轮研究中动态调整路径,具体分为顺序规划、并行规划和树状规划三类策略[10][11] - **信息获取**:从三个维度归纳方法:1) 何时检索:根据当前不确定性与信息缺口动态判断,避免冗余或过早依赖外部信息;2) 检索什么:从Web或知识库检索多模态或纯文本信息;3) 如何过滤:通过相关性判断、一致性校验或证据聚合机制筛选整合噪声较高的检索结果[12][13][14] - **记忆管理**:作为支撑DR系统长期运行与持续推理的核心基础设施,提供状态延续和经验累积,过程拆解为记忆巩固、记忆索引、记忆更新与记忆遗忘四个相互关联的阶段[15] - **答案生成**:强调结论与证据的对应关系及论证过程的逻辑一致性,需要智能体显式整合多源证据与中间推理结果,使输出支持事实核验与过程回溯[17] Deep Research 系统的训练与优化方法 - **提示工程**:通过精心设计多步提示构建研究流程,引导模型执行规划、检索与生成等步骤,适合快速构建原型,但效果依赖提示设计且泛化能力有限[20] - **监督微调**:利用高质量推理轨迹对智能体进行监督微调,直观有效,但获取覆盖复杂研究行为的标注数据成本较高[21] - **智能体强化学习**:通过强化学习信号直接优化DR智能体在多步决策过程中的行为策略,无需复杂人工标注,主要分为两种做法[22] - **端到端优化**:联合优化查询规划、检索、信息整合与报告生成等多个环节,有助于协调模块,但面临奖励稀疏、训练不稳定及采样成本高的问题[26] - **优化特定模块**:仅对查询规划或调度等关键模块施加强化学习信号,降低训练难度,更易于在现有系统中落地[26] Deep Research 面临的核心挑战 - **内部知识与外部知识的协同**:研究型智能体需在自身参数化知识与外部检索信息之间做出动态权衡,决定何时依赖内部推理、何时调用搜索工具[24] - **训练算法的稳定性**:面向长线任务的训练依赖强化学习等方法,但优化过程容易出现策略退化或熵坍缩等问题,使智能体过早收敛到次优行为模式,限制其探索多样化推理路径[24] - **评估方法的构建**:如何合理评估研究型智能体仍是开放问题,综述系统梳理了现有benchmark,但构建可靠高效的评估方法仍有待探索,尤其在开放式任务中对report-level输出的全面评估[25][27] - 当前广泛采用的LLM-as-a-judge范式在实践中受顺序偏差、偏好hacking等问题影响,限制了其作为测评方法的可靠性[27] - **记忆模块的构建**:是DR系统中最具挑战性的部分之一,需在记忆容量、检索效率与信息可靠性之间取得平衡,并将记忆机制稳定融入端到端训练流程[28] 行业现状与未来展望 - Deep Research代表了智能体在能力、动作空间及应用边界上的一次转变:从单轮的答案生成,走向面向开放问题的深度研究[30] - 该方向目前仍处于早期阶段,未来重要问题是如何在开放环境中构建既具自主性、又具可信性的Deep Research智能体[30] - 相关综述将持续更新,以总结该领域的最新进展[30]
特斯拉FSD首次横穿美国,Model3实现1万英里零干预,马斯克预言兑现了
机器之心· 2026-01-01 12:33
事件概述 - 2025年12月31日,David Moss驾驶一辆搭载FSD V14.2的2025款Model 3,完成了世界上首次美国西海岸到东海岸的全自动驾驶之旅,全程零人为干预[1][5] - 此次旅程从洛杉矶出发,历时2天20小时,行驶里程达2732.4英里(约4400公里),最终抵达南卡罗来纳州Myrtle Beach[7] - 驾驶员强调全程完全依靠FSD完成,其超过1万英里的FSD行驶数据可通过公开数据库验证,且过程中未出现任何险情[8][10][15] 技术里程碑与行业意义 - 此次横跨美国的自动驾驶是特斯拉Autopilot团队自项目立项之初设定的目标,标志着公司实现了长期追求的关键里程碑[20] - 特斯拉AI主管与前自动驾驶团队领导均对此表示祝贺,认为这是自动驾驶领域的一次重要突破[18][20] - 此次成功被类比为122年前人类首次驾车横跨美国,象征着自动驾驶技术从“新奇玩意”迈向成熟应用的关键一步[32][34] FSD V14.2 技术进展 - FSD V14.2是特斯拉于2025年底推出的关键软件更新,相比前一版本v14.1.x,在驾驶表现、感知能力和决策逻辑上均有明显强化[21][22] - 该版本驾驶表现更稳定,对复杂路口、无保护左转等场景处理更果断,整体驾驶节奏更连贯,被评价为“更像人开车”[22] - 尽管在法律定义上仍属于L2级辅助驾驶系统,但其在真实道路中的完成度已显著提升,有行业人士评价其让L4级自动驾驶“指日可待”[23] 技术路线对比与优势 - 与Waymo采用的依赖高清地图、激光雷达等多模块融合的技术路线不同,特斯拉FSD采用端到端的神经网络架构,直接将传感器输入转换为控制信号[29] - 端到端架构使其在应对突发状况(如旧金山停电导致交通信号失效)时更具韧性,而模块化系统在关键模块失效时可能迅速退化[28][29] - 前特斯拉自动驾驶团队领导评价,如今两种技术路线在驾驶表现上都堪称“完美”,差异需在大规模数据中才能显现,但观察者认为模块化架构在规模化上可能存在长期陷阱[26][30] 商业化与未来展望 - 特斯拉已在德克萨斯州奥斯汀推出有限规模的机器人出租车服务,使用搭载FSD的改装版Model Y[34] - 该服务已进入前排不再配备安全监控员的测试阶段,标志着公司正从“有人监督的自动驾驶”向“系统自主负责”的临界点迈进[34][35] - 此次横穿美国的成功,被视为自动驾驶从辅助工具走向真正自主机器人的关键跳跃[34]
英伟达、AMD本月起或涨价,5090两千美元变五千
机器之心· 2026-01-01 11:42
GPU行业价格动态 - GPU价格上涨已成定局,英伟达和AMD计划在2026年初上调价格[1] - 具体时间上,AMD预计2026年1月开始涨价,英伟达预计在2月开始涨价[3] 涨价产品范围 - 涨价将首先影响消费级GPU,包括英伟达GeForce RTX 50系列和AMD Radeon RX 9000系列[4] - 涨价将涵盖两家公司的所有产品线,包括用于AI数据中心和服务器的GPU[6] - 英伟达旗舰消费级GPU RTX 5090官方建议零售价为1999美元,但2025年实际价格预计将飙升至5000美元[4] - 英伟达旗舰AI GPU H200售价在3万至4万美元之间,预计2026年价格将进一步上涨[9] 涨价核心驱动因素 - 涨价主要驱动因素是GPU内存成本在整体制造成本中占比快速上升[7] - 业内人士指出,内存成本在GPU整体制造成本中的平均占比已超过80%[8] - 具体案例显示,RTX 5070 Ti搭载的16GB GDDR7内存采购成本从2025年5月的65-80美元,涨到了12月的210-260美元[8] 内存市场供需与成本传导 - 2025年上半年执行的GPU价格基于2024年底签订的长协合同,当时内存价格处于合理区间[8] - 绝大多数旧合约在2025年底到期,厂商续签2026年采购协议时面临已翻数倍的现货价格[8] - 在AI芯片旺盛需求推动下,内存生产商三星和SK海力士正将部分GDDR7生产线改造用于生产利润更高的HBM4[8] - 研究机构TrendForce表示DRAM内存供应非常紧张,品牌方正重新设计产品线并提价以保护库存[9] 对下游产品的影响 - 笔记本电脑整机价格可能面临调整,16GB及以上内存机型价格将大幅上涨,可能出现反向升级的8GB机型[9] - 华硕已宣布自2026年1月5日起上调部分产品价格,理由是AI需求推动DRAM和存储成本上涨[10] - 戴尔此前已宣布产品涨价30%,可作为参考[14]
AAAI 2026 Oral | 给多流数据配「私教+外援」,漂移来了也不慌
机器之心· 2026-01-01 11:42
研究背景与问题定义 - 在智慧城市、社交媒体、工业物联网等真实开放动态环境中,数据以多流形式并发产生,存在异构性且分布变化各不相同,伴随复杂的异步概念漂移,这与经典机器学习的独立同分布假设存在根本冲突[2][4] - 现有研究大多聚焦于单一或同构数据流的漂移建模,难以应对真实世界中普遍存在的多源异构数据流情形,现有方法往往陷入两难:强行统一处理导致模型失配,或采用静态模型导致灾难性遗忘或负迁移[4] 解决方案:CAMEL框架 - 悉尼科技大学研究团队提出一种全新的漂移感知协作辅助混合专家学习框架CAMEL,该框架巧妙地将混合专家模型引入流式学习,通过私有专家与辅助专家的协作机制以及自动化专家生命周期管理,解决异构多流学习的关键问题[2] - CAMEL是一种动态的、通过协作辅助的混合专家学习框架,通过模块化设计在专精、协作与适应之间取得平衡,旨在让模型既能专精于单一流特性,又能利用流间相关性,同时自适应分布变化[2][5] 方法论与架构设计 - 针对内在异构性挑战,CAMEL为每个流配置异构感知的独立系统,包括专属的特征提取器将不同维度输入映射到公共潜在空间,以及任务特定分类头确保决策层与标签空间的语义对齐[9][10][14] - 针对多流知识融合挑战,CAMEL为每个流维护捕捉自身特性的私有专家库,并引入辅助专家,该专家利用多头注意力机制以当前流特征为Query,以其他并发流特征为Key和Value,生成上下文向量,从而自主决定从哪些流借力并抑制负迁移[11] - 针对异步概念漂移挑战,CAMEL设计了自主专家调优器,在专家粒度上实现模型容量的在线伸缩,遵循测试、诊断、适应的闭环逻辑,能够自适应处理多流之间的异步漂移[12] 理论分析与实验验证 - 基于多任务学习理论,论文证明了CAMEL的泛化误差上界,其期望风险由平均经验风险、流间不相似度以及样本复杂度项构成,为框架在复杂环境下的鲁棒性提供了数学保证[14] - 实验验证中,研究团队构建了包含12个合成流和4个真实数据集的8大基准场景,涵盖天气、新闻、信用卡信息等,表1结果表明CAMEL在几乎所有场景中实现了最先进的平均准确率[16] - 在合成数据集Set 1 (Tree Homo.) 上,CAMEL在S1、S2、S3流的准确率分别为65.78%、68.27%、66.48%,平均为66.84%,优于其他基线方法[17] - 在合成数据集Set 2 (Hyperplane Homo.) 上,CAMEL在S1、S2、S3流的准确率分别为91.85%、92.12%、91.84%,平均为91.94%,表现优异[17] - 在真实数据集Set 5 (TV News Homo.) 上,CAMEL在CNN、BBC、TIMES流的准确率分别为80.06%、79.66%、80.90%,平均为80.21%[17] - 在真实数据集Set 6 (Weather Homo.) 上,CAMEL在S1、S2、S3流的准确率分别为82.04%、78.33%、79.39%,平均为79.92%[17] - 在真实数据集Set 7 (Credit card Hete.) 上,CAMEL在S1、S2、S3流的准确率分别为80.42%、81.93%、80.37%,平均为80.91%[17] - 在真实数据集Set 8 (CoverT. Hete.) 上,CAMEL在S1、S2、S3流的准确率分别为86.97%、62.91%、82.22%,平均为77.37%[17] 研究意义与结论 - CAMEL的提出标志着多流学习从静态同构向动态异构迈出了关键一步,该框架以私有专家保障流内专精,以辅助专家挖掘跨流关联,并通过自动化的专家生命周期管理在漂移下实现持续适应与效率控制[19] - 该框架为复杂、动态演化的异构多流场景提供了一种可扩展的解决方案,其工作已被AAAI 2026接收为Oral论文[2][19]