机器之心
搜索文档
让模型自己找关键帧、视觉线索,小红书Video-Thinker破解视频推理困局
机器之心· 2026-01-02 11:12
核心观点 - 小红书研究团队提出了一种名为Video-Thinker的全新“Thinking with Videos”范式,旨在通过强化学习激发多模态大语言模型在视频推理中的内生智能,摆脱对外部工具的依赖 [2] - 该方法通过将“时序定位”与“视觉描述”能力内化在模型的思维链中,使模型能自主寻找关键帧并提取视觉线索,从而实现对视频内容的自主探索与理解 [2] - 实验表明,Video-Thinker-7B模型凭借极高的数据效率,在多个高难度视频推理榜单上显著超越现有基线,确立了7B量级模型的SOTA性能 [3] 方法:内生能力导向的“数据 - 训练”全链路设计 - **核心愿景与机制**:Video-Thinker旨在实现“能力内化”,通过构建高质量结构化数据(Video-Thinker-10K)和“监督微调+组相对策略优化”的两阶段训练范式,让模型学会在动态视频流中自主导航与思考 [10] - **高质量数据集构建**:团队整合六大主流数据集,通过“后见之明”自动化流水线,生产出兼具精准时序定位与详尽视觉描述的结构化推理数据,样本量达10K [13] - **监督微调阶段**:此阶段强制模型习得Video-Thinker独有的结构化思考范式,即“定位-感知-推理”的标准动作序列,有效抑制模型幻觉倾向 [16][18] - **强化学习阶段**:采用组相对策略优化激发模型内生潜能,通过并行采样多组推理轨迹并利用相对优势指导更新,使模型将机械的格式遵循升华为灵活的视频思维能力 [19] - **涌现的“顿悟时刻”**:经过强化学习训练,模型开始自发展现元认知特征,能对其初步生成的定位或描述进行自我质疑与修正,形成动态的内部反馈机制 [22] 评测:全面验证,7B模型刷新视频推理SOTA - **总体性能优势**:Video-Thinker-7B在域内和域外共11个评测数据集上全面领先,确立了7B参数量级模型的新SOTA [25][28] - **域外泛化能力突出**:在侦探推理类榜单Video-Holmes上准确率达**43.22%**,超越次优基线**4.68**个百分点;在综合性基准VRBench上准确率达**80.69%**,大幅领先最佳基线**11.44**个百分点 [29] - **训练阶段协同效应**:消融实验表明,仅监督微调无法实现强泛化,而随后的强化学习阶段是性能飞跃的关键,使模型在Video-Holmes上的性能提升了**11.70%**,在VRBench上提升了**18.29%** [29] - **推理帧数鲁棒性**:在16帧、32帧和64帧不同输入条件下,Video-Thinker-7B均持续优于对比基线,表明其具备更高效的时序信息整合机制 [30][31] - **内生能力定量验证**:在时序定位任务中,Video-Thinker-7B的平均交并比达**48.22%**,相比基础模型提升**75.5%**;在内容描述任务中,其整体描述质量相比基础模型提升**31.2%**,相比Video-R1提升**61.0%** [33][36] - **内生能力对比外部工具**:实验证明,将能力内化的Video-Thinker-7B表现远超简单外挂工具方案及现有的工具调用方法,在Video-Holmes上取得**43.22%**的最高分,显著优于VideoMind-7B的**38.98%** [34][35][37] 行业影响与未来展望 - Video-Thinker打破了“视频推理必须依赖外部工具”的固有认知,为视频推理领域提供了新范式 [38] - 其成功证明了视频推理能力并非依赖“大参数+大数据”的堆砌,而在于对核心内生能力的精准培养 [39] - 该技术路径有望加速AI在安防监控、智能教育、工业运维等领域的落地应用,赋能行业智能化升级 [39]
Meta重磅:让智能体摆脱人类知识的瓶颈,通往自主AI的SSR级研究
机器之心· 2026-01-02 11:12
文章核心观点 - Meta公司提出并验证了一种名为SSR(自对弈SWE-RL)的新方法,旨在训练能够超越人类专家水平的超级智能软件智能体[1] - 该方法的核心创新在于使大型语言模型智能体能够通过与真实代码库的交互,自主生成学习经验,从而摆脱对昂贵、有限且可能存在偏差的人类标注训练数据的依赖[1][22] - 实验结果表明,SSR方法在软件工程基准测试上展现出稳定而持续的自我提升能力,性能显著优于依赖人工数据的传统强化学习方法,为开发真正自主的人工智能系统开辟了新的可能性[17][21] 研究方法与框架 - SSR借鉴了AlphaGo等自对弈系统的成功经验,提出了一条通往超智能软件智能体的训练途径[2] - 该方法几乎不依赖人工数据,仅假设能够访问带有源代码与依赖环境的沙盒化代码仓库,而不需要任何人工标注的issue或测试用例[4] - 核心思想是让同一个LLM策略扮演两个角色:Bug注入智能体和Bug修复智能体,通过一个持续循环的自对弈过程来自我进化[6][8] - Bug注入智能体负责在原始代码库中人为引入可复现的Bug,而Bug修复智能体则负责生成补丁来修复这些Bug[9][11] - 两个角色的奖励信号共同作用,用于联合更新底层的LLM策略模型[12] 实验结果与性能 - 研究团队在SWE-bench Verified与SWE-Bench Pro两个基准测试上对SSR进行了系统评估[14] - 实验结果显示,SSR在完全没有任务相关训练数据的情况下,在整个训练过程中表现出稳定而持续的自我提升能力[17] - 在SWE-bench Verified与SWE-Bench Pro基准测试上,SSR分别提升了+10.4与+7.8个百分点,并持续超越依赖人工数据的基线方法[17] - 消融实验表明,仅进行Bug注入或仅进行Bug修复的训练都会降低性能,而自我对弈过程(同时生成和解决Bug)是模型实现长期自我提升的关键[19][20] 行业意义与前景 - SSR代表着在开发能够无需直接人工监督进行学习和改进的真正自主人工智能系统方面迈出了重要一步[21] - 该方法解决了当前人工智能开发中根本性的可扩展性限制,为将AI训练扩展到人类策划数据集之外开辟了新的可能性[22] - SSR的自生成课程有可能使训练在比目前传统方法更可行的问题上,数量级地更多样化和更具挑战性[22] - 该研究表明,未来的软件智能体或将能够在真实代码仓库中自主获取海量学习经验,最终发展为在系统理解、复杂问题求解乃至从零构建全新软件方面超越人类能力的超级智能系统[25]
「辍学创业」的风再次席卷硅谷,但真正的变量从来不是学位
机器之心· 2026-01-02 11:12
硅谷创业趋势:辍学标签的复兴 - 硅谷近期出现新趋势,“辍学创业”正成为一个值得强调的正向标签,在风投圈被视为体现创业者坚定信念和投入的正面特质 [3][4] - 这一趋势在Y Combinator的Demo Day上尤为明显,越来越多的创始人在一分钟路演中主动强调自己的辍学身份 [4] 创业者的辍学动机与市场情绪 - 辍学动机主要源于对AI创业周期关键窗口期的把握,留在学校完成学业可能意味着错过机会 [4] - 市场普遍存在紧迫感和错失恐惧症,算盘很简单:要么完成学业,要么直接开始做产品 [5] - 催生了极端案例,有顶尖大学学生在最后一个学期放弃学位,因其深信拥有文凭反而会降低获得融资的机会 [5] 风险投资界的多元观点 - 有投资人认为市场并没有如此极端,对于即将毕业的学生,风投其实没那么执着于“辍学”标签 [7] - 即便技术天才能够无正规教育创业,大学提供的社交网络和学校品牌仍然具有价值,创始人依然能获得大部分社交价值 [7] - 并非所有风投都认同年轻创始人的优势,FPV Ventures联合创始人更看重“智慧”这一特质,认为其通常存在于更年长或经历过挫折的创始人身上 [8] 教育背景的持续价值与“辍学”新内涵 - 尽管引领AI浪潮的创始人很多是年轻人,但大多数仍然选择完成学业,例如Cursor的CEO毕业于MIT,Cognition的联合创始人毕业于哈佛 [9] - 有人指出,今天所说的“辍学”内涵已变,那些“辍学”的人只是换到资源更丰富的工业实验室继续从事原有事业 [10][13] - 大学(尤其是如斯坦福等顶尖学府)的价值远超课堂教育,其巨大的网络效益对就读或留在其中具有独特价值 [8] 创业成功的核心决定因素 - “辍学”只是表象,真正决定成败的是创始人能否在正确的时间窗口、用正确的资源、做正确的事 [12] - 学位从来都不是核心变量,能力、判断力、时机,以及能否接入真正有价值的人脉和资源网络才是关键 [12]
LSTM之父率队造出PoPE:终结RoPE泛化难题,实现Transformer的极坐标进化
机器之心· 2026-01-02 09:55
文章核心观点 - 由Jürgen Schmidhuber团队提出的新型位置嵌入方法PoPE,通过解耦内容(what)与位置(where)信息,解决了当前主流方法RoPE中两者纠缠的问题,从而在多项任务中实现了更优的模型性能[1][9] RoPE的问题分析 - RoPE是Llama 3、DeepSeek-v3、Gemma 3和Qwen3等前沿模型的首选位置编码方法,它通过旋转键和查询的二维分量来编码相对位置信息[5] - 在极坐标表示下,RoPE的注意力分数公式显示,键和查询都混淆了特征存在与否的信息(what)和相对位置信息(where),这种纠缠被假设会损害模型性能[8][9] PoPE解决方案 - PoPE将键和查询转换为d元素复向量,其幅值通过softplus函数确保非负,相位则仅取决于位置,从而实现了内容与位置的解耦[12][13] - PoPE的注意力分数计算消除了RoPE中导致键和查询影响相位的交互项,并可引入一个可学习的偏置项来调整最佳相对偏移[13] - 该方案通过定制的Triton内核实现,相比标准Flash Attention仅需额外一次乘法,虽然当前通用变体内存开销较大,但可通过优化降低[14] 模型性能表现 - **间接索引任务**:RoPE平均准确率仅为11.16%,而PoPE达到94.82%,显示出PoPE在分离内容和位置信息上的显著优势[18][19] - **音乐与基因组序列建模**:在JSB和MAESTRO音乐数据集上,PoPE的负对数似然(NLL)均低于RoPE;在人类参考基因组数据集上,PoPE的NLL(4.152)也显著低于RoPE基线(4.217)[20][22][23] - **语言建模**:在OpenWebText数据集上,124M、253M和774M三种模型规模的测试中,PoPE的困惑度均始终低于RoPE[25][26] - **下游零样本任务**:在LAMBADA、Blimp、CBT、HellaSwag、PIQA和ARC-E六项任务中,PoPE在所有模型规模下的平均准确率均高于RoPE[27][28] - **长度外推能力**:在1024个token上训练,于长达10240个token的序列上评估时,RoPE性能显著下降,而PoPE显示出强大的开箱即用外推能力,优于专门的基线模型YaRN,且其外推性能随模型规模增加保持稳定,而RoPE则恶化[29][31][32]
告别KV Cache枷锁,将长上下文压入权重,持续学习大模型有希望了?
机器之心· 2026-01-02 09:55
文章核心观点 - 由Astera研究所、英伟达、斯坦福大学、加州大学伯克利分校、加州大学圣地亚哥分校联合提出的TTT-E2E(端到端测试时训练)技术,是迈向AGI(通用人工智能)持续学习能力的重要一步[2] - TTT-E2E打破了传统模型在推理时静态不变的局限,将长上下文建模从“架构设计”问题转变为“学习问题”,使模型能在推理阶段通过在线优化(梯度下降)来学习和压缩信息[2][9][10] - 该方法采用“以计算换存储”的思路,旨在实现像RNN一样的恒定推理延迟,同时保持像Transformer一样的长距离性能,为处理无限长上下文提供了新路径[8][29] 长上下文建模的现有困境 - 当前长上下文建模面临“召回与效率的永恒博弈”:Transformer的全注意力机制性能优异,但推理成本随上下文长度线性增长,在处理128K或更长文本时延迟压力巨大[5] - 为提升效率而采用的循环神经网络(RNN)或状态空间模型(SSM,如Mamba),虽然拥有恒定每token计算成本,但在处理超长文本时性能大幅下降,无法有效利用远距离信息[5] - 传统RNN性能下降的根源在于“压缩率的固定”,即将无限序列压缩进固定大小的状态向量会导致信息丢失[6][7] TTT-E2E的核心机制 - 核心思想是将模型在测试阶段(推理阶段)的行为定义为一个在线优化过程,模型在读取长上下文时,不仅进行前向传播,还同步进行梯度下降[9][10] - 模型将上下文视为学习资料,在预测下一个token前,先在已读过的token上进行自监督学习,从而将信息编码进模型权重W中,而非存储在外部的KV Cache里[11] - 为实现这一构想,引入了两大核心技术支撑:1) 元学习,通过外层循环优化模型初始化参数,让模型“学会如何学习”;2) 混合架构,结合固定大小(如8K)的滑动窗口注意力处理短期记忆,由TTT更新后的MLP层承担长期记忆[13] 工程实现与架构设计 - 为平衡计算开销,仅针对最后四分之一的Transformer块进行测试时训练(TTT)[14] - 为这些块设计了双MLP结构:一个保持静态以锁定预训练知识,另一个作为“快速权重”在测试时动态更新,以解决知识遗忘问题[15] - 该设计模仿了生物记忆系统的层级结构:滑动窗口如同瞬时感官记忆,动态更新的权重则如同长期经验[13] 实验结果:性能与效率 - 在3B参数规模的模型上进行实验,TTT-E2E展现出与全注意力Transformer几乎一致的性能扩展曲线[18][21] - 当上下文长度从8K扩展到128K时,其他RNN基准模型(如Mamba和Gated DeltaNet)的测试损失在达到32K后显著回升,而TTT-E2E的损失持续下降,始终追赶甚至在某些指标上优于Transformer[21] - 在推理效率上,由于无需存储海量KV Cache,TTT-E2E的推理延迟不随上下文长度增加,在128K上下文测试中,处理速度比全注意力Transformer快了2.7倍[22] 技术局限性与未来方向 - TTT-E2E的训练成本目前较高,由于需要计算“梯度的梯度”(二阶导数),其在短上下文下的训练速度比传统模型慢得多[23] - 团队提出可通过从预训练好的Transformer节点开始微调,或开发专门的CUDA内核来弥补训练速度的短板[24] - 在极度依赖精确召回的任务(如大海捞针NIAH)中,全注意力模型仍是霸主,这印证了TTT的本质是压缩和理解,而非逐字暴力存储[24] 行业意义与未来展望 - TTT-E2E标志着大模型正从静态模型转变为动态个体,模型处理长文档的过程本质上是微型的自我进化[27] - 该“以计算换存储”的思路描绘了未来愿景:模型可在阅读海量资料(如一万本书)过程中不断调整自身,将大量信息浓缩进参数矩阵,而无需担心硬件缓存限制[29]
重新定义视频大模型时序定位!南大腾讯联合提出TimeLens,数据+算法全方位升级
机器之心· 2026-01-02 09:55
文章核心观点 - 多模态大模型在视频时序定位能力上存在严重缺陷,制约了精细化视频理解的发展 [2] - 南京大学、腾讯ARC Lab和上海AI Lab的联合研究团队提出了TimeLens,通过系统性解决数据质量和算法设计问题,显著提升了模型性能 [2] - 仅8B参数的TimeLens模型在多项指标上超越了GPT-5和Gemini-2.5-Flash等闭源大模型,成为开源模型的新SOTA [2][27] 数据质量与评测基准 - 研究发现,Charades-STA、ActivityNet Captions和QVHighlights等主流视频时序定位评测基准存在大量标注错误,包括文本描述模糊、事件未出现、时间边界错误和漏标等问题 [7] - 团队构建了经过严格交叉验证的高质量评测基准TimeLens-Bench,纠正了原有基准严重高估开源模型能力、掩盖闭源模型真实水平的问题 [11] - 团队通过自动化流水线清洗和重标训练数据,发布了高质量大型训练数据集TimeLens-100K,数据质量提升带来了显著的模型性能增长 [13] - 实验数据显示,使用TimeLens-100K训练后,在Charades-TimeLens数据集上R1@0.3指标从52.6提升至70.0,在ActivityNet-TimeLens上R1@0.5从35.6提升至48.3,在QVHighlights-TimeLens上R1@0.5从61.3提升至73.0 [14] 算法设计与最佳实践 - 在时间戳编码方面,实验表明最优策略是简单的交错文本编码,即在每一帧的视觉Token前插入文本形式的时间戳token,该方法实现简洁且效果最优 [17] - 在训练范式上,单阶段的Thinking-free RLVR范式在计算效率和性能上均优于其他范式,它直接输出定位结果并根据IoU给予奖励,无需生成中间思考过程 [19] - 训练技巧方面,针对RL训练应采用早停策略,奖励指标进入平台期后继续训练会导致性能下降;同时,基于难度的数据采样对提升模型性能至关重要 [23] - 消融实验表明,Thinking-free RLVR范式在Charades-TimeLens数据集上R1@0.5达到53.9,优于SFT范式的54.9,且训练时间仅为1.0倍基准 [22] 模型性能与行业影响 - TimeLens-8B模型性能卓越,在Charades-TimeLens基准上R1@0.5达到63.0,超过GPT-5的42.0和Gemini-2.5-Flash的56.1 [28] - 在ActivityNet-TimeLens基准上,TimeLens-8B的R1@0.5为58.4,超过GPT-5的44.9和Gemini-2.5-Flash的57.5 [28] - 在QVHighlights-TimeLens基准上,TimeLens-8B的R1@0.5为71.6,超过GPT-5的60.4和Gemini-2.5-Flash的69.4 [28] - 该成果证明,通过系统性提升数据质量和采用有效算法设计,开源小尺寸模型完全具备挑战甚至超越闭源大模型的能力 [27][28] - TimeLens在数据和算法双维度的系统性探索为后续研究提供了方法论与设计蓝图,其代码、模型、训练数据和评测基准均已开源 [29][30]
刚刚,梁文锋署名,DeepSeek元旦新论文要开启架构新篇章
机器之心· 2026-01-01 16:22
文章核心观点 - DeepSeek公司发布了一篇新论文,提出了一种名为“流形约束超连接”的新架构,旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益 [1] - mHC通过将传统Transformer的单一残差流扩展为多流并行架构,并利用Sinkhorn-Knopp算法将连接矩阵约束在双拟随机矩阵流形上,成功解决了超连接在大规模训练中因破坏恒等映射属性而导致的数值不稳定和信号爆炸问题 [1] - 该方法在保留“加宽残差流”带来的性能提升的同时,解决了其导致的训练不稳定和显存消耗过大的问题 [4] 技术背景与问题 - 传统的残差连接凭借“恒等映射”保证了信号无损传输和训练稳定性,但瓶颈在于信息通道的宽度受限于隐藏层维度 [3] - 以超连接为代表的研究通过扩展残差流宽度和多样化连接模式,拓展了残差连接范式,带来了显著的性能提升,但也带来了两个严重问题 [3] - 问题一:从根本上破坏了残差连接固有的恒等映射属性,导致了严重的训练不稳定性和受限的可扩展性 [3] - 问题二:额外增加了显著的内存访问开销 [3] - 原始的HC中,连接矩阵是自由学习的,没有约束,导致信号在经过多层传播后,数值会“爆炸”或“消失”,破坏了恒等映射的特性,模型越深越难训练 [6] - 通道变宽意味着显存读写和通信成本成倍增加,即“显存墙”问题 [6] mHC方法原理 - mHC是一个通用框架,它将HC的残差连接空间投影到一个特定的流形上,以恢复恒等映射属性,同时结合严格的基础设施优化以确保效率 [3] - 核心前提是将残差映射约束在一个特定的流形上,既能保持跨层信号传播的稳定性,又能促进残差流之间的相互作用,以保持模型的表达能力 [8][9] - 具体做法是将残差映射限制为双拟随机矩阵,即具有非负项且行和与列和均为1的矩阵 [10] - 团队利用Sinkhorn-Knopp算法将残差连接矩阵投影到Birkhoff多胞形上,这使得信号传播变为特征的“凸组合”,从数学上严格保证了信号范数的稳定性 [4] - 选择双拟随机性的原因包括:其谱范数有界且不超过1,这意味着学习到的映射是非扩张的,可有效缓解梯度爆炸问题 [15] - 双拟随机矩阵集对矩阵乘法具有封闭性,确保了跨多层的复合残差映射仍保持双拟随机,从而可在整个模型深度上维持稳定性 [15] - 该集合构成了Birkhoff多胞形,是排列矩阵集的凸包,这意味着残差映射充当了排列的凸组合,其重复应用会单调地增加跨流的信息混合,起到鲁棒的特征融合作用 [15] - 团队还对输入映射和输出映射施加了非负约束,以防止因正负系数复合导致的信号抵消 [12] - 最终的约束映射通过Sinkhorn-Knopp算子获得,在实验中采用t_max=20次迭代 [16] 高效基础设施设计 - DeepSeek为mHC量身定制了基础设施设计,使其在扩展倍率n=4时在大模型中的训练开销仅增加6.7% [4][17] - 算子融合:重新调整RMSNorm的顺序以提高效率,并采用混合精度策略 [17] - 开发了统一的算子,将多次扫描和矩阵乘法融合,减少内存带宽瓶颈和算子启动开销 [18] - 在单个算子中实现Sinkhorn-Knopp迭代及其自定义反向传播 [19] - 将输入和输出映射的应用与残差合并融合,显著减少了内存读写量 [20] - 重计算:为了减轻n流设计带来的内存压力,在前向传播后丢弃mHC算子的中间激活,并在反向传播时即时重新计算 [21] - 通过推导得出最优重计算块大小,以最小化总内存占用 [22] - DualPipe中的通信重叠:扩展了DualPipe调度算法,以改善流水线并行阶段边界处的通信与计算重叠 [23] - 在专用高优先级计算流上执行MLP层的内核,并避免在注意力层使用持久算子,以防止阻塞通信流并提高设备利用率 [23] 实验设置与模型配置 - 研究团队通过语言模型预训练来验证所提方法的有效性,并对基线模型、超连接以及提出的mHC进行了对比分析 [25] - 采用了受DeepSeek-V3启发的MoE架构,训练了四种不同的模型变体 [26] - HC和mHC的扩展率n均设置为4,主要关注点是一个27B参数规模的模型 [26] - 训练了较小的3B和9B模型来分析计算扩展性,并训练了一个独立的3B模型在一个固定的1T Token的语料库上以研究Token规模的影响 [26] - 27B模型的总参数量为27.0B,训练了262B个Token [27] 实验结果:训练稳定性 - 在27B参数规模的模型上,mHC有效缓解了在HC中观察到的训练不稳定问题,与基线模型相比,最终损失降低了0.021 [29] - 梯度范数分析证实了稳定性的提升:mHC表现出明显优于HC的行为,保持了与基线模型相当的稳定轮廓 [29] 实验结果:下游任务性能 - 在8个不同的下游基准测试中,mHC始终优于基线模型,并在大多数基准测试中超越了HC [30] - 与HC相比,mHC进一步增强了模型的推理能力,在BBH和DROP任务上分别实现了2.1%和2.3%的性能增益 [31] - 具体性能数据对比(27B模型): - BBH:基线43.8, HC 48.9, mHC 51.0 [30] - DROP:基线47.0, HC 51.6, mHC 53.9 [30] - GSM8K:基线46.7, HC 53.2, mHC 53.8 [30] - HellaSwag:基线73.7, HC 74.3, mHC 74.7 [30] - MATH:基线22.0, HC 26.4, mHC 26.0 [30] - MMLU:基线59.0, HC 63.0, mHC 63.4 [30] - PIOA:基线78.5, HC 79.9, mHC 80.5 [30] - TriviaOA:基线54.3, HC 56.3, mHC 57.6 [30] 实验结果:规模扩展性 - 计算规模扩展曲线涵盖了从3B、9B到27B参数规模的规模扩展过程,轨迹表明即使在更高的计算预算下,性能优势依然稳健地得以保持,仅表现出轻微的衰减 [34] - Token扩展曲线展示了3B模型在训练过程中的轨迹,验证了mHC在大规模场景下的有效性 [34]
OpenDataArena全面升级版正式上线,四大核心模块重构数据价值评估新格局
机器之心· 2026-01-01 16:22
项目发布与核心理念 - 上海人工智能实验室OpenDataLab团队开源了首个全面、公正的后训练数据价值评测平台OpenDataArena,旨在将数据选择从“盲目试错”转变为可复现、可分析、可累积的严谨科学[2] - 该项目在初版发布后经过数月高强度技术验证与功能打磨,近期迎来全面升级,正式面向全体开发者开放[2] - ODA的核心理念是数据价值必须通过真实的训练来检验,而非主观臆测,其正式版本由四个相互支撑的核心模块组成,标志着平台已进入可进行系统化评测的阶段[4] 核心模块一:数据价值排行榜 - ODA构建了数据价值排行榜,通过统一的训练与评测流程,在固定模型规模和配置下对不同领域的文本及多模态数据进行横向评测[6] - 评测覆盖通用、数学、代码、科学与长链推理等能力维度,使数据价值能通过下游任务的实际表现量化[6] - 平台已从仅评测文本数据扩展到支持多模态数据集质量评测,并以Qwen3-VL作为真实训练的基准模型[6] - 排行榜数据显示,在Llama-3.1-8B模型上,OpenThoughts3-1.2M数据集使平均分提升27.3分,数学能力提升55.8分,代码能力提升37.9分[7] - 在相同模型上,OmniThought-0528数据集使平均分提升21.7分,数学能力提升57.8分[7] - AM-Thinking-v1-Distilled-math数据集使平均分提升18.7分,数学能力提升58.5分[7] 核心模块二:数据血缘探索器 - ODA发布“数据血缘探索器”,旨在清晰刻画数据集之间的继承、混合与蒸馏关系,以解决数据界的“近亲繁殖”问题[8][9] - 该工具通过结构化建模与可视化展示,让研究者能直观看到数据集间的高度重叠与依赖关系,以及社区中被反复复用的核心数据源[9] - 此能力有助于结构性解释为何某些数据集能长期占据排行榜前列,并更清晰地发现潜在的训练-测试污染问题[9] 核心模块三:多维数据评分器 - ODA从数据本体出发,提供了一个细粒度的数据质量评分框架,基于模型评估、LLM-as-a-Judge与启发式指标等多种方法[12] - 该框架从指令复杂度、响应质量、多样性等维度对数据进行深度剖析,生成每份数据的专属“体检报告”[12] - 平台已对千万级样本的评分结果进行开源,并已扩展支持80多种多维度的评分器,支持用户一键对所需数据维度进行打分[12] 核心模块四:全开源评测工具箱 - ODA完全开源其训练、评分和可视化工具,覆盖从模型微调到结果复现的完整流程,以及精细化的数据评价打分器[15] - 工具支持用户一键复现结果,或对自己私有数据进行标准化评测,实现真正意义上的横向对比[15] 关键研究发现 - 在对120多个主流数据集进行超过600次训练和4000万条数据的深度分析后,团队得出了一系列重塑业界认知的结论[16] - 研究发现,解答质量比问题复杂度更关键,解答的长度与最终质量呈强正相关,在数学和科学类任务中尤为突出[17] - 代码数据具有“异类”属性,讲究简洁精准,长篇大论反而损害效果,通用的评分标准在代码领域经常失效[18] - 开源数据“近亲繁殖”严重,社区反复依赖的核心数据源有限,造成了严重的数据同质化,且数据污染问题加剧,大量训练样本直接与测试集重叠[18] - “少即是多”的策略存在局限性,实验证明其极度依赖模型底座的先天能力,若底座一般,过少的数据量会导致性能崩塌,真正稳健的路径是追求“高质量且具规模”的数据配方[18] - 以AM-Thinking-distilled为代表的超大规模聚集型数据集能同时在数学与代码任务上取得优势,关键在于其跨领域融合能力,它通过递归方式整合了435个数据节点,显著提升了数据分布的多样性与互补性[18] - 数据可以弥补底座差距,即使Llama 3.1和Qwen 2.5之间存在显著的底座分差,使用如OpenThoughts3-1.2M这样的高质量微调数据,这个差距几乎可以被抹平[19] 未来展望 - OpenDataArena的远景不满足于仅建立排行榜,更致力于将数据研发从“玄学”推向可复现、可分析的“科学”[21] - 未来,ODA将持续进化,探索智能体数据,以及金融、医疗等垂直领域的深层价值[21]
谷歌三年逆袭:草蛇灰线,伏脉千里
机器之心· 2026-01-01 12:33
行业竞争态势 - 2025年12月1日,OpenAI宣布进入最高级别“红色警报”状态,暂停所有非核心项目,将全部资源集中于改进ChatGPT [1][2] - 2022年11月30日ChatGPT发布后,五天内用户突破百万,两个月突破一亿,导致谷歌内部迅速拉响“红色警报” [4] - 谷歌在经历低谷后,通过推出Gemini 3大语言模型、Nano Banana图像生成模型、Veo3视频生成模型以及TPU芯片,在各个战线全面开花,重夺技术制高点 [10] - 竞争远未结束,OpenAI即将发布性能超越Gemini 3的推理模型,并研发代号Garlic的新模型,Anthropic的Claude在企业市场扩张,Meta以高薪挖角顶尖人才 [71][72] 公司战略与组织变革 - 谷歌一改以往“追求完美才发布”的传统,转变为“先发布再迭代”的敏捷策略,要求“一百天内打造一个能与ChatGPT抗衡的产品” [18][23] - 2024年至2025年间,谷歌启动了历史上最大规模的组织扁平化行动,裁撤了约35%的负责小团队的经理岗位,消除冗余层级 [26] - 2023年4月,谷歌将Google Brain和DeepMind合并,成立新的Google DeepMind部门,由德米斯·哈萨比斯出任CEO,结束资源内耗和技术分歧 [34][35] - 谷歌打破部门墙,AI成为全公司核心战略,搜索、云计算、广告、硬件等业务线围绕AI重组,形成“AI优先”文化 [40] 产品发布与市场反应 - 2023年2月8日,谷歌Bard人工智能演示直播中出现事实性错误,导致Alphabet股价下跌近9%,市值蒸发约1000亿美元 [21] - 望远镜事件后,皮查伊安排8万名员工花费两到四个小时对Bard进行内部测试,并为项目增派数百名员工 [22] - 谷歌实验室引入类似创业公司的快速迭代机制,负责人直接在社交媒体回应用户反馈,并实时转化为工程师的修复任务 [27][28] - 2024年,Gemini产品团队从搜索部门转移到DeepMind,这是DeepMind首次直接负责面向消费者的产品 [39] 创始人回归与技术驱动 - 2023年,已退居幕后的联合创始人谢尔盖·布林重新回归,提交了多年来的首次代码访问权限申请,并花费大量时间与AI团队在一起,亲自参与技术工作 [43][44][45] - 布林亲自审查Gemini模型的训练损耗曲线,关注底层技术细节,并习惯在开车时与更先进的Gemini型号进行实时对话 [46] - 布林直接介入打破内部流程障碍,例如解决Gemini被禁止用于写代码的规定,并通过使用Gemini识别贡献来促进员工晋升 [47][48][49][50][51] - 布林的存在简化了招聘流程,他多次亲自打电话邀请顶级科学家重返谷歌参与Gemini项目 [52] 人才战略与激励机制 - 2025年,谷歌招聘的AI软件工程师中,约20%是曾经离职又被请回来的“老兵”,他们能迅速上手,降低磨合成本 [58][59] - 最具代表性的是Transformer论文作者之一Noam Shazeer的回归,谷歌在2024年支付了高达27亿美元的许可费给其创办的Character.AI,以召回其团队 [60][62] - 谷歌吸引人才的核心筹码是“基础设施羡慕”,包括能调度数十万个TPU节点的超级计算集群,以及处理来自九个超过10亿用户产品的真实世界数据 [64] - 2025年,谷歌改革激励机制,将高绩效AI人才的报酬更多地与产品落地指标(如模型推理效率、用户活跃度)挂钩,而非仅仅是论文发表量 [67] 企业文化与运营节奏 - 谷歌AI负责人曾坦承,公司因面临更大的“声誉风险”而行动比创业公司保守,这种过度的风险厌恶导致了早期的被动局面 [16][17] - 皮查伊在内部要求员工内化紧迫感,加快公司运转速度,以应对激烈的竞争和业务挑战 [25] - 联合创始人布林曾对AI部门表示,员工应每日到岗,每周60小时是“最佳效率区间”,强调必须“全速推进”以维持领先 [30] - Gemini项目组遍布全球八个时区,数百个协作聊天室昼夜同步,负责人德米斯·哈萨比斯习惯于工作到凌晨 [31][32]
系统学习Deep Research,这一篇综述就够了
机器之心· 2026-01-01 12:33
Deep Research (DR) 综述的核心观点 - 大模型应用正从对话与创意写作,走向解决开放、复杂的研究型问题,催生了Deep Research这一新方向,旨在超越传统RAG静态的“一次检索+一次生成”范式,以支撑多步推理与长期研究流程[2] - 来自山东大学、清华大学、CMU、UIUC、腾讯等机构的团队发布了目前最全面的深度研究智能体综述《Deep Research: A Systematic Survey》,系统性地提出了三阶段能力发展路径,并从系统视角梳理了关键组件及训练优化方法[2] Deep Research 的定义与能力演进路径 - DR并非具体模型或技术,而是一条从信息获取到完整科研流程的逐步演进能力路径[5] - **阶段1:Agentic Search**:模型具备主动搜索与多步信息获取能力,能根据中间结果动态调整查询策略,核心目标是持续找对关键信息[5] - **阶段2:Integrated Research**:模型能对多源证据进行理解、筛选和整合,最终生成逻辑连贯的报告[6] - **阶段3:Full-stack AI Scientist**:模型扩展到完整科研闭环,具备提出研究假设、设计执行实验、基于结果反思与修正的能力,强调自主性与长期目标驱动的科研能力[6] - 能力对比显示,从标准RAG到Full-stack AI Scientist,智能体的动作空间从Narrow变为Broad,推理视野从Single变为Long-horizon,工作流从Fixed变为Flexible,输出形式从Short Span发展为Academic Paper[8] Deep Research 的四大核心组件 - **查询规划**:负责决定下一步查询什么信息,将“如何提问”纳入推理过程,使模型能在多轮研究中动态调整路径,具体分为顺序规划、并行规划和树状规划三类策略[10][11] - **信息获取**:从三个维度归纳方法:1) 何时检索:根据当前不确定性与信息缺口动态判断,避免冗余或过早依赖外部信息;2) 检索什么:从Web或知识库检索多模态或纯文本信息;3) 如何过滤:通过相关性判断、一致性校验或证据聚合机制筛选整合噪声较高的检索结果[12][13][14] - **记忆管理**:作为支撑DR系统长期运行与持续推理的核心基础设施,提供状态延续和经验累积,过程拆解为记忆巩固、记忆索引、记忆更新与记忆遗忘四个相互关联的阶段[15] - **答案生成**:强调结论与证据的对应关系及论证过程的逻辑一致性,需要智能体显式整合多源证据与中间推理结果,使输出支持事实核验与过程回溯[17] Deep Research 系统的训练与优化方法 - **提示工程**:通过精心设计多步提示构建研究流程,引导模型执行规划、检索与生成等步骤,适合快速构建原型,但效果依赖提示设计且泛化能力有限[20] - **监督微调**:利用高质量推理轨迹对智能体进行监督微调,直观有效,但获取覆盖复杂研究行为的标注数据成本较高[21] - **智能体强化学习**:通过强化学习信号直接优化DR智能体在多步决策过程中的行为策略,无需复杂人工标注,主要分为两种做法[22] - **端到端优化**:联合优化查询规划、检索、信息整合与报告生成等多个环节,有助于协调模块,但面临奖励稀疏、训练不稳定及采样成本高的问题[26] - **优化特定模块**:仅对查询规划或调度等关键模块施加强化学习信号,降低训练难度,更易于在现有系统中落地[26] Deep Research 面临的核心挑战 - **内部知识与外部知识的协同**:研究型智能体需在自身参数化知识与外部检索信息之间做出动态权衡,决定何时依赖内部推理、何时调用搜索工具[24] - **训练算法的稳定性**:面向长线任务的训练依赖强化学习等方法,但优化过程容易出现策略退化或熵坍缩等问题,使智能体过早收敛到次优行为模式,限制其探索多样化推理路径[24] - **评估方法的构建**:如何合理评估研究型智能体仍是开放问题,综述系统梳理了现有benchmark,但构建可靠高效的评估方法仍有待探索,尤其在开放式任务中对report-level输出的全面评估[25][27] - 当前广泛采用的LLM-as-a-judge范式在实践中受顺序偏差、偏好hacking等问题影响,限制了其作为测评方法的可靠性[27] - **记忆模块的构建**:是DR系统中最具挑战性的部分之一,需在记忆容量、检索效率与信息可靠性之间取得平衡,并将记忆机制稳定融入端到端训练流程[28] 行业现状与未来展望 - Deep Research代表了智能体在能力、动作空间及应用边界上的一次转变:从单轮的答案生成,走向面向开放问题的深度研究[30] - 该方向目前仍处于早期阶段,未来重要问题是如何在开放环境中构建既具自主性、又具可信性的Deep Research智能体[30] - 相关综述将持续更新,以总结该领域的最新进展[30]