Transformer
搜索文档
腾讯研究院AI速递 20260317
腾讯研究院· 2026-03-17 00:01
行业核心动态:AI智能体与下一代模型架构的演进 - 谷歌与微软联合推出并开源WebMCP协议,使AI智能体可通过API直接调用网页底层功能,无需依赖截屏或模拟点击等低效方式 [1] - 智谱推出为OpenClaw龙虾场景深度优化的GLM-5-Turbo模型,强化工具调用、长链路执行等能力,盲测中90%用户认为其优于其他国产模型 [2] - 月之暗面发布注意力残差(AttnRes)论文,用动态注意力机制替代传统残差连接,在Kimi Linear架构上验证后使GPQA-Diamond基准提升超20%,计算效率相当于1.25倍算力基线 [3] - Sam Altman预言下一代AI架构将彻底颠覆Transformer,性能跃升不亚于当年Transformer对LSTM的颠覆,并认为AGI可能在两年内降临 [10] - 后Transformer架构竞争已启动,例如Mamba第三代架构推理吞吐快5倍,英伟达全线新模型切换混合架构 [11] 智能体(Agent)生态与应用发展 - 智谱同步发布针对Agent场景的龙虾套餐(个人版和Team版),以解决tokens消耗高的问题,并推出企业级Claw安全管理体系 [2] - 腾讯元宝App更新后,用户可将OpenClaw龙虾接入“元宝派”社交功能,实现多人共同养虾、龙虾互动的社交化Agent体验,生态从“人+Bot”扩展为“人+Bot+龙虾” [4] - 腾讯电脑管家上线“龙虾管家”功能,为OpenClaw提供全套安全防护,包括文件保护、端口暴露检测等,针对当前38万个OpenClaw实例公网暴露的安全隐患提供解决方案 [5][6] - UniPat AI开源SWE-Vision极简视觉智能体框架,仅用两个工具和约五百行代码,通过让多模态模型编写Python代码来分步处理视觉任务,显著提升基础感知任务精度 [7][8] 模型与智能体能力突破 - 陈天桥旗下MiroMind发布MiroThinker-1.7和H1重型推理智能体,在BrowseComp(88.2%)、GAIA(88.5%)等基准上刷新SOTA [7] - MiroMind H1采用智能体原生训练和以验证为核心的重型推理模式,在实测中提前15天预测黄金价格误差仅0.08% [7] - 智谱GLM-5-Turbo在工具调用稳定性和长任务执行方面获得多家大厂内测团队高度评价 [2] - UniPat AI的SWE-Vision框架揭示了视觉领域的新方向:通过test-time scaling(多写代码)而非仅靠延长思考时间来提升任务精度 [8] 行业风险与监管动向 - 315晚会曝光GEO(生成式引擎优化)黑产,商家可通过几篇软文、几小时即可让虚构产品出现在主流大模型的推荐结果中,涉事公司一年服务200多客户 [9] - 被曝光系统套餐价格从2980元到16980元/年不等,高级版每天可生成63篇虚假软文 [9] - 国家市场监管总局已将AI生成广告列为2026年互联网广告监管重点,将开展集中整治 [9]
全新线性注意力范式!哈工深张正团队提出模长感知线性注意力!显存直降92.3%!
机器之心· 2026-03-15 11:30
研究背景与核心问题 - Transformer模型在计算机视觉领域面临高分辨率图像和超长序列任务带来的算力与显存瓶颈,标准Softmax注意力的二次复杂度导致70K+token的超分辨率任务显存爆炸,推理延迟高[2] - 线性注意力通过核函数重构实现了线性复杂度,解决了算力开销,但始终存在性能退化问题,无法达到原生Softmax注意力的精度水平[3] 核心技术创新:NaLaFormer框架 - 研究团队提出NaLaFormer框架,通过模长-方向分解精准定位并解决了线性注意力的两大核心缺陷,在保持线性复杂度的同时实现了视觉任务精度的全面超越[3] - 在70K+token超分任务中实现92.3%的峰值显存降低,为线性注意力在视觉领域的落地开辟了新范式[3] - 系统性揭示了线性注意力性能不佳的两大根源:1) Query向量的模长在归一化中被抵消,导致注意力分布尖峰性丢失;2) 非负性约束导致不可逆的信息损失[6][8] 技术方案细节 - 针对Query Norm被抵消的问题,设计了Query-Norm-Aware特征映射,将Query Norm显式编码进核函数,通过锐化函数动态调控注意力熵,复刻了Softmax注意力中“Query模长越大,注意力分布越尖锐”的核心特性[10][13][14] - 针对非负性约束的信息丢失问题,提出了余弦方向相似度机制,基于几何变换在保证非负性的同时完整保留内积的细粒度信息,避免了传统激活函数带来的信息损失[15][16] - 构建了统一的NaLaFormer架构,将模长感知线性注意力模块与门控架构深度融合,实现了对视觉Transformer的直接替换[17][20] 性能表现:图像分类 - 在ImageNet-1K图像分类任务上,NaLaFormer实现了对现有线性注意力模型的全面超越[22] - 轻量级NaLaFormer-XT仅8M参数量达到79.1% Top-1精度,同量级下较基线最高提升7.5%[22] - 大规模NaLaFormer-L以95M参数量实现85.7% Top-1精度,刷新了高效视觉模型在该基准上的纪录[22] 性能表现:密集预测任务 - 在COCO目标检测任务中,NaLaFormer-T基于Mask R-CNN框架实现47.6% APb、43.0%分割APm,全面超越同量级经典视觉Transformer骨干[24] - 在ADE20K语义分割任务中,较同量级基线最高提升4.7% mIoU[24] - 在CityScapes城市场景分割任务中以82.5% mIoU领跑同规模模型[24] 性能表现:超分辨率任务 - 在70K+token的高分辨率超分任务中,NaLaFormer的线性复杂度优势被彻底释放[26] - 在Urban100 4×超分任务中实现36.4%的推理延迟降低,峰值显存从69G降至5.3G,降幅高达92.3%[26][27] 性能表现:长序列与跨模态能力 - 在长序列建模基准Long Range Arena上,NaLaFormer实现61.2%的平均精度,刷新了线性注意力模型的SOTA纪录,同时保持827.7的高吞吐量与极低显存占用[29] - 从零训练340M参数量的语言模型,在常识推理任务中,NaLaFormer平均得分超越Mamba、RetNet、GLA等强基线[29] 性能表现:扩散生成模型 - 在扩散Transformer框架中,将原始注意力模块替换为NaLaFormer后,生成质量稳步提升[31] - NaLaDiT相比原版DiT,FID从68.40降至61.64,IS提升至23.24[31] - NaLaSiT在SiT变体中的表现,FID低至53.08,sFID 8.94,IS 27.63[31][32]
ICLR2026|山大、理想汽车和中科院联合提出离线强化学习新范式:让Transformer学会「去其糟粕」
机器之心· 2026-03-14 10:30
核心技术突破:PRGS框架 - 针对离线强化学习中训练数据固定、质量不均且传统方法(如Decision Transformer)以“整条轨迹”为学习单位导致局部有效动作被整体低回报“稀释”的痛点,山东大学、中科院、理想汽车与清华大学的研究团队联合提出了名为PRGS(Peak-Return Greedy Slicing)的新框架[2][3] - PRGS框架的目标是在不改变离线数据来源的前提下,从原始轨迹中自动筛选出更有学习价值的子轨迹用于训练,并在推理阶段避免“糟糕历史”对当前决策的干扰[3] - 该框架包含三个核心模块:1)基于最大均值差异的回报估计器,用于预测状态-动作对的潜在回报分布并获得乐观的回报估计值;2)贪心子轨迹切片,围绕轨迹中的峰值回报点进行递归切片,提取高质量子轨迹;3)推理时的自适应历史截断机制,当评估发现当前状态比历史更有前途时,会丢弃历史上下文以优化决策[11][16][19] 性能表现与实验验证 - 在D4RL、BabyAI等主流基准测试中,PRGS不仅超越了各种基线方法,更让Transformer类离线RL方法的平均性能提升了15.8%[4] - 在D4RL的Maze2D-Large迷宫任务中,应用了PRGS的DT-PRGS模型得分高达127.5,而原始Decision Transformer模型得分不到30分,展现了在需要极强“缝合能力”的复杂场景中的显著优势[22] - 在真实业务场景测试中,于阿里妈妈开源的广告竞价数据集AuctionNet上,应用了PRGS的行为克隆算法在多个周期内实现了显著的利润提升,例如BC-PRGS相比BC平均提升了9.1(从269.9提升至279.0)[25][27] 学术价值与行业影响 - 该研究成果已获接收于国际顶级机器学习会议ICLR 2026,该会议有效投稿接近19000篇,接收率约为28%,体现了其学术认可度[4] - PRGS的成功证明了在离线强化学习中,数据质量(“精”)与数据数量(“多”)同等重要,其技术框架为自动驾驶、机器人控制等工业级应用提供了极具价值的技术参考[28] - 该方法的核心逻辑模仿了人类从失败经历中学习最佳片段的过程,通过精细化操作到时间步级别,解决了传统方法粒度偏粗和缝合能力缺失的问题[15][13]
ICLR 2026|早于DeepSeek Engram,STEM已重构Transformer「记忆」
机器之心· 2026-03-09 10:50
文章核心观点 - 大语言模型的研究重点正从参数规模扩张转向参数组织方式的创新,旨在提升记忆存储与访问的效率、可编辑性和系统性能[2] - STEM模型架构通过将Transformer FFN中的动态“算地址”机制替换为静态“查地址”的查表式记忆,实现了记忆容量与每token计算量的解耦,并在多个维度带来显著提升[5][8][13] - 这种简洁、稳定且工程友好的设计思路,为下一代基座模型的演进提供了一条重要路径,表明通过优化参数组织方式而非单纯增加规模,同样能获得显著能力提升[29][30] STEM模型的核心机制与设计 - **核心直觉与设计**:STEM的关键洞察在于质疑FFN中地址向量需由输入动态生成的必要性,选择用静态的、按token索引的embedding表直接查表获取向量,取代传统的up-projection密集矩阵乘法[5][8][9] - **结构变化**:该设计仅替换了FFN中的up-projection子模块,完整保留了gate与down-projection用于上下文调制与压缩,使模型结构发生了本质变化[11][12][13] STEM模型带来的优势与影响 - **可编辑性提升**:由于存在显式的token-参数对应关系,研究者可直接替换特定token的STEM向量来改变模型在相关事实上的输出行为,为知识编辑和模型理解提供了新思路[16][18][19] - **训练稳定性增强**:作为一种静态稀疏结构,STEM避免了MoE等动态路由方案中常见的负载倾斜和损失尖峰问题[20] - **记忆空间更高效**:使用token索引embedding改变了FFN输入向量的几何分布,使向量间呈现更大的角度散布、更接近正交,有效减少了参数间干扰,在相同或更低计算成本下维持了更多可寻址的记忆槽位[22][23] - **计算与系统效率优化**:移除up-projection节省了约 d⋅d_ff 级别的矩阵乘法开销,且大规模embedding表可离载到CPU,通过异步预取与缓存策略访问,降低了FLOPs与IO开销[24] 实验结果与工程落地 - **性能表现**:在350M与1B模型规模上,STEM相比稠密基线整体平均性能提升约3–4%,部分知识类任务提升幅度可达9–10%[26][36] - **长上下文优势**:在Needle-in-a-Haystack与LongBench等长上下文评测中,STEM的优势随着上下文长度增加而扩大[36] - **工程实现关键**:仅替换up-projection是关键,盲目替换gate-projection会破坏上下文调制能力;embedding表可CPU离载,训练时需将梯度回写到对应的优化器状态;可采用部分层替换或混合变体来平衡参数占比与显存压力[36]
AI势不可挡:2026年模型升级有哪些预期差?
2026-02-10 11:24
纪要涉及的行业或公司 * AI(人工智能)行业,特别是大模型、多模态模型、世界模型(具身智能)及AI应用领域 [1] * 提及的海外公司:谷歌 [11] * 提及的中国公司:阿里巴巴、腾讯、字节跳动 [11] * 提及的行业:短剧、漫剧(文生视频应用)[8],医疗、司法、企业服务(To B高价值场景)[11],税务、工业、企业级服务(国内看好的To B方向)[12],IP、工具、内容分发(文生视频配套产业)[13] * 提及的产业链环节:AI算力、AI芯片、CPU、存储 [13][14] 核心观点和论据 AI模型技术演进路径与确定性提升 * 模型是AI产业的核心驱动力,2026年模型升级的原有范式(预训练)将继续向上,同时模型与场景融合将加速 [1] * 模型演进历程:2018年Transformer架构出现 -> 2022年ChatGPT引爆市场 -> 2023-2024年通过扩大参数量提升智力 -> 2024-2025年后训练(如指令微调、思维链)兴起,使模型更拟人化 -> 2024年后从文本向多模态演进 [2] * 2026年模型将迎来“世界模型”的新变革,对应未来物理AI(如机器人、具身智能)市场 [3] * 模型能力量化:当前文本模型平均分约80分,原生多模态模型综合能力约30-40分,未来多模态能力有望提升至80分 [3] * 模型每一次大规模商业化层级的开启(如文本、多模态、物理世界模型),都会带来10倍甚至更大的市场增量 [4] * 2025年4月AI行情调整主因是预训练数据遇到瓶颈,但后训练新范式(如post training, IL, COT)为AI发展续命 [5] AI商业化落地加速与关键场景 * 2026年AGI(通用人工智能)行业将进入“与环境交互”的年份,更复杂、高价值的场景将被开启,AI将进入“A进程元年” [7] * 过去制约AI的最大核心问题“如何落地和变现”将在2026年得到明晰答案,AI应用将迎来规模化、商业化爆发 [8] * **文本模态**:Coding(编程)场景因AI的泛化能力,已进化为可落地的变现应用,开启了市场对AI商业化的信心 [6] * **多模态(文生视频)**:2026年文生视频模型将迈入生产力工具阶段,开启多模态变现开端,复刻2025年Coding场景的商业化路径 [8][9][10] * 论据1:文生视频的时长和质量将迎来较大提升,从15秒向30秒甚至40秒迈进 [9] * 论据2:文生视频的编辑可操控性将因多模态模型对物理世界规则理解的加深而大幅提升 [9] * **To B高价值场景**:2026年海外医疗、司法、企业服务等场景将迎来大规模落地 [11] * 落地快的场景需具备条件:较好的数字化基础、明确的规则、高人力成本 [12] * 国内看好方向:税务、工业、企业级服务 [12] 投资建议与看好的方向 * **应用侧**: * **AI入口重构**:未来2-3年是AI to B/to C入口重构的黄金变革期,看好有模型云及入口先发优势的厂商,如谷歌、阿里巴巴、腾讯、字节跳动 [11] * **To B高价值场景**:看好医疗、司法、企业服务(海外),以及税务、工业、企业级服务(国内) [11][12] * **AI+视频**:文生视频将迎来商业化元年,带动从IP、工具到内容分发的配套产业链变革,大幅降低内容供给门槛,引发内容爆发 [13] * **算力侧**: * **AI算力**:应用推理开启后,推理需求可能是训练需求的3倍甚至10倍以上,将带动算力需求大幅增长 [13] * **CPU及存储**:未来在训练和推理范式上,CPU、AI芯片及存储环节将出现大规模新兴变化,建议积极关注 [14] 其他重要但可能被忽略的内容 * 分析师认为近期AI产业调整主因是:需求侧落地未见明显加速,以及海外宏观波动放大了AI板块的波动 [1] * 分析师所在机构(长江证券)联合长电科技举办了本次AI主题汇报 [14] * 分析师建议投资者不要因短期波动而丧失对AI产业长期进展的信心 [14]
90后大牛,集体上位
投资界· 2026-02-09 15:19
文章核心观点 - 2025年底至2026年初,中国科技巨头的大模型业务领导权正经历一场代际更迭,一批90后年轻科学家迅速走向前台,取代了传统互联网时代的资深老将[3][5] - 这一权力交接的核心原因在于,大模型技术范式与过去互联网的“小步快跑、重运营”逻辑截然不同,它依赖暴力美学、物理学和前沿直觉,知识的半衰期极短,使得“Transformer原生代”的年轻科学家在认知同步和探索能力上更具优势[5][6][9] - 不同公司根据自身禀赋采取了不同的人才策略:腾讯和阿里启用年轻科学家进行前沿探索和开源生态建设,而字节跳动则聘请资深老将进行系统整合,这反映了各公司在大模型竞争中所处阶段和战略需求的差异[11][12] 科技巨头大模型人才策略 - **腾讯**:通过引入顶尖年轻科学家实现管理逻辑重组,如前OpenAI研究员姚顺雨以首席AI科学家身份直接向总裁刘炽平汇报,旨在缩短决策链,实现认知同步[3][9] - **阿里**:将开源模型“通义千问”的核心推动重任交给93年的年轻P10林俊旸,看重其融合学术、工程和社区文化的混血能力,以争夺开源生态话语权[4][10] - **字节跳动**:聘请来自谷歌的资深专家吴永辉担任大模型一号位,其战略重点并非从0到1的灵感,而是需要具备全球视野和复杂跨部门协同能力的系统级整合,以将内部分散的AI力量拧成一股绳[11][12] 代际更迭的驱动因素 - **技术范式剧变**:大模型是依赖Scaling Laws和暴力美学的全新物种,其发展是非线性的跳跃,需要敢于在黑暗中开火、相信智能涌现的直觉,这与过去可预测的、重运营和A/B测试的互联网App工厂逻辑完全不同[5][7] - **知识结构优势**:90后领军人物在学术思维最活跃的爆发期(2017年左右)恰好接触了Transformer架构的诞生,他们是“Transformer原生代”,没有传统规则引擎和统计学NLP的历史包袱,其经验是从0到1的探索模式,与大模型时代需求完美匹配[6][8] - **决策效率要求**:AI技术迭代周期可能短至一个月甚至一周,传统冗长的汇报机制会导致决策滞后,必须让最懂前沿技术的人离决策层最近,资历和人脉的重要性让位于第一性原理的推演能力[9] 未来趋势与行业影响 - **权力交接完成**:2026年,中国大模型领域的权力交接已经完成,未来职场的竞争力在于对新技术的感应速度和踩准节奏的能力,而非资历的积累[13] - **认知同步至上**:在知识半衰期以月和周计算的时代,保持认知同步比积累资历重要得多,需要不断将脑子“清零”以跟上技术进化速度[13] - **能力模型重构**:未来的AI领袖需要是学术、工程和社区文化的混血儿,这种能力模型在70后、80后中难以找到,标志着行业对人才评价标准的根本性转变[10][13]
大厂AI权力交接:90后,集体上位
36氪· 2026-02-02 08:22
行业核心现象:中国科技巨头大模型领导层年轻化 - 2025年底至2026年初,腾讯、阿里等中国科技公司的大模型业务核心负责人悄然更换为一批90后年轻面孔[1] - 这些领军人物年龄集中在25至32岁之间,标志着一次显著的权力交接[2][17] 腾讯:引入顶尖年轻科学家,重构管理逻辑 - 腾讯以高规格引入前OpenAI研究员姚顺雨,其头衔为首席AI科学家,并直接向总裁刘炽平汇报[1] - 清华大学博士、前Sea AI Lab科学家庞天宇也加入腾讯,负责多模态强化学习[1] - 公司管理逻辑重组,缩短决策链,让最懂前沿技术的人(如姚顺雨)直接向最高管理层汇报,以应对AI技术信息半衰期极短的挑战[7][8] 阿里巴巴:重用年轻极客,押注开源与社区 - 阿里最年轻的P10员工林俊旸是开源模型“通义千问”的核心推手,其成长伴随GitHub和Hugging Face社区文化[9] - 公司看重其兼具学术、工程和社区文化的能力模型,旨在通过技术影响力置换未来商业版图[9] 字节跳动:路径差异,引入资深整合者 - 与其他公司不同,字节跳动的大模型负责人吴永辉是从谷歌引入的资深人士[10][11] - 公司本身算法驱动,基础设施和算力储备顶级,当前最需要的是将内部散落的AI力量进行“1到100”的系统级整合能力,而非“0到1”的灵感[12] - 吴永辉的角色被定位为负责基业长青的建筑师,进行复杂的跨部门协同与全球视野统筹[13] 年轻一代优势:Transformer原生代与能力模型 - 这批90后被称为“Transformer原生代”,他们在学术思维最活跃的爆发期(2017年左右)接触到了改变AI领域的Transformer架构,没有旧规则引擎和统计学NLP的思维包袱[3][4] - 其能力黄金公式为:顶尖AI实验室(如OpenAI、Google Brain)的研究训练 + 大厂或创业公司的规模化工程实践[6] - 他们从职业生涯早期就站在了Transformer架构和GPT系列演进的前沿,拥有从0到1探索模式的经验,这与大模型时代对前沿直觉、大胆假设和快速试错的需求完美匹配[5][6] - 他们对Scaling Laws(规模定律)抱有信仰,具备对不可预见的智能“涌现”的直觉,这种未被旧商业逻辑驯化的纯粹技术思维极具价值[5][15] 行业逻辑变迁:经验贬值与认知同步至上 - 在大模型领域,过去互联网时代依赖的运营、流量、A/B测试等经验价值下降[2] - 行业竞争逻辑从“关起门来憋大招”转向开源生态和社区话语权的争夺[9] - 知识的更新速度彻底覆盖了经验积累速度,技术的非线性跳跃使得旧经验可能成为枷锁[14][16] - 未来职场竞争力取决于对新技术感应的速度与保持认知同步的能力,而非资历深浅[18]
硅谷“钱太多”毁了AI ?!前OpenAI o1负责人炮轰:别吹谷歌,Q-Star 被炒成肥皂剧,7年高压被“逼疯”!
新浪财经· 2026-01-25 09:24
Jerry Tworek离职OpenAI的核心原因 - 核心人物Jerry Tworek于2026年1月离开OpenAI,其离职在内部引起巨大震动,被描述为“突然”且“重”[2][86] - 离职主要原因是希望从事有风险的基础研究,而OpenAI等大型AI公司已优先考虑用户增长等商业化指标,导致研究与产品开发脱节[2][86] - 在OpenAI的近七年里,公司从约30名员工成长为规模庞大的全球性公司,Jerry Tworek参与了包括Q-Star、Strawberry(后发展为o1推理模型)、GPT-4、ChatGPT以及早期代码模型和Chinchilla缩放规律在内的众多关键项目[13][14][86] 对OpenAI及行业现状的批评 - 指出OpenAI创新不足,原因包括:最佳模型的竞争异常激烈,公司需不断展现实力以留住用户并证明高昂的GPU成本合理性;僵化的组织结构(组织架构图)导致团队各自为政,跨团队研究难以开展[3][17][89] - 批评整个人工智能行业高度同质化,所有主要AI公司都在开发几乎相同的技术,产品几乎没有区别,迫使研究人员追求短期利益而非实验性突破[3][23][89] - 认为谷歌之所以能成功追赶OpenAI,本质上是OpenAI自身的失误,包括犯了一些错误、行动过于缓慢,未能充分利用原本拥有的巨大领先优势[3][55][89] 对行业研究环境与文化的观察 - 指出大模型行业的叙事已变得娱乐化,像“肥皂剧”或“真人秀”,技术进展被包裹在关于离职、跳槽和内部纷争的连续剧式叙事中,研究者像是在聚光灯下跑一场没有终点的马拉松[6][44][48][92] - 行业的高薪在某种程度上使研究者害怕失去工作,更倾向于追求短期、确定性的收益路径,而非鼓励冒险和大胆下注[28] - 认为研究结构、文化和协作方式比依赖某个特定“明星”研究者更重要,频繁跳槽的研究者往往反而不够高产[80][81] 看好的研究方向与未来展望 - 认为Transformer架构并非终点,行业存在“路径依赖”,呼吁进行“架构创新”,探索训练大模型的新方法[36] - 指出“持续学习”(Continual Learning)是将测试时与训练时真正融合的关键能力,是目前模型迈向AGI前最后几个关键要素之一[37] - 强调“推理模型”(如o1)是继GPT-4之后最重要的能力跃升,其核心是在对世界有深刻理解的基础模型上叠加规模化强化学习,未来应沿此方向前进[20][21][33] - 看好利用电子游戏等复杂环境训练AI智能体的方向,认为这是贴合人类智能、教授问题求解的有趣途径[31] 对竞争对手的评价 - 高度评价竞争对手Anthropic,认为其在过去一年展现出罕见的“清晰感”,尽管算力更少、团队更小,但异常专注、执行力极强,特别是在代码模型与代码Agent方向上取得了不是单纯堆规模的显著成果[4][5][61][62][90][91] - 认为Meta的战略可能不是追求模型层面的完全差异化,而是利用已成熟的AI技术(如Transformer)来构建全新的产品体验,这对其业务而言是合理策略[60][61] - 提及像John Carmack、Ilya Sutskever等人正在押注完全不同的、激进的新研究路线,这种探索值得被资助[28][29][30] AGI发展路径与时间线看法 - 个人对AGI时间线有所更新,此前认为规模化强化学习即是AGI,但现在认为还需整合持续学习、多模态感知等关键能力[38][39] - 认为要实现AGI还有很多必要步骤,但进展可能很快,时间线可能在2026至2029年之间,不会更久太多[39] - 强调当研究者看到像Q-Star早期迹象这样的全新技术出现时,感到担忧和谨慎是健康且负责任的反应[41]
非Transformer架构的新突破,液态神经网络的推理小模型只用900M内存
机器之心· 2026-01-21 17:35
行业技术架构现状 - Transformer架构自2017年由谷歌提出后,已基本垄断大模型领域,不采用该架构且能与主流第一梯队模型竞争的大模型凤毛麟角 [1] 液态神经网络与Liquid AI公司 - 液态神经网络是一种受秀丽隐杆线虫神经结构启发的连续时间模型,由多个简单动态系统通过非线性门相互调节组成,具有时间常数可变、通过求解微分方程得到输出的特点,在稳定性、表达能力和时间序列预测方面优于传统模型 [1] - 该架构由MIT CSAIL孵化、成立于2023年3月的初创公司Liquid AI提出,并开发了Liquid Foundation Models大模型 [1] - 液态神经网络的特点是规模小,早在2024年该架构就实现了1.3B参数大小的模型部署 [1] LFM2.5-1.2B-Thinking模型发布 - Liquid AI正式发布并开源了LFM2.5-1.2B-Thinking,这是一款可完全在端侧运行的1.2B参数推理模型 [2] - 该模型专门为简洁推理而训练,在生成最终答案前会先生成内部思考轨迹,旨在端侧低延迟条件下实现系统化问题求解 [3] - 模型在工具使用、数学推理和指令遵循方面表现尤为出色 [3] - 模型在手机上仅需900MB内存即可运行,实现了在口袋设备离线运行两年前需依赖数据中心才能完成的能力 [3] 模型性能表现 - 与自家前代模型LFM2.5-1.2B-Instruct相比,LFM2.5-1.2B-Thinking在多项能力上显著提升:数学推理在MATH-500基准上从63分提升至88分,指令遵循在Multi-IF上从61分提升至69分,工具使用在BFCLv3上从49分提升至57分 [7][9] - 在大多数推理基准测试中,LFM2.5-1.2B-Thinking的表现已与甚至超过参数量多约40%的Qwen3-1.7B模型 [7] - 具体基准测试数据显示,LFM2.5-1.2B-Thinking在GPQA得分为37.86,MMLU-Pro为49.65,IFEval为88.42,IFBench为44.85,Multi-IF为69.33,GSM8K为85.60 [10] - 该模型在质量与测试时计算效率之间取得良好平衡,与Qwen3-1.7B相比,在使用更少输出token的情况下提供了更高的整体性能 [10] - 在推理阶段,LFM2.5-1.2B-Thinking在推理速度和内存效率两方面都优于纯Transformer模型和混合架构模型 [12] - 模型在智能体式任务和高推理强度任务中表现突出,适合需要规划工具调用、验证中间结果并动态调整策略的场景 [14] 训练方法与技术细节 - 构建能力强的小型推理模型的关键在于,在知识容量有限的前提下通过多步推理弥补能力,同时保持答案简洁以满足端侧低延迟需求 [16] - 训练过程中,在中期训练阶段引入推理轨迹有助于模型内化“先推理,再作答”的模式,随后基于合成推理轨迹进行的监督微调让模型能稳定产生思维链 [16] - 为缓解模型可能陷入重复文本模式的“死循环式生成”问题,公司采用了多种策略,将死循环生成的比例从中期训练阶段的15.74%显著降低到RLVR阶段的0.36% [16][17] - 公司的RL训练流水线核心采用无critic、类GRPO方法,整体实现是reference-free的,并包含非对称比例裁剪、对零方差提示组的动态过滤、超长样本掩码等技巧 [18][19] - 在偏好对齐阶段,基于SFT模型生成候选,由LLM评判选择正负样本,一旦出现循环生成则直接将其作为负样本 [18] - 在RLVR阶段,训练早期引入了基于n-gram的重复惩罚以抑制循环生成行为 [18] - 公司采用高度并行的Curriculum RL训练框架,先以指令跟随的RLVR为基础,再分叉出面向推理、数学、工具使用等不同领域的专项checkpoint,最后进行模型合并 [21][22] - 最终发布的checkpoint是一个合并模型,其“家族树”中包含25个不同的子checkpoint [21] - 这种并行结构提供了更精细的控制粒度,允许每个领域的模型独立优化,模型合并被证明能有效吸收专项能力提升并保留整体性能 [22][23] 生态系统与硬件支持 - LFM2.5-1.2B-Thinking实现了开箱即用,兼容llama.cpp、MLX、vLLM和ONNX Runtime等流行推理框架,所有框架均支持CPU和GPU加速 [24] - 模型覆盖Apple、AMD、Qualcomm和Nvidia等多种硬件 [24] - 公司正在快速扩展软硬件生态系统,并欢迎Qualcomm Technologies, Inc.、Ollama、FastFlowLM和Cactus Compute作为新的合作伙伴加入 [24] - 性能数据显示,模型在AMD Ryzen™ AI Max 395+ NPU上使用FastFlowLM框架,预填充速度达1487 tok/s,解码速度60 tok/s,内存占用1,600MB;在Qualcomm Snapdragon® X Elite NPU上使用NexaML框架,预填充速度2591 tok/s,解码速度63 tok/s,内存占用0.9GB [26] 行业意义与展望 - LFM2.5-1.2B-Thinking证明了Transformer并非唯一解,小而强的端侧推理模型或许存在更优解 [27] - 运行推理模型的门槛正在降低,有助于让更多设备激发AI潜能 [28]
谷歌刚掀了模型记忆的桌子,英伟达又革了注意力的命
36氪· 2026-01-20 09:12
文章核心观点 - 英伟达与斯坦福的研究人员提出了一种名为“端到端测试时训练”的新方法,旨在通过让大语言模型在推理过程中持续更新自身参数来学习并内化长上下文信息,从而替代或补充传统的基于注意力机制的KV缓存记忆方式 [1][4] - 该方法将记忆重新定义为一种持续的学习过程,其价值在于改变模型未来的预测,而非完整存储过去,为解决传统注意力机制因二次方成本而面临的可扩展性瓶颈提供了一种潜在的工程解决方案 [34] 技术演进与核心理念 - 测试时训练并非全新概念,其早期形式可追溯至2013年的动态评估,核心思想是在推理时通过下一词预测损失对模型参数进行小步梯度更新,使其适应当前文本的局部特征 [5] - 英伟达的TTT-E2E方法回归了最原初的动态评估理念,其测试时更新的唯一目标函数就是网络末端的下一词预测交叉熵损失,这使得模型的学习与最终任务完全对齐 [10] - 与谷歌Nested Learning等TTT-KVB路线不同,TTT-KVB侧重于教导模型如何构建内部记忆结构,而TTT-E2E则直接优化最终预测目标,实验表明后者能带来更低的语言建模损失 [10][16] 方法创新与工程实现 - 研究团队通过移除Transformer中的所有自注意力层,构建了一个仅含多层感知机的“玩具模型”,证明了仅靠测试时参数更新就能编码长上下文信息,其性能曲线几乎紧贴全注意力模型 [12][15] - 为了解决早期动态评估存在的训练-测试不匹配导致的参数漂移和灾难性遗忘问题,TTT-E2E引入了元学习框架,在训练阶段就模拟推理时的更新过程,让模型学会如何稳定、高效地更新自身参数 [20][21] - 在工程层面,该方法采用了多重安全阀以确保稳定性,包括结合滑动窗口注意力作为短期记忆、冻结大部分网络层、仅更新最后1/4的块,以及在可更新块中引入静态MLP来保护预训练知识 [24][25] 性能表现与优势 - 在语言建模损失方面,将760M参数模型的TTT-KVB方法改为使用下一词预测损失后,在8K上下文长度下的损失从2.818降至2.806,提升了0.012,这表明端到端优化能直接提升预测能力 [16][17] - 在长上下文扩展性上,当上下文长度增加到64K乃至128K时,TTT-E2E的损失曲线保持稳定,未出现优势稀释,而Mamba 2、Gated DeltaNet等其他线性时间模型以及TTT-KVB的损失则开始上升 [27] - 在推理延迟方面,TTT-E2E继承了参数学习方法的优势,其延迟不随上下文长度增长而显著增加,在H100上处理128K上下文的预填充阶段比全注意力模型快约2.7倍 [29] 局限性与适用场景 - TTT-E2E及其所在的线性模型路线在需要精确检索的“海底寻针”类测试中表现不佳,被全注意力模型碾压,这表明其记忆方式更偏向于压缩和概括,而非逐字存档 [31] - 该方法的训练成本较高,其训练延迟比标准Transformer高出50-100%,这在扩展到工业级的数万亿token训练时可能成为一个制约因素 [33] - 该方法更适合写作连贯性、长文理解、风格约束等任务,通过以学习压缩换取长上下文的可扩展性,使模型在超长上下文上既能高效运行,又能提升预测能力 [31][34]