功能性神经记忆
搜索文档
基础模型又一关键拼图,腾讯混元发布训练新范式「无相」:引入功能性记忆,打破静态权重枷锁
量子位· 2026-03-06 18:12
文章核心观点 - 腾讯混元团队提出了一种名为HY-WU(Weight Unleashing)的新型功能性神经记忆范式,旨在解决大模型微调中的“灾难性遗忘”和个性化适配难题 [2] - 该范式的核心洞察是:适配新任务不一定要改写原有参数,而是通过一个参数生成器在推理时实时生成针对特定输入样本的个性化参数,从而实现动态路由,避免在共享静态权重上的反复擦写与冲突 [2][13] - HY-WU在文本引导的图像编辑任务上进行了验证,在多个评测中展现出优于主流开源模型、比肩顶级闭源模型的性能,并具备良好的实用性、扩展性和对未来AI架构的深远影响 [3][28][43][45] 技术挑战与现有方案局限 - **基模学习的两大核心挑战**:一是“灾难性遗忘”,即传统微调在共享参数点上进行覆盖式擦写,导致新旧知识梯度冲突,损害模型已有基础能力 [5];二是“跷跷板效应”与个性化权衡,即单一共享参数难以拟合多样化且可能冲突的需求,导致性能妥协 [6][7] - **现有解决方案的局限性**:参数高效微调(如LoRA)仍属于静态参数记忆,无法处理高度异构任务 [9];上下文记忆(如RAG)只能改变输入信息,无法改变模型处理信息的规则 [9];独立LoRA集群会导致存储开销爆炸且知识迁移困难 [9];混合专家模型(MoE)不能从根本上解决灾难性遗忘和性能跷跷板问题 [10] HY-WU范式核心方案 - **核心范式转变**:从“静态参数记忆”转向“功能性记忆”,学习一个参数生成器,将适配过程视为根据输入条件实时合成特定算子的过程 [13] - **实现机制**:引入基于Transformer架构的参数生成器,在推理时实时提取输入图片和编辑指令的混合条件特征,并据此生成针对当前样本的最优LoRA参数(例如为800亿参数基模生成7.2亿参数的Rank-16 LoRA权重),然后动态注入冻结的基座模型 [16][17][28] - **关键概念**:提出“条件更新族”概念,目标是学习从条件到参数更新的映射,而非孤立的算子,从而在权重空间中形成具有语义结构的参数流形,实现功能相似操作在参数空间中的自动聚集 [24] 性能表现与评测结果 - **评测规模**:构建了覆盖60余种编辑子任务的严苛评测,包含346组单图和64组多图编辑对,支持中英双语指令 [41] - **人类评价(GSB)**:HY-WU表现显著优于所有主流开源模型,感官质量仅略逊于Google的Nano Banana,与顶级闭源模型相比具备极强竞争力 [43] - **自动化榜单成绩**: - 在GEdit-Bench中文测试中,于语义一致性、整体评分和感知质量三大维度均获开源模型第一;在英文测试中,语义一致性位居榜首;其六项核心指标表现好于闭源模型Seedream 4.5和Nano-Banana-Pro [45][46] - 在ImgEdit-Bench的9项细分任务中,HY-WU在开源模型中夺得5项第一和1项第二,以4.05的总分在所有公开模型中排名第二,与闭源模型GPT Image 1.5的差距仅为0.11分 [47][48] 实用性、扩展性与未来展望 - **实用性优势**:采用端到端训练,无需预先收集大量微调权重,部署时也无需存储大量LoRA权重,具备高训练效率和工程部署灵活性 [20][27] - **扩展性验证**:框架不仅适用于原生多模态模型,在传统MMDiT架构上也能带来显著性能提升,并遵循显著的规模法则,即随着参数生成器容量(如从2B增加到7B)增加,性能持续增强 [50][51] - **未来研究方向**:报告展望了以功能性神经记忆为核心的未来AI路线图,包括与检索记忆的协同、在线持续学习协议、架构容量的重新分配、跨模态通用性、长时一致性与身份记忆以及硬件感知的部署优化等六个方向 [52][53][54][55][56][57][58]