SHINE - 财报，业绩电话会，研报，新闻

SHINE

搜索文档

机器之心· 2026-03-23 15:10

核心观点 - 提出了一种名为SHINE的全新超网络架构，能够仅通过一次前向传播将任意文本转化为大语言模型的LoRA参数，从而实现知识的快速内化与多轮对话 [2][3] - 该方法为大模型快速适配、持续学习和参数化记忆提供了新的技术路径，具有巨大的实用潜力和规模化应用前景 [2][5][8] - 该方向正受到学界和工业界的关注，未来利用超网络为大模型实时生成参数的研究将越来越多，并逐步走向实际应用 [5][6][44] 方法原理与架构设计 - 超网络由LLM和M2P Transformer两部分组成，以文本为输入，直接输出目标LLM的LoRA参数 [3][16][19] - 通过复用推理阶段的LLM来利用其知识，无需增加额外参数，解决了语义到参数的对齐难题 [19][23] - M2P Transformer是一个轻量级Transformer，负责将LLM提取的memory states转化为LoRA参数，整个框架仅需训练Meta LoRA、memory embeddings和M2P Transformer [20] - 架构设计解决了高维输出、效率和信息流动等挑战，避免了表达能力受限的瓶颈结构 [17][23] 训练流程与数据 - 训练采用与大模型一致的“预训练-指令微调”范式，可以直接利用现有的大规模训练数据进行训练 [10][25] - 预训练阶段包含重建和补全两个任务，使用了6B token规模的数据，是目前数据规模最大的用于训练超网络生成LoRA的工作 [28] - 指令微调阶段训练模型利用生成的LoRA基于文本回答问题，分为多轮QA和单轮QA两个阶段 [30][33] - 得益于架构创新，模型性能能够随着数据规模的增加持续提升，展现了明显的规模化潜力 [10][28] 性能与效率优势 - 在MS MARCO MQA数据集上，SHINE的F1 Score达到69.4，逼近了In-Context学习的黄金标准（69.4），且效果远优于Naive（23.2）和SFT（33.0） [35][36] - 在推理阶段，SHINE仅需一次前向传播即可生成LoRA，其摊销时间（Amortizable Time）几乎可以忽略不计（0.0秒），而SFT方法需要29.3秒 [35][36] - 由于知识已内化到参数中，SHINE的生成时间（Generation Time）为11.0秒，相比In-Context学习（14.2秒）显著减少，降低了推理计算开销 [11][35][36] - 在6个单步与多步推理QA数据集上，SHINE的性能非常接近甚至部分超过了In-Context方法，并明显优于其他基线方法 [37] 与现有方法的对比 - 与需要消耗大量时间和算力进行测试时训练的TTT方法相比，SHINE在SQuAD任务上以一次前向传播取得了63.6的F1 Score，优于TTT报告中的最佳结果（59.4） [38][39] - 相比于传统的监督微调，SHINE无需针对每个上下文进行多轮训练，效率得到极大提升 [11][36] - 相比于需要将上下文作为提示词输入的上下文学习方法，SHINE减少了token占用和推理计算开销 [11][36] - 与之前类似工作（如Gen Adapter）相比，SHINE在多个数据集上的表现更优，证明了其架构的优越性 [37][40] 可扩展性与应用前景 - 实验表明，无论是增大基础模型规模，还是提高LoRA维度、增加M2P Transformer层数，都能够持续提升SHINE的性能，展现了良好的可扩展性 [41] - 该方法具有良好的通用性与规模化能力，为大模型的知识注入与快速适配提供了新的、可落地的技术方案 [8][43] - 该研究为持续学习提供了新思路，即利用超网络建模记忆产生过程，将过往经验转化为模型参数 [12][43] - 该方向已引发业界跟进，例如Sakana AI的Doc-to-LoRA和腾讯的HY-WU，预示着未来将有更多研究探索这一范式 [5][44]