GPT2

搜索文档
不调参、不费力,上海交大&上海AI Lab推出“记忆解码器”,任意LLM无缝自适应
36氪· 2025-08-26 17:17
当前,大语言模型(LLM)在医疗、金融、法律等专业领域,常因缺乏深度知识而表现较差,如何让 LLM 在不同特定领域中发挥最佳性能,仍是一大挑 战。 现有主流方案包括领域自适应预训练(DAPT)和检索增强生成(RAG)。然而,DAPT 需要进行耗时的全参数训练,且易产生灾难性遗忘,难以让多个 模型在同一领域中高效适配;而 RAG 也因昂贵的 kNN 搜索和更长的上下文,推理延迟大大增加。 而且,由于 RAG 的即插即用特性与 DAPT 的推理效率之间存在固有矛盾,开发既能跨模型适应,又能在部署时保持计算效率的解决方案,仍为空白。 为此,来自上海交通大学和上海AI Lab 的研究团队提出了一个"即插即用"的预训练记忆模块——"记忆解码器"(Memory Decoder),无需修改原模型参 数,即可适配不同尺寸模型,实现 LLM 的高效领域适应。 论文链接:https://arxiv.org/abs/2508.09874v1 Memory Decoder 的核心创新在于其"即插即用"的特性。经过训练后,单个 Memory Decoder 可无缝集成到任何使用相同 tokenizer 的 LLM 中,而无需进 行模型 ...
KIMI K2:最前瞻的研究!OnlineRL新范式,大模型的又一DeekSeek时刻!
2025-07-19 22:02
纪要涉及的行业和公司 - **行业**:AI 行业,包括云计算、基础软硬件配套设施、实施咨询等领域[1][7] - **公司**:Kimi(K2、KR 模型所属)、亚信科技、粉笔、金桥、深信服、神笔金桥、金蝶、金山、阿里云、字节跳动、腾讯[1][3][7][8] 纪要提到的核心观点和论据 - **Kimi 模型发展情况**:Kimi 模型经历质疑、减少投流和迭代后在 2025 年 7 月于海外平台引起较大关注,K2 成为全球 AI 从一代范式向 AI 下半程过渡的重要时刻[1][2] - **GPT2 引起轰动原因**:使用工具后能力绝对提升 15%、相对提升 80%,Post - training 算力消耗超 Pre - training,表明对算力规模和 Skill - up 要求提高,促使海外构建大节点算力集群[1][4] - **Kimi K2 创新点及影响**:是国内首个公开万亿参数 MOE 模型,架构与 Distill V3 相似但专家拆解更细致,采用 CLIP 优化器缓解梯度输出问题,实现部分在线强化学习功能,融合多场景数据产生高质量合成数据,推动开放式问题场景发展[1][5] - **Kimi KR 模型受关注原因**:进行范式创新,Pre - training 版已展示强大能力,完成强化学习后有望对标或超越 GPT - 3 及国内外下一代模型,提升基础软硬件配套,推动长短链应用发展[1][9] - **亚信科技及相关产品表现**:亚信科技及其软件产品市场表现出色,落地快,应用场景覆盖短链到长链工具,粉笔、金桥等在教育和法律领域突出,学费交付类软件扩展到长链形成完整生态[3][8] - **AI 领域投资建议**:2025 年下半年进入预期兑现阶段,应关注最快落地和长期增量价值最大的项目,云计算、基础软硬件配套设施及实施咨询类公司率先实现 AI 收入增长,重点关注云计算领域及私有云基础软硬件配套公司[1][6][7] 其他重要但是可能被忽略的内容 - 全球 AI 领域正处于从一代范式向 AI 下半程过渡阶段,重点是评价模型、建立 Benchmark 和用奖励模型迭代基模[2][3]