Workflow
刚刚,DeepSeek梁文锋NSA论文、北大杨耀东团队摘得ACL 2025最佳论文
机器之心·2025-07-31 00:25

ACL 2025大会概况 - 本届ACL大会投稿数创历史新高,达8000多篇,较去年4407篇增长81% [3] - 主会论文接收率20.3%,Findings接收率16.7% [3] - 中国作者占比首次过半达51.3%,远超美国14.0% [4] - 共颁发4篇最佳论文、2篇最佳社会影响力论文、3篇最佳资源论文等多项奖项 [6] 最佳论文研究成果 - DeepSeek团队与北大杨耀东团队包揽4篇最佳论文中的2篇 [10] - 杨耀东团队论文揭示大模型存在"弹性机制",导致对齐困难且需与预训练相当的资源 [24][25] - DeepSeek提出NSA注意力机制,在27B参数模型上实现长上下文高效训练与推理 [33][40] - NSA通过分层token建模实现260B token预训练,性能媲美Full Attention但计算效率更高 [37][41] 技术创新方向 - 大模型安全领域突破:发现模型参数存在抵抗对齐的结构性惯性 [24] - 高效训练技术:NSA实现硬件对齐的稀疏注意力,解码速度随序列长度增加而提升 [36][41] - 数据质量评估:Meta-rater提出四维度数据选择方法提升预训练效率 [55] - 评估效率优化:SubLIME方法可将LLM评估成本降低80%-99% [56] 行业影响与趋势 - 华人团队学术影响力显著提升,包揽最佳论文半数奖项 [10] - 大模型基础架构创新持续涌现,注意力机制优化成为关键突破点 [33][37] - 模型安全与对齐挑战凸显,需重新评估现有技术路线 [24][25] - 高效训练与推理技术获重点关注,推动商业化应用落地 [40][41]