大语言模型评估方法 - NoLiMA是一种新型大语言模型长文本理解能力评估方法,通过设计需要深层语义推理的问题来测试模型性能,区别于传统依赖关键词匹配的NIAH测试[2][3] - 在32K词元长度下,10个受测LLM表现比处理短文本(<1K词元)时下降超50%,表现最好的GPT-4o准确率从99.3%降至69.7%[4] 向量模型实验设计 - 实验采用jina-embeddings-v3模型,构建10本5万+词元的公版书作为文本库,生成128-8192词元不同长度的测试上下文[14][18] - 设计22组"问题-关键信息"组合,涵盖饮食限制/医疗状况/语言能力/职业背景等类别,关键信息需单跳推理才能关联问题[11][12] - 采用归一化相似度分数作为核心指标,计算问题-上下文相似度与问题-关键信息基准相似度的比值[19][22] 关键研究发现 - 文本长度显著影响性能:128词元时归一化相似度0.37,8K词元时降至0.10,1K词元内下降速度最快[24][26] - 模型区分能力急剧退化:128词元时AUC 0.81,1K词元时降至0.66,8K词元时接近随机猜测的0.5[37][40] - 信息类型影响显著:地点类信息检索准确率高于饮食/医疗类信息,后者在长文本中性能下降更快[28][30] 技术优化尝试 - 查询扩展实验显示:添加100个相关词效果最佳,250个词会引入语义噪声,但均无法根本解决长文本性能下降问题[49][53] - 关键信息位置影响检索:文本开头最容易发现,中间位置最难,短文本中末尾位置也较易识别[41][43] - 字面匹配实验证实:即使问题与答案存在相同关键词,长文本环境下模型性能仍会大幅下降[58][59] 行业技术启示 - 当前语义搜索技术存在明显局限:向量模型和LLM均难以在长文本中保持深层语义推理能力[7][60] - 检索增强生成(RAG)系统中,向量模型的性能瓶颈直接影响整体系统效果,需架构级创新突破[4][63] - 查询扩展等优化手段具有边际效益,但无法解决注意力机制处理长文本的根本性缺陷[55][66]
长文本向量模型在4K Tokens 之外形同盲区?
AI科技大本营·2025-03-27 10:23