大模型长文本处理 - 财报，业绩电话会，研报，新闻

大模型长文本处理

搜索文档

量子位· 2025-07-17 10:43

大模型长上下文性能研究核心发现 - 主流大模型在输入长度增至1万tokens时准确率普遍降至50%，且性能衰减呈非均匀断崖式下降[4][10][21] - 性能衰减受语义关联性、干扰信息、文本结构等多因素影响，其中低相似度组在1万tokens时准确率比高相似度组低20个百分点[18][21] - 不同模型衰减节点存在差异：GPT-4.1可能在短文本即出现性能骤降，Claude系列则表现出更强的长文本稳定性[7][28] 实验设计方法论 - 采用改进版NIAH测试框架，通过四项对照实验控制任务复杂度并隔离输入长度变量[16][17] - 实验数据源包括保罗・格雷厄姆散文和arXiv论文，设置10²至10⁴tokens的输入长度梯度[18][31][37] - 评估指标采用GPT-4.1验证的准确率（与人类判断一致性超99%）[18][33] 关键影响因素语义关联性 - 针-问题相似度实验显示：低相似度组在1万tokens时准确率降至40%-60%，比高相似度组低20个百分点[18][21] - 针-干草堆相似度对模型影响不统一，但长文本下所有模型性能均显著下滑[31][34] 干扰信息 - 多重干扰项使模型在1万tokens时准确率比基线低30%-50%[26][29] - GPT系列易生成自信错误答案，Claude系列倾向弃权，Gemini和Qwen波动最大[28] 文本结构 - 连贯结构文本在1万tokens时部分模型准确率降至30%-40%，打乱结构则维持50%-60%[40][42] - 逻辑结构复杂度与性能衰减正相关，揭示模型处理长文本逻辑的缺陷[35][41] 行业技术动态 - Chroma团队开源测试代码，覆盖18个主流开源/闭源模型包括GPT-4.1、Claude 4等[8][49] - 研究验证了现有基准测试将输入长度与任务难度混谈的局限性[13][15] - 行业正探索1M上下文窗口技术（如Gemini 1.5 Pro），但实际长文本处理能力仍存瓶颈[12][44]

大模型长文本处理

检索增强生成（RAG）

Artificial Intelligence

Artificial Intelligence

GPT-4.1

Claude 4

Gemini 2.5 Flash