LingoEDU
搜索文档
结构化预处理让DeepSeek准确率提升51%,现已开源丨清华&深言
量子位· 2026-01-05 13:00
核心技术:LingoEDU方法概述 - 方法全称为LingoEDU,即基本语义单元技术,其核心是在大模型正式生成前增加一个预处理环节,将输入文本精准切分为最小的完整语义单元,并为每个单元分配唯一的索引标记,形成富含结构信息和语义信息的篇章结构树[1][5] - 该方法的核心优势在于实现了生成内容的可溯源性,通过为每个基本语义单元前置唯一索引标记,为模型创建了明确的参考坐标系,使得模型输出的任何内容都能精确对应到原文的具体位置,从而在最大程度上解决幻觉问题[4][5][23] - 该方法选择句子作为基本语义单元,相比Token能减少碎片化并保留完整语义命题,相比段落则在不同文体中长度分布更稳定,便于模型建模[24][30] 技术原理与设计 - 技术采用增强型结构生成与指针机制,模型被训练为输出指向EDU的“指针”而非重新生成文本内容,通过解码范围标记可将生成结构无损映射回原文物理位置,从根本上消除凭空捏造的可能[26][30] - 在推理阶段实施了严格的词法约束,即受限解码,当模型生成范围标记中的数字时,其可选词表被严格限制为当前输入中实际存在的索引,从物理上阻止了编造不存在引用的可能性[27][28] - 训练数据侧引入了基于分解的可扩展数据合成流程,通过“求解器”与“批评家”两个代理的迭代优化机制以及双层任务分解,自动化生产高质量的拆分数据,解决了该领域高质量对齐数据稀缺的核心瓶颈[29][31][37] 性能表现与实验数据 - 在语义切分效果实验中,基于248篇文章构建的数据集显示,LingoEDU在树编辑距离指标上为4.77,显著优于GPT-4o的6.22、Claude 3.5 Sonnet的6.65等基线模型;在文章级别准确率指标上达到49.60%,同样显著领先[34][35][36] - 在成本与效率方面,LingoEDU的成本为0.17美元,延迟为1.20秒,显著优于多数通用大模型方法,例如成本低于GPT-4o的5.21美元和Claude 3.5 Sonnet的7.09美元[36] - 在HLE测评集上,应用LingoEDU后,DeepSeek-R1的准确率从9.0%提升至13.6%,准确率相对提升51%;在BrowseComp-ZH测试集上,应用该技术后,DeepSeek V3.1的准确率提升幅度近一倍,达到18.7%[7][38][40] 下游任务应用效果 - 在LongBench的多文档问答任务上,应用LingoEDU后,Gemini-2.5-Pro在HotpotQA上的准确率从35.20%提升至40.46%,相对提升14.94%;在DuReader上从7.15%提升至8.12%,相对提升7.69%[42][43] - 在LongBench的摘要总结任务上,应用LingoEDU后,GPT-4.1在MultiN上的准确率从20.85%提升至23.50%,相对提升5.80%;在VCSum上从12.50%提升至14.62%,相对提升8.96%[42][43] - 实验结果表明,LingoEDU能够提升模型在LongBench所有摘要总结、多文档问答等子任务上的效果[42] 行业价值与定位 - 该技术直接针对大模型应用中最受诟病的“幻觉”问题,通过结构性变革实现“根治”,而非缓解,其提供的可溯源生成能保证100%的文本忠实度[44][46] - 该技术实现了从“粗放式压缩”到“精细化信息管理”的范式转变,提供的是结构更清晰、语义更完整的“文本地图”,能以更低的计算开销获得更准确可靠的处理结果,提供更优的投入产出比[45][47] - 该技术定位为一次重要的技术范式演进,推动了AI从“黑盒魔术”走向“白盒工程”,定义了让大模型更可靠地理解与处理人类复杂知识的新标准,是下一代可信AI基础设施的关键模块[47]