理想分享如何让理想同学更好遵循用户精细化指令的思考

论文核心观点 - 限制大语言模型性能的关键瓶颈在于指令的逻辑深度而非指令数量模型处理简单指令尚可但在面对层级嵌套的复杂指令时执行准确率会急剧下降 [1] - 当前缺乏能够精确评估大模型细粒度字词级指令遵循能力的客观标准现有主流评测方法存在成本高或偏见严重的问题无法充当精确验证工具 [1] 现有评测体系的问题 - 评测手段两极分化人工评测成本过高且不可扩展而主流的大模型评测大模型方法在判断客观事实时存在严重偏见且不可靠 [1] - 模型在不同语言下的指令遵循能力存在显著差异例如GPT-o3-2025-04-16在中文任务的严格准确率为76.9% 而英文任务为63.5% 单一语言评测无法代表模型的整体控制能力 [2] LexInstructEval评估框架设计 - 框架由两个解耦的工程模块组成分别是基于形式化语法生成无歧义指令的数据构建管道以及基于确定性代码而非AI模型的自动化验证引擎 [2] - 数据构建采用形式化语法分解策略将所有指令解构为机器可读的Procedure(路径)、Relation(算子)、Value(阈值)三元组 [2][3] - 系统设计涵盖篇章、段落、句子、单词、字符等层级的文本操作语法并包含冲突过滤与难度分级机制 [6] - 为保证合成指令的逻辑严密性系统内置了类型安全与唯一性约束等强制校验规则例如数值比较符只能配合计数谓词使用 [4] - 在生成自然语言指令时先利用大语言模型将形式化规则转化为自然语言模板再引入人类专家进行双重校验确保表述流畅并排除歧义 [6] 自动化验证引擎机制 - 验证引擎完全基于规则代码消除了模型裁判的随机性和偏见其判定结果与人类专家的结论一致性达到97% [7] - 验证逻辑基于代码进行布尔判定采用元素隔离技术将目标文本从回复中剥离并对集合类指令采用严格的全称量化逻辑进行判断 [5] - 评估指标分为严格准确率与宽松准确率严格准确率要求模型输出在没有任何修改的情况下通过代码验证衡量对格式和内容的绝对控制力宽松准确率允许对输出进行预处理后再验证衡量去除格式噪音后的核心指令遵循能力 [8][9] 数据集构建特点 - 构建了中文和英文两个独立的单语数据集而非简单的互译确保了评测在特定语言环境下的文化和语法真实性 [9]