论文核心观点 - 限制大语言模型性能的关键瓶颈在于指令的逻辑深度而非指令数量 模型处理简单指令尚可 但在面对层级嵌套的复杂指令时 执行准确率会急剧下降 [1] - 当前缺乏能够精确评估大模型细粒度字词级指令遵循能力的客观标准 现有主流评测方法存在成本高或偏见严重的问题 无法充当精确验证工具 [1] 现有评测体系的问题 - 评测手段两极分化 人工评测成本过高且不可扩展 而主流的大模型评测大模型方法在判断客观事实时存在严重偏见且不可靠 [1] - 模型在不同语言下的指令遵循能力存在显著差异 例如GPT-o3-2025-04-16在中文任务的严格准确率为76.9% 而英文任务为63.5% 单一语言评测无法代表模型的整体控制能力 [2] LexInstructEval评估框架设计 - 框架由两个解耦的工程模块组成 分别是基于形式化语法生成无歧义指令的数据构建管道 以及基于确定性代码而非AI模型的自动化验证引擎 [2] - 数据构建采用形式化语法分解策略 将所有指令解构为机器可读的Procedure(路径)、Relation(算子)、Value(阈值)三元组 [2][3] - 系统设计涵盖篇章、段落、句子、单词、字符等层级的文本操作语法 并包含冲突过滤与难度分级机制 [6] - 为保证合成指令的逻辑严密性 系统内置了类型安全与唯一性约束等强制校验规则 例如数值比较符只能配合计数谓词使用 [4] - 在生成自然语言指令时 先利用大语言模型将形式化规则转化为自然语言模板 再引入人类专家进行双重校验 确保表述流畅并排除歧义 [6] 自动化验证引擎机制 - 验证引擎完全基于规则代码 消除了模型裁判的随机性和偏见 其判定结果与人类专家的结论一致性达到97% [7] - 验证逻辑基于代码进行布尔判定 采用元素隔离技术将目标文本从回复中剥离 并对集合类指令采用严格的全称量化逻辑进行判断 [5] - 评估指标分为严格准确率与宽松准确率 严格准确率要求模型输出在没有任何修改的情况下通过代码验证 衡量对格式和内容的绝对控制力 宽松准确率允许对输出进行预处理后再验证 衡量去除格式噪音后的核心指令遵循能力 [8][9] 数据集构建特点 - 构建了中文和英文两个独立的单语数据集 而非简单的互译 确保了评测在特定语言环境下的文化和语法真实性 [9]
理想分享如何让理想同学更好遵循用户精细化指令的思考