Workflow
高阶逻辑推理
icon
搜索文档
北大、清华、UvA、CMU等联合发布:大模型逻辑推理能力最新综述
机器之心· 2025-05-07 15:37
大模型逻辑推理研究综述 核心观点 - 大模型研究从依赖扩展定律的预训练转向聚焦推理能力的后训练,逻辑推理能力成为解决幻觉问题的关键[1] - 大语言模型在逻辑问答和逻辑一致性方面存在显著缺陷,LLaMA 13B在FOLIO数据集上8-shot准确率仅33.63%,接近随机猜测水平[10] - 提升逻辑推理能力需结合外部求解器、提示工程、预训练微调等方法,并需满足否定/蕴涵/传递/事实/复合等多类逻辑一致性[15][21] 技术方法分类 逻辑问答 - **基于外部求解器**:将自然语言问题转换为符号表达式,通过求解器推理后集成答案[16] - **基于提示工程**:通过设计提示词显式构造推理链或实现自然语言与符号语言转换[17] - **预训练与微调**:纳入演绎证明样本增强数据集,针对性优化模型参数[18] 逻辑一致性 - **否定一致性**:禁止对命题p与其否定命题同时判定为真[22] - **蕴涵一致性**:确保前提p→q成立时,若p为真则q不得为假[23][24] - **传递一致性**:要求三段论推理链条自洽,如"喜鹊是鸟→鸟有翅膀→喜鹊有翅膀"需成立[25] - **事实一致性**:模型回答需与知识库事实对齐[26] - **复合一致性**:需同时满足多种逻辑规则组合的复杂推理要求[27][28] 典型案例 - 逻辑问答失败案例:给定"金属导电→铁是金属→钉子由铁制成"前提,模型无法推导"钉子导电"结论[6] - 逻辑不一致案例:Macaw模型承认"喜鹊是鸟"和"鸟有翅膀",却否认"喜鹊有翅膀"[11] 未来方向 - 扩展模态逻辑处理不确定性命题[30] - 开发高阶逻辑推理能力以量化谓词属性[31] - 设计同时满足多类逻辑一致性的高效算法[31] 研究基础 - 覆盖5所顶尖高校联合研究,论文被IJCAI 2025接收[1] - 建立完整分类体系并汇总FOLIO等基准数据集[12][15]