Workflow
自我控制机制
icon
搜索文档
“神经-符号”融合规划器性能显著超越o1:借鉴人类运动学习机制|中国科学院磐石研发团队
量子位· 2025-08-06 13:56
科研智能规划技术突破 - 中国科学院磐石研发团队提出新型"神经-符号"融合规划器,融合神经规划系统与符号规划系统优势,解决传统智能规划方法效率低下和盲目性高的问题[1] - 该技术借鉴人类闭环反馈机制构建双向规划机制,在表达能力、适应能力、泛化能力和可解释性上显著提升[3] - 规划器已集成至"磐石·科学基础大模型",面向科学领域提供专用模型支持[5] 闭环反馈机制设计原理 - 基于人类运动学习的Knowledge of Result(KR)闭环系统,通过反馈、错误检测和纠正实现动态调整[6][7] - 规划任务与人类运动学习具有相似性,将问题、规划器和动作序列对应为试验、学习者和行动序列[8] - KRCL机制通过正向神经规划器生成动作序列与反向KR反馈构成动态闭环,实现双向信息传递和持续校正[10] 神经与符号系统融合架构 - 采用神经规划器与符号规划识别器双向连接模式,结合神经网络的表示能力与符号系统的可解释性[11][12] - 正向神经规划器生成高效灵活的动作序列,反向符号规划识别器推理最可能目标并增强模型可解释性[14][15][16] - KR增强信息通过文本相似度量化,校正结果并提升规划精准度[17] 自适应反馈控制机制 - 引入自我控制机制,根据问题难度和模型表现动态激活反向规划识别器,避免固定KR机制的冗余反馈[18][20] - 通过预定义阈值控制反馈频率,减少规划器对反馈的依赖性,提升模型自主性和学习效率[21][22] 性能评估与行业对比 - 在IPC竞赛8个规划任务中,KRCL平均覆盖率达70.81%,显著高于ASNet(57.12%)和OpenAI o1等竞品[23][24] - PlanBench测试显示KRCL在Blocks和Mystery Blocks任务中覆盖率均达100%,平均耗时0.8秒,远优于o1的75.33%覆盖率和61.9秒耗时[25][26]