AtomThink

搜索文档
自动调整推理链长度,SCoT来了!为激发推理能力研究还提出了一个新架构
量子位· 2025-03-13 11:28
核心观点 - 提出自结构化推理链(SCoT)新范式,通过分解推理过程为最小语义原子步骤,动态生成适配不同复杂度问题的CoT结构,解决现有方法在推理多样性和效率上的不足 [1][2] - 开发AtomThink全过程框架,包含数据构造、训练、推理和评估模块,显著提升多模态大模型在复杂推理任务上的表现 [3][14] - SCoT使模型能根据问题复杂度自动调整推理链长度,复杂问题的推理步骤更长 [4][19] - AtomThink框架在多个数据集上显著提升基线模型准确率,数据利用效率和推理效率均表现出显著优势 [5][17][18] 技术细节 SCoT设计 - 将推理过程分解为最小语义单元——原子步骤,通过多轮预测方法动态生成推理链 [10] - 模型每次仅预测一个原子步骤,并将其附加到历史推理步骤中作为下一轮输入 [11] - 引入基于规则的过滤机制和温度累积策略,增强推理多样性和流畅性 [12] AtomThink框架 - 数据引擎:通过动态提示策略和短推理增强方法生成高质量多步推理路径,构建包含20k多模态数学问题和124k原子步骤标注的AMATH数据集 [14] - 原子步骤微调:采用步骤级掩码训练迫使模型学习独立推理步骤 [14] - 策略引导的多轮推理:结合路径搜索和步骤搜索策略扩展推理空间 [14] - 原子能力评估:基于推理行为聚类和步骤利用率计算评估模型表现 [14] 实验结果 性能提升 - 在MathVista、MathVerse和MathVision数据集上,AtomThink框架使Llama3.2-Vision-11B准确率分别提高10.9%、10.2%和7.2% [17] - AtomThink-LLaVA在MathVista-M数据集上准确率提升3.2个百分点,结合PRM后提升达7.8个百分点 [16] - AtomThink-LlamaV在MathVista数据集上准确率提升9.6个百分点,结合PRM后提升达10.9个百分点 [16] 效率优势 - 与现有结构化CoT方法相比,AtomThink在准确率超越LLaVA-CoT条件下数据利用效率提升5倍,推理效率提升85.3% [18] - 使用20k数据集(减少80%)和161.5 tokens(减少87.8%)即达到更高准确率 [18] 能力特征 - SCoT能动态生成涵盖图像描述、数据提取、逻辑推理、因果推理等多种能力的多样化推理结构 [19] - 原子能力评估揭示模型存在推理误差累计现象,早期阶段错误率较高 [21]