自适应推理框架CAR

搜索文档
低Token高精度!字节复旦推出自适应推理框架CAR
量子位· 2025-05-27 11:53
核心观点 - 过度依赖CoT思维链推理会降低模型性能,新提出的自适应推理框架CAR能根据模型困惑度动态选择短回答或长文本推理,实现准确性与效率的最佳平衡[1][3] - CAR框架在多模态视觉问答、关键信息提取及文本推理等多个基准测试中超越单纯的短回答与长推理方法[3] - CAR打破了"长文本推理必然性能更好"的固有认知,为大模型推理提供更灵活高效的解决方案[27] 研究背景 - 推理能力的进步极大提升了大语言模型(LLMs)和多模态大语言模型(MLLMs)在各类任务中的表现[2] - 已有研究发现长CoT推理并非总能提升准确率,甚至会削弱模型处理简单任务的能力[3] 实验设置 - 研究聚焦文本密集型视觉问答(VQA)和关键信息抽取(KIE)领域,选取8个代表性公开数据集开展实验[4] - VQA数据集包括DocVQA、InfoVQA、ChartQA、VisualMRC,KIE数据集包括SROIE、CORD、FUNSD、POIE[4] - 使用Qwen2.5-0.5B模型进行微调,在域内和域外数据集上开展性能评估[4] 关键发现 - PPL与准确率之间存在显著的强负相关性,数据集整体准确率越高,其平均PPL值越低[7] - 预测正确样本的平均PPL分数显著低于预测错误样本[7] - 以测试集PPL分布的75%分位数作为阈值,PPL值超过阈值时触发长文本推理模式[8] 方法设计 - CAR框架首先生成简短回答并评估困惑度,仅在模型置信度低(困惑度高)时触发推理[3] - 使用包含简短答案和长文本推理解答标注的训练示例构建新数据集,采用标准指令微调流程[12] - 对训练集中所有样本进行短答案推理,生成预测答案并计算其困惑度值PPL[13] 性能表现 - 在多模态数据集上,CAR Qwen2VL平均使用86.9个token,仅为Qwen2-VL Long所使用Token数量的15%[22] - 在DocVQA、ChartQA、FUNSD数据集上,CAR Qwen2VL准确率分别达到90.1%、69.9%、73.6%[23] - 使用Qwen2.5-7B模型时平均准确率达81.1%,使用Llama3.1-8B时达74.9%[24] - 在GSM8K、StrategyQA、MathOA数据集上,CAR Qwen2.5平均准确率达81.1%[26]