核心观点 - 香港中文大学与新加坡国立大学Show Lab联合提出TON框架,使视觉语言模型(VLM)能自主判断是否需要显式推理,显著提升效率[2] - TON框架灵感来自人类决策过程,对简单问题直接作答,对复杂问题生成详尽推理[3][4] - 实验显示TON在不牺牲准确率前提下,平均推理输出长度最多减少90%,部分任务准确率提升17个百分点[10][11][12] 框架设计 - 核心创新在于引入"是否思考"的决策模块,将推理与否作为独立技能学习[4] - 采用两阶段训练机制: - 第一阶段通过"思想丢弃"技术随机清空50%训练数据的推理步骤,教会模型直接回答格式[6] - 第二阶段用GRPO强化学习优化,模型自主探索何时跳过推理以最大化奖励[6] - 训练中采用"反向思考"策略构造高质量思考数据辅助学习[6] 实验结果 效率提升 - CLEVR数据集推理文本长度减少87%(从306降至28)[13] - GeoQA数据集推理长度减少65%(从924降至96)[13] - AITZ任务输出长度从3k缩减至900,节省60%token消耗[14][26] 准确率表现 - CLEVR准确率提升5个百分点至98.5%[13] - GeoQA准确率提升14个百分点至51%[13] - Qwen-2.5-VL-7B模型在AITZ任务准确率提升22个百分点[14] 应用价值 - 推理效率提升带来更快响应速度和更低算力消耗,适用于实时互动场景[19] - GUI导航任务中自适应跳过不必要步骤,解码效率提升60%[26] - 更接近人类"按需思考"模式,提升模型通用性和可靠性[19][21]
让AI学着“看菜下碟”!港中大等新框架让推理长度减少90%,准确率反增17%
量子位·2025-05-30 13:01