Workflow
微软开源 Phi-4 推理模型:啰嗦AI,反卷出圈
微软微软(US:MSFT) 36氪·2025-05-08 17:15

微软开源小模型Phi-4-reasoning-plus - 微软研究院开源专为深度结构化推理任务设计的语言模型Phi-4-reasoning-plus 仅14B参数 不到DeepSeek 70B模型的五分之一 但在数学 科学 代码 逻辑推理等任务表现优异 首次尝试AIME 2025数学考试全题正确率超越70B大模型 接近DeepSeek 671B水平 [1] 创新训练方法 - 采用"推理链"(Chain-of-Thought)为核心训练目标 强制模型用标签输出详细推理过程 模仿人类分步思考 反复验证的啰嗦模式 [2] - 强化学习阶段设计特殊奖励机制 答错时鼓励更长推理链 答对时奖励简洁输出 通过"慢思考"训练使模型答案正确且思路清晰 [2][5] - 基于规则的强化学习采用可自动验证的数学题 奖励函数直接关联推理链长度与答案正确性 训练模型具备"有错就多想多写多步反省"的能力 [6][10] 跨领域性能表现 - 在AIME OmniMath GPQA等数学科学基准测试中超越Distill-Llama-70B和DeepSeek-R1等更大体量模型 [8] - 在算法(TSP/3SAT) 规划(BA-Calendar) 代码(LiveCodeBench)等未专门训练的新领域展现强迁移能力 体现元推理能力 [8] - 在长文本问答 指令遵循 毒性检测等非推理类通用任务中也有显著提升 显示"慢思考"训练方式的广泛适用性 [8] 技术细节特征 - 推理链长度设计模拟人类"思考长度" 并非越长或越短越好 生物 化学 离散数学等领域仍存在推理瓶颈 [5] - 输出格式规范要求严格 思路紊乱会扣分 重复语句受惩罚 系统鼓励多样化和探索性推理 [10]