文章核心观点 - 阿里巴巴与上海交通大学EPIC Lab联合提出名为Socratic-Zero的自主推理训练框架,该框架仅从100个种子问题出发,通过三个智能体的协同进化,实现无需外部数据依赖的模型推理能力自进化[5] - 该方法的核心突破在于,其合成数据质量全面超越GPT-5、Gemini-2.5-Pro、Claude-4.1-Opus等顶级闭源模型作为数据生成器时的表现[14] - 该框架证明了在推理能力构建中,高质量的教学策略可能比模型规模更重要,为资源受限的团队提供了新的可能性,并开启了一条零数据、自进化的新路径[34][35] 方法框架与设计理念 - 框架设计灵感源于苏格拉底的“精神助产术”,将哲学理念转化为由Solver(学生)、Teacher(导师)与Generator(学徒)构成的三智能体自进化系统[9][13] - 三者构成闭环自进化系统:Solver的弱点驱动Teacher出题,Teacher的行为被Generator学习,Generator产出的新问题又反哺Solver训练,全程无需人类干预[13] - Solver通过在线偏好优化(Online DPO)从成功与失败轨迹中自我修正[16][20] - Teacher基于Solver的错误,动态生成针对性新问题以暴露其知识盲区[15][17] - Generator通过价值加权监督微调(WSFT)模仿Teacher的出题策略,实现课程的规模化生成[15][18] 实验结果与性能表现 - 在7个数学推理基准上,Socratic-Solver-8B平均准确率达56.1%,相比MetaMath和WizardMath(平均40.7%)绝对提升15.4个百分点[25] - 在高难度竞赛题上优势更显著,例如在AIME-24上达到28.4%准确率,相比静态增强方法的12.3%提升16.1个百分点;在Olympiad上达到55.1%,相比35.9%提升19.2个百分点[26][32] - 仅用100个种子问题启动的Socratic-Generator-32B,其合成数据质量已超越顶级闭源大模型,其问题有效性达95.6%,接近GPT-5的95.8%,远超其基座模型Qwen3-32B的89.1%[27][28] 工程价值与实施细节 - 训练流程高度工程友好,Solver训练仅需8×NVIDIA H20 GPU,Teacher推理使用16×AMD MI308X,具备轻量、可复现、高性价比的特点[30][33] - 种子选择协议精心设计,100个种子问题来自MATH数据集Level 2–4,确保Solver初始成功率在50%上下,并均匀覆盖7个数学子领域,为自进化提供高质量“引信”[19][22][23] - 框架设计通用,可扩展至代码等其他推理领域,评估采用MathRule + LLM Judge双验证机制,确保结果可信[33][34]
仅100种子题,合成数据质量超GPT-5,阿里、上交提出Socratic-Zero框架