4B小模型数学推理首超Claude 4，700步RL训练逼近235B性能

模型性能突破 - Polaris通过Scaling RL技术使4B模型在数学推理任务（AIME25得分79.4，AIME24得分81.2）超越商业大模型如Claude-4-Opus和Seed-1.5-thinking [1] - 仅用700步RL训练即让Qwen3-4B接近其235B版本的表现 [5] - 模型轻量化设计支持消费级显卡部署 [2] 训练方法论创新 - 提出"镜像J"数据分布理论：构建轻微偏向难题的分布可优化不同能力基模型的训练效果 [10] - 采用动态数据更新策略：删除训练过程中准确率过高的样本以维持挑战性 [13] - 实现多阶段温度调整：通过控制探索区温度初始化，动态维持60分多样性水平 [32][33] 技术实现细节 - 引入长度外推技术：应用YaRN方法将32K以上长文本准确率从26%提升至50% [41][43] - 优化采样温度区间：划分鲁棒生成区/控制探索区/性能崩塌区，打破t=0.6或1.0的行业惯例 [28] - 采用渐进式上下文窗口扩展：Qwen3-4B需直接从40K长度启动训练以避免性能塌陷 [52] 开源生态建设 - 完整公开训练数据/模型/代码，包括Huggingface模型库和GitHub仓库 [3][53] - 验证Scaling RL对前沿开源模型（如Qwen3）的普适性提升效果 [5] - 提出token利用效率概念：不同基模型对响应长度的敏感度存在显著差异 [51]