Workflow
数学推理
icon
搜索文档
4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦
量子位· 2025-07-09 09:18
模型性能突破 - Polaris通过Scaling RL技术使4B模型在数学推理任务(AIME25得分79.4,AIME24得分81.2)超越商业大模型如Claude-4-Opus和Seed-1.5-thinking [1] - 仅用700步RL训练即让Qwen3-4B接近其235B版本的表现 [5] - 模型轻量化设计支持消费级显卡部署 [2] 训练方法论创新 - 提出"镜像J"数据分布理论:构建轻微偏向难题的分布可优化不同能力基模型的训练效果 [10] - 采用动态数据更新策略:删除训练过程中准确率过高的样本以维持挑战性 [13] - 实现多阶段温度调整:通过控制探索区温度初始化,动态维持60分多样性水平 [32][33] 技术实现细节 - 引入长度外推技术:应用YaRN方法将32K以上长文本准确率从26%提升至50% [41][43] - 优化采样温度区间:划分鲁棒生成区/控制探索区/性能崩塌区,打破t=0.6或1.0的行业惯例 [28] - 采用渐进式上下文窗口扩展:Qwen3-4B需直接从40K长度启动训练以避免性能塌陷 [52] 开源生态建设 - 完整公开训练数据/模型/代码,包括Huggingface模型库和GitHub仓库 [3][53] - 验证Scaling RL对前沿开源模型(如Qwen3)的普适性提升效果 [5] - 提出token利用效率概念:不同基模型对响应长度的敏感度存在显著差异 [51]
高考数学斩获139分!小米7B模型比肩Qwen3-235B、OpenAI o3
机器之心· 2025-06-16 13:16
大模型数学能力评测 - 七个大模型参与2025年数学新课标I卷测试,Gemini 2.5 Pro以145分位列第一,Doubao和DeepSeek R1以144分并列第二 [2] - 小米7B参数小模型MiMo-VL表现突出,总分139分与Qwen3-235B持平,仅比OpenAI o3低1分 [4] - MiMo-VL在7B参数多模态模型中优势显著,较同类Qwen2.5-VL-7B高出56分 [5] 细分题型表现 - 客观题部分(73分):MiMo-VL单选题得35分(总分40),多选题和填空题均获满分 [8][10][11] - 解答题部分(77分):MiMo-VL得71分位列第五,超越hunyuan-t1-latest和文心X1 Turbo [12] - 测试方法差异:MiMo-VL和Qwen2.5-VL-7B采用截图输入,其他模型使用文本Latex输入 [6] 小米MiMo-VL技术突破 - 模型基于MiMo-7B升级,在数学推理和代码竞赛中超越OpenAI o1-mini和阿里QwQ-32B-Preview [15] - 通过RL训练后,MiMo-7B-RL-0530版本达到与DeepSeek R1和OpenAI o3-mini相近水平 [16] - 多模态能力显著:在OlympiadBench等数学竞赛中领先10倍参数的Qwen-2.5-VL-72B和GPT-4o [20] 技术实现路径 - 采用混合在线强化学习算法(MORL),整合文本推理与多模态感知反馈信号 [27][29] - 预训练数据达2.4T tokens,涵盖图片-文本对、视频-文本对等多元数据类型 [28] - 模型已全面开源,包括技术报告、权重和评估框架 [32][33] 行业竞争格局 - 开源模型MiMo-VL-7B在内部评测中超越GPT-4o成为开源模型第一 [24] - 参数效率突破:7B模型性能比肩235B参数的Qwen3和闭源o3模型 [13][16] - 多模态赛道创新:GUI Grounding任务表现媲美专用模型 [18]
32B本地部署!阿里开源最新多模态模型:主打视觉语言,数学推理也很强
量子位· 2025-03-25 08:59
阿里通义千问Qwen2.5-VL-32B-Instruct发布 - 公司发布Qwen2.5-VL-32B-Instruct视觉语言模型,进一步扩充开源家族产品线[1][2] - 新模型尺寸为32B,填补了此前3B、7B和72B之间的空白,兼顾本地运行能力与性能表现[2][3] - 通过强化学习优化,模型在文本能力上达到同规模SOTA水平,部分基准测试甚至超越72B版本[4] 模型技术性能突破 - 具备精细化图像理解与推理能力,可结合时间、距离、限速等要素进行多步骤逻辑推算[5] - 数学推理能力显著提升,能完成几何角度计算等复杂问题,分步骤推导过程清晰[8][9][10][11] - 图像解析和视觉逻辑推导任务中表现出更高准确性与细粒度分析能力[5][13] 行业影响与用户反馈 - 模型已在Hugging Face平台开源,支持在Qwen Chat直接体验[14][15] - 技术社区快速响应,MLX Community已有用户成功运行[16] - Hacker News网友热议开源策略,认为此举验证了开源模式优势[17] 行业动态观察 - 公司近期与DeepSeek多次同步发布新模型,引发行业对协同策略的关注[18] - 模型发布节奏显示国内AI企业技术迭代加速,形成竞争性创新格局[1][18]