Workflow
推理能力提升
icon
搜索文档
SPIRAL:零和游戏自对弈成为语言模型推理训练的「免费午餐」
机器之心· 2025-07-30 13:13
核心观点 - 研究团队提出SPIRAL框架,通过零和游戏自对弈提升语言模型的推理能力,摆脱对人工监督的依赖[3] - 游戏作为推理训练场,通过输赢结果提供廉价可验证的奖励,无需人工标注[6] - 仅通过库恩扑克训练,模型数学推理能力平均提升8.7%,在Minerva Math基准测试上跃升18.1个百分点[7] - SPIRAL框架让竞争驱动智能涌现,通过多回合零和游戏自主发现并强化可泛化的推理模式[10] 游戏选择与训练效果 - 选择三种具有不同认知需求的游戏:井字棋(空间模式识别)、库恩扑克(概率计算)、简单谈判(多步规划)[12] - 自对弈保持50-52%胜率,确认对手与学习者同步进化[13] - 训练阶段胜率变化:Step 16(0% vs Gemini,52.3%自对弈),Step 128(37.5%,51.7%),Step 384(62.5%,50.9%)[14] 推理模式迁移 - 发现三种核心推理模式:期望值计算(使用率从15%增长到78%)、逐案分析(出现率72%)、模式识别(使用率35%到45%)[16][18][19] - 不同游戏培养专门化能力:井字棋专家在空间游戏Snake上56%胜率,扑克大师在概率游戏Pig Dice上91.7%胜率[20] - 多游戏训练产生协同效应:Liar's Dice上单一专家12-25%胜率,多游戏模型达51.4%[21][22] 技术创新 - 开发分布式在线多智能体强化学习系统,实现全参数更新的在线自对弈[24] - 角色条件优势估计(RAE)防止思维崩溃,保持稳定梯度和推理生成[26][27][28] - 在DeepSeek-R1-Distill-Qwen-7B上应用SPIRAL,性能从59.7%提升到61.7%,AIME 2025分数跃升10个百分点[30] 实践意义与局限 - 提供全新思路:无需高质量推理数据,只需设计合适游戏环境[35] - 验证关键假设:强化学习筛选预训练模型中的可泛化思维链[35] - 当前局限:游戏环境依赖、计算资源需求(8块H100 GPU运行25小时)、性能瓶颈[38] - 评估局限:主要集中在学术基准测试,需进一步验证现实任务影响[39]
从多模态融合到行业深扎,国内 AI 大模型三大发展方向解析
搜狐财经· 2025-07-07 11:36
技术深化方向 - 多模态融合成为大模型发展重点 科大讯飞的星火认知大模型通过综合判断语音、手势、行为、情绪等提供更自然交互 并首发汽车端侧星火大模型赋能汽车产业 字节跳动的豆包强化多模态能力 其视频生成模型Seedance 1.0 pro在国际评测中表现优异 未来大模型将更精准融合文本、图像、语音等多模态信息 [2] - 推理能力持续提升 字节跳动的豆包1.6-thinking在复杂推理、竞赛级数学等测试中跻身全球前列 多轮对话能力达企业级应用标准 百度文心一言通过引入外部知识源提升知识水平和回答准确性 [2] 应用拓展方向 - 行业深度赋能趋势明显 科大讯飞计划将星火大模型从通用走向行业 覆盖汽车、教育、医疗、智慧城市等领域 百度、阿里等公司也在金融、工业、政府、科研、电商领域探索定制化应用 [3] - 智能应用创新加速 字节跳动提出"互联网从APP时代进入Agents时代" 火山引擎方舟平台构建了服务Agent开发完整体系 催生他她它、推氪AI等创新产品 未来大模型将与新兴技术结合创造智能助手、创作工具等应用 [3] 生态建设方向 - 开源共享成为重要趋势 2025年以来字节豆包、百度文心、阿里通义千问等推出开源模型 商汤科技发布LazyLLM开源框架 MiniMax开源新一代MiniMax-01系列模型 通过开源吸引开发者提升模型性能 [4] - 产业生态构建持续推进 国内出台政策支持AI产业发展 上海模速空间覆盖算力层、数据层、基础大模型层和应用层全产业链 未来研发机构将加强与上下游合作构建完整产业生态 [4]