Workflow
大型推理模型
icon
搜索文档
AI成为数学家得力助手还要多久
科技日报· 2025-06-17 09:18
AI在数学领域的应用进展 - 美国国防高级研究计划局启动"指数性数学"计划 旨在开发提升数学研究效率的AI"合著者"系统 [1] - 新一代大型推理模型如OpenAI的o3和Anthropic的Claude 4 Thinking展现进步 在美国数学邀请赛中表现接近优秀高中生水平 [2] - 谷歌"深度思维"的AlphaProof系统结合语言模型与AlphaZero 取得与国际数学奥林匹克竞赛银牌得主相当的成绩 [2] - 谷歌AlphaEvolve模型在多个长期未解数学与计算难题上找到优于人类现有方案的解法 [2] AI当前在数学研究中的局限性 - 大型语言模型在FrontierMath测试中几乎集体"交白卷" 表明其面对全新高难度题目时能力不足 [3] - AI在解决"P vs NP"和"黎曼猜想"等重大数学难题时仍力不从心 竞赛题与真正数学研究存在差异 [2] - AI缺乏真正的创造力 能协助发现路径但无法实现真正的创新与突破 [8] AI处理数学问题的技术突破 - 加州理工学院团队开发"超级步骤"方法 将多个步骤打包以应对"超长推理链"问题 [5] - 该方法在安德鲁斯-柯蒂斯猜想上取得突破 推翻了一个40年来被广泛引用的"反例" [5] - "压缩路径"思路适用于所有需要推理链条的领域 有望推动数学研究新突破 [6] AI辅助数学研究的创新方式 - AlphaEvolve通过LLM生成并改进解题代码 配合评估模型提出比人类更优的解法 [7] - Meta的PatternBoost AI系统可生成相似数学概念 帮助激发研究灵感 [7] - AI工具可作为人类直觉的"侦察兵" 协助发现新路径和避开错误方向 [8]
「边思考、边搜索、边写作」WebThinker开启AI搜索&研究新纪元!
机器之心· 2025-05-15 16:40
研究背景 - 大型推理模型如OpenAI-o1和DeepSeek-R1在数学、编程等领域表现卓越,但在需要实时网络信息的复杂任务中存在局限性[6] - 现有开源深度搜索智能体采用RAG技术,但受限于预定义工作流程,难以深入探索网页信息[8] 技术框架 - WebThinker框架包含两种运行模式:问题解决模式和报告生成模式[13] - 问题解决模式赋予LRM深度网页探索功能,可自主发起网络搜索并提取信息[13] - 报告生成模式实现自主思考-搜索-写作策略,整合推理、搜索和报告撰写[13] - 框架采用强化学习训练策略,提升LRM调用研究工具的能力[15] 技术创新 - 突破传统RAG限制,实现端到端任务执行,无需遵循预设工作流程[10] - 深度网页探索器使LRM能自主搜索、导航并提取高质量信息[15] - 自主思考-搜索-写作策略配备三种专门工具:撰写、检查和编辑报告[15] 实验结果 - 在GPQA、GAIA、WebWalkerQA和HLE四个基准测试中表现优异[18][20] - WebThinker-32B-RL在GPQA科学问答中取得70.7%平均准确率,显著优于基准模型[21] - 在GAIA通用AI助手任务中达到48.5%准确率,优于其他方法[21] - 在Glaive研究报告生成任务中,完整性(8.4)和彻底性(8.2)评分领先[23] 应用前景 - 可应用于金融、科学、工程等知识密集型领域的研究工作[6] - 未来可扩展多模态深度搜索能力,处理图像、视频等信息[33] - 计划增强GUI网页探索能力,支持更复杂的交互任务[35]