数学

搜索文档
4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦
量子位· 2025-07-09 09:18
模型性能突破 - Polaris通过Scaling RL技术使4B模型在数学推理任务(AIME25得分79.4,AIME24得分81.2)超越商业大模型如Claude-4-Opus和Seed-1.5-thinking [1] - 仅用700步RL训练即让Qwen3-4B接近其235B版本的表现 [5] - 模型轻量化设计支持消费级显卡部署 [2] 训练方法论创新 - 提出"镜像J"数据分布理论:构建轻微偏向难题的分布可优化不同能力基模型的训练效果 [10] - 采用动态数据更新策略:删除训练过程中准确率过高的样本以维持挑战性 [13] - 实现多阶段温度调整:通过控制探索区温度初始化,动态维持60分多样性水平 [32][33] 技术实现细节 - 引入长度外推技术:应用YaRN方法将32K以上长文本准确率从26%提升至50% [41][43] - 优化采样温度区间:划分鲁棒生成区/控制探索区/性能崩塌区,打破t=0.6或1.0的行业惯例 [28] - 采用渐进式上下文窗口扩展:Qwen3-4B需直接从40K长度启动训练以避免性能塌陷 [52] 开源生态建设 - 完整公开训练数据/模型/代码,包括Huggingface模型库和GitHub仓库 [3][53] - 验证Scaling RL对前沿开源模型(如Qwen3)的普适性提升效果 [5] - 提出token利用效率概念:不同基模型对响应长度的敏感度存在显著差异 [51]
明明没有天赋性别差异,为何女生数学不如男生?原因竟在学校
虎嗅· 2025-07-01 16:44
数学成绩的性别差异研究 - 研究发现数学成绩的性别差异在入学后第一年开始显现,男孩在入学4个月后数学成绩超过女孩,12个月后差距更加明显[1][2] - 该研究覆盖法国2018-2021年入学的300万名5-7岁儿童,所有样本组、社会经济组、地区及学校类型均出现性别差距[6] - 研究利用大数据证明正式教育起始(而非年龄)导致差距,比较出生差几天但入学年份不同的儿童证实这一结论[7] 差异产生的原因 - 入学初期男女平均成绩无差异,表明差距源于入学后环境而非先天能力[8] - 教师和家长灌输的刻板印象(如男孩数学天赋更强)可能削弱女孩自信心[10] - 将某些活动标记为"数学"可能加深女孩对刻板印象的记忆,且女孩数学焦虑水平更高影响计时考试表现[11] 解决建议 - 需提供支持缓解数学焦虑,确保教师平等鼓励男女学生互动[5] - 培养课堂外的好奇心和问题解决能力,政策设计需适合所有群体[5][7] - 应拓宽数学能力评价标准,认可不同解题方法而非仅强调答题速度[12][13] 研究意义 - 证实性别不平等非天生或必然,早期教育经历是关键影响因素[3][9] - 结果具有"令人震惊"的普遍性,要求系统性解决方案而非局部调整[6][7]
纯数学的突破可能需要几十年时间,人工智能正在尝试加快其速度
36氪· 2025-06-30 08:01
人工智能在数学领域的应用 - 大型语言模型如ChatGPT在数学推理方面存在明显局限性,尤其在处理复杂问题时[1] - DARPA启动新计划旨在通过AI协作加速纯数学研究突破,目标是将AI发展为顶尖数学工具[1] - 数学被视为AI系统的关键痛点,解决该问题将释放更强大的AI能力并带来广泛社会效益[1] DARPA的战略定位与历史背景 - DARPA历史上推动ARPANET(互联网前身)、无人机和Siri等重大技术创新[2] - 该机构具有军方背景但保持独立运作,当前正快速将AI整合至军事领域以保持竞争优势[2] - 数学研究计划被部分专家认为可能带有非纯粹学术目的,与国防需求相关[2] 数学研究现状与挑战 - 纯数学进展缓慢,过去百年论文数量增长远低于生命科学和技术科学[4] - 数学证明依赖引理构建,需严格验证每个步骤导致研究进程漫长而艰苦[5] - Lean证明助手可加速验证但存在使用门槛,需编程专业知识且沟通效率低[5] AI技术潜力与局限性 - AI可能通过自动化验证节省数学家时间,使其更专注于创造性工作[6] - 当前AI难以处理多步骤数学问题,其能力边界尚未被充分认知[6] - AI系统存在"黑箱"特性,运作机制缺乏完全理解引发行业担忧[6] 跨领域影响 - 数学能力提升的AI可增强密码学并支持太空探索等前沿领域[2] - 学术界肯定DARPA资金支持的价值,尤其在政府削减科研经费的背景下[3] - 数学研究被视为了解AI工作机制的良性循环入口,可能推动技术范式革新[2]
加盟中大的数学家张益唐:半生蛰伏经历传奇,喜欢研究大问题
南方都市报· 2025-06-28 04:45
张益唐加盟中山大学 - 世界顶级数学家张益唐已全职加盟中山大学香港高等研究院 将在大湾区定居和工作 [1] - 张益唐是世界解析数论领域的领军者 实质性推进了"孪生素数猜想" 并在朗道-西格尔零点猜想上取得重要进展 [1] - 张益唐1978年考入北京大学数学系 1982-1985年师从潘承彪攻读硕士学位 1992年获普渡大学博士学位 [1] 学术成就与研究领域 - 张益唐证明了存在无穷多对间隙小于7000万的相邻素数对 第一次实质性推进解决"孪生素数猜想" [1] - 2022年张益唐透露关于"朗道-西格尔零点猜想"的研究进展 该问题与"黎曼猜想"紧密相关 [2] - 山东大学副校长刘建亚表示 张益唐的新成果一旦通过验证 将改写解析数论的教科书 [2] - 张益唐主要研究方向为解析数论 属于纯粹数学领域 专注于攻克重大数学难题 [1] 中山大学香港高等研究院 - 中山大学香港高等研究院于2024年10月14日在香港科学园揭牌 是内地高校在香港的首个综合性研究机构 [3] - 该研究院集教学、科研、科技成果转化为一体 重点发展生物医学、应用数学和人文社科交叉三大领域 [3] - 2025年6月27日中山大学为张益唐举行聘任仪式 校长高松颁发聘书 党委书记朱孔军为其佩戴校徽 [3] - 中山大学将与张益唐一同攻坚基础数学前沿 推动世界数学学科发展 [3]
女孩数学能力,天生不如男孩吗?
虎嗅· 2025-06-26 22:04
数学性别差距研究 核心观点 - 法国覆盖265万小学生的研究表明,数学性别差距(男孩占优)在入学4个月后开始形成,并在一年内显著扩大,完全由学校教育环境及社会文化因素驱动,与先天能力无关[2][9][11] - 入学时男孩女孩数学能力无差异(Cohen's d ≈ -0.02~0.01),但一年后差距扩大至效应值0.20,男孩高分段比例达女孩2.33倍[9][11] - 通过对比年龄相近但入学时间不同的儿童,证实差距由"上学"经历造成而非年龄增长[12][13] 实验设计 - 研究对象为法国2018-2022年全部公立私立小学的一年级学生,共2,653,082名儿童[5] - 采用三个标准化测试时间点:入学第3-4周(T1)、入学4个月(T2)、一年级结束(T3)[5][6][7] - 测试涵盖数字识别、计算、几何等数学能力及多项语言能力,并控制学校类型、教师性别、家庭SES等变量[8] 关键数据发现 - 全法101省均显示T3期性别差距显著大于T1期,证明现象具有全国普遍性[14] - 高知家庭中数学性别差距更大,暗示刻板印象传递可能更强烈[19][20] - 同一天测试显示:已上学一年的儿童存在显著性别差距,而刚入学的同龄儿童无差距[12] 机制分析 - 差距动态形成的速度(4个月显现)和触发点(入学后)指向环境因素为主导[21] - 入学时各年龄段(5.5-6.5岁)儿童均无性别差距,排除年龄对认知能力的直接影响[13] - 研究从根本上否定了"女生数学天生差"的生物学假设[21][22]
流星或太阳!广州女孩要卖“数学大脑”给华尔街|热财经
搜狐财经· 2025-06-22 12:53
公司概况 - 公理量化(Axiom Quant)是一家由"00后"斯坦福大学数学女博士洪乐潼创立的AI初创公司,目标融资金额为5000万美元,估值预计达3亿-5亿美元 [1] - 公司目前处于初创阶段,尚未推出产品、未积累用户,正在积极招募国内外人才组建团队 [1][10] - 知名创投公司波士顿投资可能领投,但创始人洪乐潼在知乎上否认媒体报道的融资信息准确性 [1] 创始人背景 - 洪乐潼为广州人,25岁,拥有麻省理工学院数学与物理双学位(3年完成)、牛津大学神经科学硕士、斯坦福大学数学与法学双博士在读 [3][6][8] - 学术成就包括发表9篇纯数学前沿论文,研究方向涵盖数论、组合学等,曾获全美女性数学家最高荣誉Alice T Schafer数学奖及罗德学者称号 [6][8] - 高中阶段已展现超强数学天赋,入选广东省中学生英才计划,并在全国中学生数学奥林匹克竞赛中表现突出 [5] 技术方向与商业模式 - 公司采用"数学即服务"模式,专注于AI+量化金融领域,旨在通过严格逻辑推理训练解决大模型"黑箱"问题 [10] - 技术路径强调数学基础层突破,例如针对ChatGPT数学测试作弊问题提出AI需加强逻辑推理训练体系 [9] - 目标客户为对冲基金、量化交易员等高端金融机构,提供高效量化解决方案 [10] 行业趋势与对标案例 - 公司技术理念与DeepSeek(幻方量化旗下)"小而专注"的团队模式高度契合,均从数学基础层切入AI领域 [10] - "00后"创业者正成为AI领域新生力量,例如耶鲁博士杨丰瑜创立的优理奇获数亿元融资,Mercor公司完成1亿美元B轮融资 [12] - 行业关注点在于"数学AI+量化金融"赛道的差异化竞争潜力,但技术商业化仍面临挑战 [13] 市场关注点 - 投资人看重创始人学术背景及"数学+AI"在金融场景的应用潜力,尤其是解决量化模型可信度痛点的长期价值 [11] - 公司估值逻辑可能基于创始团队稀缺性及技术路径独特性,而非传统产品/用户指标 [1][11]
大模型为何难成为「数学家」?斯坦福等揭示严谨证明中的结构性弱点
机器之心· 2025-06-22 12:26
数学推理与AI研究 - 数学证明需要逻辑闭合和严谨推理过程,不等式问题是检验模型推理能力的理想对象[1] - 当前形式化数学系统如Lean、Coq要求极高精度,难以规模化应用于中学到奥数级别的不等式问题[1] - 大语言模型在非形式化推理方面表现出色,能给出看似合理的答案并模仿人类初期思维方式[1] IneqMath创新方法 - 研究团队提出将不等式证明拆解为"界限估计"和"关系预测"两个子任务[2][7] - 构建首个奥林匹克级不等式证明基准数据集IneqMath,包含1,252道训练题目和200道测试题目[11][12] - 数据集覆盖83种定理和29个定理类别,测试集由IMO奖牌得主设计并经数学家审核[12] 评估框架 - 开发LLM-as-Judge框架,包含五种自动评审器评估模型推理严谨性[20] - 评审器系统在与人工标注对齐的任务上达到F1=0.93的表现[24] - 框架可判断模型是"碰巧答对"还是每个推理节点都正确[23] 研究发现 - 存在Soundness Gap现象:模型最终答案准确率与推理严谨性差距显著[27] - Grok 3 mini最终答案准确率71.5%,但逐步评审后骤降至6.0%[29] - 模型规模增大能提升猜测准确率,但对推理严谨性提升有限[30] - 增加推理token数仅带来轻微提升,很快进入饱和状态[32] 改进策略 - 自我批判提升策略为Gemini 2.5 Pro带来约5%的准确率提升[42] - 定理提示策略使Gemini 2.5 Pro准确率提升约10%[42] - 研究团队设立动态更新的排行榜推动模型在严谨数学推理上的进步[36] 研究团队 - 项目由斯坦福大学、麻省理工学院和加州大学伯克利分校的研究者联合完成[44] - 负责人Pan Lu是斯坦福大学博士后研究员,研究方向包括大语言模型和数学发现[45] - 合作者包括MIT博士生Alex Gu和斯坦福大学博士生Jikai Jin[46][47]
陶哲轩罕见长长长长长访谈:数学、AI和给年轻人的建议
量子位· 2025-06-21 11:57
数学与AI的协同关系 - AI正在重塑人类科学范式 在数学和物理的终极问题上 AI将成为人类探索的重要伙伴 但无法取代人类的直觉与创造力 [2] - 复数意义上的人类共同体将创造出最顶尖的超级智能体 比单个数学家更有可能实现数学领域的突破 [3] - 数学的关键在于从几十种可能方法中排除错误答案 而不仅是找到技术路径 [3] 数学研究方法论 - 解决困难问题需采用分阶段策略 类似香港动作片中逐个击破对手的方式 [3] - 数学研究需在结构与随机性之间寻找平衡 大多数生成对象是随机的 仅有少数存在固定模式 [38] - 数学家可通过"策略性作弊"简化问题 即暂时关闭部分困难因素 集中解决核心矛盾 [89] 前沿数学难题 - Kakeya猜想涉及在最小空间内实现物体方向调转 其解与波传播、流体动力学存在深刻联系 [5][6][7][8][9] - 纳维-斯托克斯正则性问题探讨流体运动是否会产生奇点 属于克莱基金会七大千禧年难题之一 [16][17][18] - 塞迈雷迪定理证明在足够大的数字集合中必然存在任意长度等差数列 [41] 数学与物理的差异 - 数学从公理出发关注模型构建 物理由结论驱动注重观测结果 [51] - 物理学依赖观察-理论-建模的互动循环 数学则更侧重理论推导 [52] - 数学允许自由改变规则 这是其他领域无法实现的独特优势 [3] 形式化证明与协作 - Lean编程语言能生成带证明的数学陈述 实现原子级别的协作验证 [94][95][96] - 形式化证明使常数优化效率提升10倍 能快速定位需修改的代码段 [101] - 方程理论项目通过众包完成2200万对代数法则关系验证 展示规模化数学实验潜力 [111][112][113] AI在数学中的应用 - AlphaProof系统通过强化学习解决IMO级别问题 但研究生级问题面临组合爆炸挑战 [121] - 大型语言模型可用于数学引理搜索 在代码补全场景准确率达25% [100] - AI驱动的实验数学可能成为未来研究方向 辅助处理传统暴力计算无法解决的问题 [55]
韦东奕参与项目被提名2025年度国家自然科学奖
观察者网· 2025-06-19 14:02
6月18日,北京市科学技术奖励工作办公室在北京市科技委官网发布了《关于北京市2025年度国家科学 技术奖专家提名项目的公示》。相关信息显示,北京大学学者章志飞、韦东奕为主要完成人的项目《流 动转捩机理的数学研究》被提名2025年度国家自然科学奖。 本文系观察者网独家稿件,未经授权,不得转载。 | 项目名称 | 流动转换机理的数学研究 | | | | | | | | --- | --- | --- | --- | --- | --- | --- | --- | | 提名者 | 黄飞敏,中国科学院数学与系统科学研究院 | | | | | | | | | 李嘉禹,中国科技大学 | | | | | | | | | 张旭,四川大学 | | | | | | | | | 范辉军,武汉大学 | | | | | | | | | 雷震,复旦大学 | | | | | | | | 主要完成人(完 | 章志飞(北京大学),韦东奕(北京大学) | | | | | | | | 成单位) | | | | | | | | | | 代表性论文(专著)目录 | | | | | | | | 序 | 论文(专著)名称 | 年卷页码 | 发表时间: | ...
韦东奕参与项目提名国家自然科学奖!曾研究解决多个学术难题
南方都市报· 2025-06-19 13:55
项目提名 - 北京大学章志飞、韦东奕为主要完成人的项目《流动转捩机理的数学研究》被提名2025年度国家自然科学奖 [4] - 提名项目公示时间为2025年6月18日至6月22日 [3] 韦东奕学术背景 - 韦东奕2010年进入北京大学数学科学学院学习,2014年本科毕业后继续攻读博士学位,2017年博士毕业后在北京国际数学研究中心作博士后研究,2019年入职北京大学数学科学学院 [4] - 学生时代创下傲人竞赛成绩,研究生阶段在三维Navier-Stokes方程正则性问题和二维不可压缩欧拉方程的线性阻尼问题上取得重要研究进展 [4] 学术研究成果 - 2019年布尔巴基讨论班专题讨论韦东奕与合作者在Oseen涡算子的拟谱和谱下界估计方面的研究工作,解决了流动稳定性理论中的重要公开问题 [4] - 韦东奕和章志飞等人利用波算子方法和预解估计方法解决了流动稳定性理论中一系列重要公开问题,包括Kolmogorov流的最优增强耗散估计和管道Poiseuille在大雷诺数情形下的线性稳定性 [5] - 2020年与杨诗武合作研究散焦半线性波方程解的长时间衰减行为,改进现有结果并解决陶哲轩等人提出的猜想 [5]