Workflow
数学
icon
搜索文档
Copilot上大分,仅数天,陶哲轩的估计验证工具卷到2.0!刚刚又发数学形式化证明视频
机器之心· 2025-05-11 11:20
陶哲轩的开源证明助手项目 - 菲尔兹奖得主陶哲轩开发了一个开源的概念验证软件工具,用于验证涉及任意正参数的给定估计是否成立,该工具能够处理X≲Y或X≪Y形式的不等式[2] - 该工具已升级到2.0版本,改进为一个基础的证明助手,能够处理命题逻辑,并模仿Lean证明助手的功能,由Python符号代数包sympy提供支持[3] - 工具支持全自动证明,但陶哲轩更关注半自动交互式证明,用户提供高级策略,助手执行必要计算直至证明完成[3] 项目技术细节 - 项目使用Python开发,是一个轻量级证明助手,功能逊于Lean等完整证明助手,但适合验证简短而繁琐的任务如不等式或估计推导[5] - 工具支持渐近估计,陶哲轩在Sympy中实现了量级形式化,利用Sympy的「is_number」标志区分标准和非标准数[9] - 工具通过线性算法策略如「Linarith()」简化问题,支持情况拆分和树状证明结构,并能处理低阶项[8][10] 项目应用与扩展 - 陶哲轩计划开发用于估计符号函数的函数空间范数工具,创建策略部署Holder不等式和Sobolev嵌入不等式等引理[11] - 目前工具仅有一个概念验证引理即算术平均-几何平均引理,陶哲轩欢迎贡献新数据类型、引理、策略或示例问题[11] - 工具已上传至GitHub,陶哲轩依赖大语言模型如Github Copilot理解Python和sympy细节[3][5] 数学形式化证明实验 - 陶哲轩尝试利用GitHub Copilot和Lean证明助手半自动形式化一页纸的数学证明,约33分钟完成,依赖工具处理逻辑细节[13][14] - 实验证明AI工具可代劳繁琐推理,让人专注于表达而非合理性,尤其适合结构不强、技术推导为主的证明[16] - 实验暴露了Lean项目协作工具的问题,如blueprint工具不支持多证明版本管理[16]
挑战AI数学推理极限!大规模形式化数学基准FormalMATH发布,最强模型成功率仅16%
量子位· 2025-05-07 17:33
FormalMATH团队 投稿 量子位 | 公众号 QbitAI 最强AI模型面对5560道数学难题,成功率仅16.46%?背后真相大揭秘。 香港中文大学、西湖大学、MAP、浙江大学、马克斯·普朗克智能系统研究所等机构联合推出 FormalMATH形式化数学推理基准测试 ,含 5560道经过严格验证的数学题,覆盖从奥数到大学水平的代数、微积分、数论等领域。 形式化数学推理是人工智能领域公认的核心难题之一。 尽管大语言模型(LLM)在自然语言处理和代码生成等领域取得显著进展,但面对需要严格逻辑推导的数学定理证明任务时,其能力仍面临严 峻挑战。 FormalMATH:「超大规模」的形式化数学推理基准 规模突破:22.8倍于现有基准 FormalMATH包含5560个经过Lean4编译器验证的数学命题,涵盖代数、数论、微积分、离散数学等12个子领域,问题难度从国际数学奥林 匹克(IMO)竞赛级延伸至本科课程,规模是经典基准MiniF2F的22.8倍。 构建创新:人类在循环中的自动化流程用于自动形式化和语义一致性检测 为解决传统形式化数据依赖专家手动标注的瓶颈,研究团队提出了一套 「三阶段过滤」 框架: 现有LLM证 ...
陶哲轩:感谢ChatGPT,4小时独立完成了一个开源项目
机器之心· 2025-05-06 12:11
陶哲轩的开源项目 - 菲尔兹奖得主陶哲轩在五一假期发布了一个开源项目,该项目用于验证涉及任意正参数的给定估计是否成立,工具名为「estimates」[1] - 该项目是一个用于自动或半自动证明分析中估计值的框架,主要处理X≲Y或X≪Y形式的不等式[1] 项目背景与动机 - 当前符号数学软件包在代数、微积分等领域已非常发达,但缺乏复杂工具来验证渐近估计,尤其是涉及未知函数或序列的情况[2] - 陶哲轩与Bjoern Bringmann讨论后,决定开发一个工具来解决这一空白,重点处理有限数量正实数的简单渐近估计[2] - 陶哲轩曾希望有一个工具能自动判断估计是否成立并提供证明或反例,现在通过该项目实现了这一目标[3] 技术实现与AI辅助 - 陶哲轩使用ChatGPT作为主要AI工具,经过约4小时编程完成概念验证工具的开发[7] - 项目开发过程中,陶哲轩与ChatGPT进行了多轮对话,涉及Python类操作、符号表达式实现等基础功能[9][13][14] - 陶哲轩举例说明工具的应用场景,如验证弱算术平均-几何平均不等式,并指出此类任务适合自动化处理[5][6] AI在数学研究中的潜力 - 陶哲轩是较早发现AI大模型数学价值的数学家之一,曾预测到2026年AI将成为数学研究等领域值得信赖的合著者[17] - 陶哲轩此前已多次借助AI工具,如用GPT-4解决数学证明题(8种方法中1种成功)并发现论文中的隐藏bug[17] - 陶哲轩建议数学家与专业程序员协作开发此类软件,以实现优势互补[18] 项目意义与启示 - 陶哲轩强调工具的重点在于自动化而非优雅性,证明过程可能不完美但实现了目标[19] - 该项目展示了大模型在数学研究中的潜在功能,更多应用场景有待探索[19]
计算机行业重大事项点评:DeepSeek-Prover-V2发布,专注数学推理
华创证券· 2025-05-04 17:28
报告行业投资评级 - 推荐(维持),预期未来 3 - 6 个月内该行业指数涨幅超过基准指数 5%以上 [4][20] 报告的核心观点 - 4 月 30 日,DeepSeek 发布 DeepSeek - Prover - V2 - 671B 新模型、DeepSeek - Prover - V2 - 7B 增强模型及 DeepSeek - ProverBench 数据集并公布论文信息 [2] - 新模型专注数学定理证明,采用特定架构、参数和技术,实现形式化与非形式化数学证明融合,创新推理训练流程,定理证明达业内最佳 [7] - 国内 AI 数学推理达新高度,建议关注国产算力、AI 应用与 AI 安全等领域投资机遇,并列出多领域建议关注公司 [7] 根据相关目录分别进行总结 行业基本数据 - 股票家数 336 只,占比 0.04%;总市值 42,657.40 亿元,占比 4.41%;流通市值 36,398.85 亿元,占比 4.74% [4] 相对指数表现 - 1 个月绝对表现 - 5.3%,相对表现 - 1.6%;6 个月绝对表现 2.3%,相对表现 5.4%;12 个月绝对表现 27.0%,相对表现 22.4% [5] 新模型特点 - DeepSeek - Prover - V2 - 671B 采用和 DeepSeek V3 - 0324 相同架构,参数 6710 亿,用 MoE 模式,有 61 层 Transformer 层等,支持超长上下文及多种计算精度,用 safetensors 格式优化训练部署,通过 FP8 量化技术提高推理效率 [7] - 自 2024 年 3 月以来,DeepSeek - Prover 系列已推出 3 款模型,DeepSeek - Prover - V2 进一步提出“子目标分解的强化学习”,基础模型升级到 DeepSeek - V3 [7] - 采用“递归定理证明流程”和两阶段训练策略,减轻计算负担,构建最终形式证明 [7] - DeepSeek - Prover - V2 - 671B 在神经定理证明领域创新高,7B 模型解决部分大模型未攻克问题,形式与非形式数学能力差距缩小 [7] 投资建议 - 建议关注国产算力、AI 应用与 AI 安全等领域投资机遇,涉及办公、金融、大模型等 18 个领域多家公司 [7] 受益标的梳理 - 报告列出海光信息、寒武纪 - U 等多家公司 2024A、2025E 的营收、归母净利润、PE、PS 等数据 [8][9]
AI的下一个风口?听前DeepSeek成员辛华剑解读数学推理 | Deep Talk
锦秋集· 2025-05-03 16:51
DeepSeek-Prover-V2-671B模型发布 - 公司发布专注于形式化数学推理的开源大型语言模型DeepSeek-Prover-V2-671B,参数量达6710亿 [1] - 该模型结合LLM泛化能力与形式化工具(如Lean),首次实现自然语言描述到机器可验证证明的大规模端到端转化 [2] - 形式化数学被视为AI"终极挑战",突破可能将数学研究效率提升数倍,并打开金融建模、芯片验证、密码学等高价值商业场景 [2] 大模型开发者活动 - DeepSeek前成员辛华剑将参与"大模型开发者与AI基金合伙人跨洋对谈",分享《大语言模型时代的形式化数学革命》 [2] - 辛华剑为DeepSeek-Prover系列模型开发主导者,现任爱丁堡大学AI博士生及字节跳动研究实习生,专注大模型在数学定理证明的创新应用 [2][4] - 锦秋基金合伙人臧天宇将同期分享2025年AI创投趋势 [3][4] 活动主办方背景 - 锦秋基金专注AI领域投资,在管基金为12年长期基金,59%项目为首次投资,采取多轮追加策略,已投资北美活跃AI基金 [6] - 剑桥中国人工智能协会(CCAIA)致力于链接中国AI产业与海外学界,采用轻量化社群模式促进中英资源流动 [7] - 清华大学学生通用人工智能研究会(THUAGI)以培养下一代通用AI人才为目标,依托清华AI研究院资源 [9] - 清华大学学生创业协会成立于1997年,为全国最早高校创业协会之一,28年来聚焦创业生态培育 [10] 活动流程 - 英国时间15:00/中国时间22:00开始辛华剑主题演讲,随后臧天宇分享AI创投趋势 [8] - 活动含圆桌对谈及观众提问环节,国内通过腾讯会议直播,需通过锦秋基金公众号报名 [5][6][8]
DeepSeek新数学模型刷爆记录!7B小模型自主发现671B模型不会的新技能
量子位· 2025-05-01 11:53
DeepSeek放大招!新模型专注数学定理证明,大幅刷新多项高难基准测试。 在普特南测试上, 新模型 DeepSeek-Prover-V2 直接把记录刷新到 49道 。 目前的 第一名 在657道题中只做出 10道 题,为Kimi与 AIME2024冠军团队Numina 合作成果 Kimina-Prover 。 而未针对定理证明优化的 DeepSeek-R1只做出 1道 。 让还没发布的R2更令人期待了。 | 657) | | --- | | (out of | | Lean | | मै | Model | num- | | | --- | --- | --- | --- | | | | solved | compute | | 1 | Kimina-Prover-7B-Distill♥ | 10 | pass@192 | | 2 | Self-play Theorem Prover♥ | 8 | pass@3200 | | 3 | Goedel-Prover-SFT♥ | 7 | pass@512 | | 4 | ABEL | 7 | pass@596 | | 5 | InternLM2.5-StepPr ...
DeepSeek开源Prover-V2强推理模型,网友:奥数从没这么简单过
机器之心· 2025-05-01 10:11
DeepSeek-Prover-V2发布 - 公司发布DeepSeek-Prover-V2模型,包含7B和671B两个参数版本,专注于形式化定理证明,专为数学AI编程语言Lean 4打造 [3] - DeepSeek-Prover-V2-671B基于DeepSeek-V3-Base训练,7B版本基于DeepSeek-Prover-V1.5-Base构建,支持32K tokens上下文长度 [3] - 模型在MiniF2F测试中达到88.9%通过率,解决PutnamBench数据集中658道题中的49道,性能达到业内最佳 [15] 技术实现 - 采用递归定理证明流程,使用DeepSeek-V3分解复杂问题为子目标并生成形式化推理步骤,融合非形式化与形式化数学推理 [9][4] - 通过7B模型完成子目标证明以降低计算开销,整合子目标证明与DeepSeek-V3生成的思维链构建冷启动数据 [11] - 采用两阶段训练:非思维链(non-CoT)模式优化快速生成Lean代码,思维链(CoT)模式强调透明推理步骤 [17] 性能与基准测试 - DeepSeek-Prover-V2-671B在ProofNet-test上通过率37.1%(1024样本),PutnamBench解决49/658题,显著优于Goedel-Prover-SFT和STP等竞品 [23] - 7B版本在ProofNet-test通过率29.6%(1024样本),PutnamBench解决11/658题,展示小模型的高效性能 [23] - 发布ProverBench基准数据集,包含325道题目,涵盖AIME竞赛题及本科数学内容,支持高中至本科难度评估 [25][26] 行业影响 - 模型开源并公开技术细节,HuggingFace平台提供7B和671B版本下载链接,推动数学AI领域发展 [6][16] - 用户实测显示模型效果优于o4-mini和Grok-3,尤其在数学奥林匹克问题解决中表现突出 [31] - 子目标分解与推理融合的设计被类比为初级工程师问题解决技巧,潜在适用于代码生成等场景 [32]
刚刚!DeepSeek-Prover-V2-671B 发布,网友:DS 是假期终结者
程序员的那些事· 2025-05-01 10:04
DeepSeek-Prover-V2-671B发布 - 公司于4月30日正式推出DeepSeek-Prover-V2-671B模型,标志着AI数学推理能力进入新阶段 [2][4] - 该模型基于6710亿参数混合专家(MoE)架构,专为Lean 4证明辅助框架优化 [4] 技术架构特性 - 采用动态参数激活机制,单次推理仅调用约370亿参数,平衡性能与计算效率 [4][6] - 上下文窗口约128k tokens,支持高阶数学证明中的复杂长逻辑链处理 [6][7] - 可能延续多头潜在注意力机制(MLA),显著降低KV缓存需求并提升吞吐量 [7] 核心突破价值 - 实现形式化数学的"GPT-4级"突破,处理复杂数学证明能力显著提升 [7] - MoE架构相比稠密模型大幅降低内存需求并提高运算速度 [7] - 开放商用许可,预计在Hugging Face开源权重,支持学术与工业应用 [7] 应用场景拓展 - 形式化验证:应用于密码学安全证明、芯片设计验证等自动化流程 [7] - 数学研究加速:辅助定理形式化、新猜想探索及奥赛级难题证明 [7] - 智能教育工具:构建可验证步骤的交互式数学教学系统 [7] - 关键系统安全:通过Lean集成验证核心代码逻辑的正确性 [7] 基础训练数据 - 基础预训练可能超过14.8万亿tokens(基于V3基础),提供广泛知识储备 [6]
AI数学天花板来了?DeepSeek新模型低调开源,网友直呼:R2指日可待!
华尔街见闻· 2025-04-30 20:52
就在所有人都在期待DeepSeek官宣R2大模型之际,公司却出其不意地在"五一"前夕投下了另一枚技术炸弹。 4月30日,DeepSeek在Hugging Face平台上悄然开源了其最新模型——DeepSeek-Prover-V2-671B,一个专注于数学定理证明的大语言模型,专门针 对形式化数学证明任务进行优化。 DeepSeek-Prover-V2-671B使用了DeepSeek-V3架构,参数高达6710亿,采用MoE(混合专家)模式,具有61层Transformer层,7168维隐藏层。 | Hugging Face Q. Search models, datasets, users ... | | Models | ■ Datasets ■ Spaces Posts | Docs | Enterprise | Pricing | VII | Log In Sign Up | | --- | --- | --- | --- | --- | --- | --- | --- | --- | | < deepseek-ai/DeepSeek-Prover-V2-671B = 0 Wke 152 | Follo ...
数学家们仍在追赶天才拉马努金
量子位· 2025-04-27 16:19
拉马努金的数学成就 - 拉马努金一生留下近4000个数学公式和命题,其中许多在100年间不断被验证为正确[2][4][6] - 他提出的罗杰斯-拉马努金恒等式与超几何级数、整数拆分相关,并在统计物理学、弦论等领域产生深远影响[15][16][17][18] - 拉马努金猜想关于模形式τ函数系数的性质,1973年被德利涅证明,并与朗兰兹纲领紧密关联[19][20] 拉马努金的学术背景与成长经历 - 未接受正统数学教育,自学成才,13岁掌握高等三角学并独立发现复杂定理[5][23][25][27][28] - 大学时期因偏科两度挂科最终肄业,但通过独立研究在椭圆积分等领域展现惊人天赋[31][41][42] - 23岁时因数学笔记被推荐给印度数学界,最终获得研究职位并发表成果[36][38][39][43] 拉马努金与哈代的合作 - 哈代因拉马努金信中三个陌生公式邀请其赴剑桥,称其为"一生中唯一的浪漫事件"[7][48][49][50] - 两人合作期间互补:哈代注重严谨证明,拉马努金依赖直觉,共同推动高度复合数等领域研究[51][54] - 著名的"1729的士数"故事源于拉马努金住院期间对数字性质的洞察[53][54] 拉马努金的学术影响与遗产 - 32岁英年早逝,但遗留的"遗失笔记本"包含600多个未证明公式,其中模拟θ函数用于黑洞熵计算[64][66] - 拉马努金奖设立于2005年,奖金1万美元,要求获奖者年龄不超过32岁,已有22位得主包括陶哲轩等[61][62][63] - 现代数学家如小野肯、莫尔塔达等持续基于其工作解决质数检测、奇点理论等前沿问题[9][69][70][73] 拉马努金的公众影响力 - 传记电影《知者无涯》记录其与哈代的友谊,油管有专题视频解析其公式[76][79][83] - 个人论文全集被网站收录,相关研究持续引发学术界和公众关注[81][83]