Lean - 财报，业绩电话会，研报，新闻

Lean

搜索文档

36氪· 2026-01-12 09:49

文章核心观点 - 陶哲轩澄清AI解决数学问题的能力被夸大，旨在纠正将AI产出可验证结果等同于AI具备独立数学创新和替代人类能力的叙事[1][2] - AI在数学研究中的实际角色是工具链的一环，擅长执行体力活和工程活，但数学的灵魂如提出深刻问题、创造新概念等仍高度依赖人类[6][12] AI在Erdős问题上的贡献与案例 - AI在特定Erdős问题上生成了完整或部分解答，例如问题728在2026年1月6日由Aristotle与ChatGPT 5.2 Pro给出完整解答并通过Lean验证，问题729在2026年1月8日至10日也获得完整解答并使用了对728解法的修改版本[8][9] - AI被用于文献检索，以核查问题是否已被解决，例如GPT-5在2025年10月13日对问题[35]、[66]等进行了审核并找到了部分结果，在2025年11月2日对问题[94]找到了完整解法[11] - 存在AI完全解决问题后才发现已有文献解法的案例，例如问题[333]在2025年12月25日由ChatGPT 5.2 Pro和Claude Opus 4.5给出完整解决方案，但结果与Erdős和Newman (1977)的工作相似[10] 评估AI数学进展需考量的多维因素 - Erdős问题难度跨度极大，包含大量研究很少的“长尾题”和超级硬核的核心难题，仅比较“解题数”可能不是同一难度段的对比[2] - 许多问题“是否未解”本身不确定，网站标签“Open”往往是暂定的，AI解出后常发现文献早有解法，这使得“AI首解”的叙事容易翻车[3] - AI生成的证明常缺少背景、动机、文献对比等知识网络连接，其数学价值可能低于人类证明，且解出冷门题不等于够格投顶级期刊[3] - 将AI证明形式化到Lean等证明助手中虽提高可信度，但仍可能因引入额外公理、误形式化问题陈述或利用数学库的“边角行为”而被钻空子[4] AI在数学研究中的实际定位与未来展望 - AI当前擅长数学的体力活和工程活，如跑套路、补漏洞、做形式化、写稿改稿、查文献[12] - 数学的真正“灵魂”——提出深刻问题、创造新概念、将结果嵌入学科知识网络——仍然高度依赖人类[12] - 未来数学家可能扮演统领硅基智能大军的指挥官角色，由人类指引方向，AI负责开路架桥[12]

陶哲轩：AI让数学进入「工业化」时代，数学家也可以是「包工头」

机器之心· 2026-01-03 09:35

文章核心观点 - 数学研究正经历一场由AI和形式化证明语言（如Lean）引领的“工业革命”，传统“手工业”模式濒临崩溃 [1] - 形式化工具与AI的结合将数学证明拆分为可独立验证的原子步骤，从根本上改变了数学的协作、思维和生产方式，有望显著加速数学研究进展 [2][9][22][28] 数学研究的现状与加速 - 传统数学研究包含大量枯燥的重复性劳动，如文献综述、调整他人论文参数和繁琐计算 [6][7] - 形式化项目效率大幅提升：Peter Scholze的“液态张量实验”项目将一个重要定理形式化耗时18个月，而20世纪的类似项目动辄需几十年 [7] - 大语言模型（LLM）现已能自动形式化单个证明步骤，实时减轻形式化过程中的苦力活 [9] 形式化对数学思维的影响 - 形式化迫使数学家更清晰地思考，暴露“隐形假设”和习惯性默认成立的条件，从而精简写作 [11] - 形式化催生了新的证明写作风格：从传统的线性推导，转变为提供一组相关事实，由自动化工具找出正确组合来完成证明 [12] - 形式化帮助清理低效或错误的思维习惯，例如通过自动化工具发现定理中未被使用的冗余假设，从而可能扩展工具的自然适用范围 [14][15] 形式化改变协作方式 - 形式化具备高度模块化结构，允许围绕非常具体的局部问题进行原子级的精细讨论和修复，无需理解整个系统 [21] - 在形式化项目中，修改已有证明比传统方式高效得多：例如，将PFR猜想证明中的常数从12更新为11，在一天内完成，而首次完整形式化耗时三周 [19] - 形式化工具与AI实现了不同技能背景人群之间的无缝协作，数学研究首次具备了真正分工协作的可能性 [27][28] 数学研究的“工业化”与角色演变 - 未来的数学研究将出现类似软件工程的分工模式，进行规模化、工业化的数学成果生产 [2][28] - 数学家的角色将被拓宽：一部分人将成为大型项目的“架构师”或项目经理，负责协调；另一部分人可能专精于形式化工作或使用AI工具，而非特定数学领域专家 [24][29] - 新的协作方式将降低研究门槛，允许“公民数学家”（非专业领域专家但具备特定技能的人）参与前沿研究，释放庞大潜在研究力量 [2][30][31] AI在数学研究中的定位与应用前景 - AI和自动化的优势在于处理人类不擅长或不愿做的枯燥、机械性任务，如大量数值计算、枚举和组合筛选 [34] - 在解析数论等领域，大量研究时间（例如超过70%）花费在繁琐、机械性的工作上，这构成了主要瓶颈 [35] - 自动化工具链有望将解析数论中非显式的常数计算结果变为显式并可自动更新，从而动态维护领域前沿状态，将原本需十年一次的更新工作缩短至几分钟 [36][37][38] - 形式化验证系统（如Lean）有望构建一个尽可能无错误、可互操作、可规模化扩展的可靠数学研究基础设施 [39] 新工具对研究路径的潜在影响 - 历史上，计算机的引入已催生结合数据和实验的新数学研究方式（如高斯通过手工计算素数提出分布猜想） [42][43][45] - 当前数学论文中“苦工”比例看似不高，是因为研究者下意识地避开了计算繁重的路径；若工具到位，研究者将能直接“碾过”这些障碍，实际可被自动化的潜在工作量远高于表面所见 [46][47] - 形式化工具通过提供基于可验证结构的信任，将极大消除因人际信任与沟通成本造成的研究瓶颈，释放生产力 [47][48][49]

十分钟出结果，陶哲轩用Gemini Deepthink帮人类数学家完成Erdős问题论证

机器之心· 2025-11-23 12:06

AI在数学研究中的应用进展 - 著名数学家陶哲轩使用Gemini 2 5 Deep Think AI工具验证了一个复杂的数学恒等式该工具仅用约十分钟就完成了使用p-adic代数数论的完整证明[9] - 陶哲轩随后花费约半小时将AI生成的复杂证明转换为更基础的形式使其适合在Lean定理证明器中形式化验证[11] - 数学家Boris Alexeev使用Harmonic的Aristotle工具完成了该问题的Lean形式化整个过程花费两到三小时并手动形式化最终命题以防止AI滥用[12] 具体数学问题解决案例 - 独立研究者Wouter van Doorn于11月20日针对Erdős问题367提出了一个反例依赖于一个他认为成立但需要验证的同余恒等式[5] - 该数学问题涉及复杂的极限表达式和乘积不等式具体形式为lim sup (∏Bᵣ(m)/n¹⁺ᵉ)→∞以及∏B₂(m)的相关不等式[4][6][8] - 问题解决过程展示了从人类提出猜想 AI快速验证到数学家优化证明并最终实现形式化验证的完整协作流程[5][9][11][12] 数学研究平台与社区协作 - Erdős问题网站专注于数学研究收录保罗・厄尔德什提出的各类问题涵盖数论组合数学图论等领域[1] - 该平台为研究人员数学爱好者和学者提供提出讨论和解决数学问题的空间促进了学术交流与合作[1] - 此次事件通过Mathstodon等社交平台传播显示了现代数学研究社区线上线下协同工作的新模式[13]

Gemini 2.5 Deep Think

Gemini 2.5 Deep Think

美版“梁文锋”不信邪

虎嗅· 2025-07-31 14:51

公司背景与创始人 - 公司Harmonic专注于解决AI幻觉问题开发零幻觉AI模型Aristotle [3] - 联合创始人Vlad Tenev为数学背景曾创立估值55亿美元的金融科技公司Robinhood [7][8][11] - 联合创始人Tudor Achim为计算机科学专家曾创立自动驾驶公司Helm.ai并融资1.02亿美元 [12] - 公司成立初期使用Vlad Tenev个人资金启动 [11] 技术突破与产品特性 - Aristotle模型通过Lean证明系统实现数学推理零幻觉每一步推导需经系统验证 [19][31][33] - 模型在MiniF2F测试集（488道数学题）中达成90%通过率远超GPT-4的20-35% [37][38] - 产品支持自然语言输入自动生成严格数学证明并提供步骤解释 [18][20][21] - 宣称在IMO2025竞赛中获得金牌成绩 [3] 融资与估值 - 公司两年内估值从零升至接近9亿美元 [5][27] - A轮融资（2024年9月）获7500万美元估值3.25亿美元 [27] - B轮融资（2025年7月）获1亿美元估值接近9亿美元 [27] - 投资方包括红杉资本、Index Ventures、Kleiner Perkins及Paradigm等顶级机构 [28][29] 行业竞争格局 - 竞争对手DeepSeek的Prover-V2模型在MiniF2F测试中达88.9%通过率 [41] - 谷歌DeepMind的AlphaProof在2024年IMO获银牌（解出4/6题） [44] - OpenAI等大厂通过自然语言路径仍存在高幻觉率问题 [4][24] 商业模式与战略方向 - 公司推出iOS/Android聊天机器人测试版及企业API接口 [3][22] - 目标市场包括金融建模、科学推理等低容错率B端领域 [17] - 技术路径依赖形式化验证与主流非形式化路径形成差异 [4][35] - 潜在发展路径包括被大厂收购以整合技术生态 [46]

大语言模型离“数学证明高手”还有多远？斯坦福、伯克利、MIT 团队提出 IneqMath 评测标准

AI前线· 2025-07-17 12:47

大语言模型数学推理能力评估 - 不等式问题可作为检验AI数学推理能力的理想工具，因其结构简单且易暴露逻辑漏洞[1] - 形式化数学系统(如Lean/Coq)虽能验证证明严谨性，但存在门槛高、自动化程度低等局限性[1] - 大语言模型在自然语言环境下表现优于形式化证明，适合开展"非正式推理"研究[4] IneqMath创新研究方法 - 斯坦福等团队提出将不等式证明拆解为"界限估计"和"关系预测"两个可验证子任务[4] - 构建包含1,252道训练题+200道奥赛级测试题的IneqMath数据集，建立自然语言与形式逻辑的桥梁[8] - 采用自然语言+LaTeX表达方式，平衡可证明性与易用性，答案具有唯一可验证性[6][7] AI裁判系统性能 - 四维度评审器(Toy Case/Logical Gap/Numerical Approximation/Computation)实现F1=0.93的高准确率[15][16] - 系统可检测71.5%答案正确但仅6%过程严谨的案例(Grok 3 mini)，揭示模型"蒙答案"现象[18] - 评审器类型中Logical Gap Judge表现最佳(F1=0.96)，计算验证类相对较弱(F1=0.80)[17] 模型规模与推理能力关系 - 参数增加仅提升答案准确率，对推理严谨性无显著改善[20] - 延长推理token数量对质量提升有限，存在明显瓶颈效应[23][24] - Gemini 2.5 Pro通过自我批判机制提升5%准确率，定理提示方法最高可提升10%[25] 行业应用与展望 - IneqMath框架为AI数学推理能力提供标准化评估工具[4][8] - 研究证实单纯扩大模型规模无法解决推理严谨性问题，需结合反思机制与工具使用[21][25] - 该方向发展将推动AI从"答案生成"向"过程验证"的范式转变[28][29]

纯数学的突破可能需要几十年时间，人工智能正在尝试加快其速度

36氪· 2025-06-30 08:01

人工智能在数学领域的应用 - 大型语言模型如ChatGPT在数学推理方面存在明显局限性，尤其在处理复杂问题时[1] - DARPA启动新计划旨在通过AI协作加速纯数学研究突破，目标是将AI发展为顶尖数学工具[1] - 数学被视为AI系统的关键痛点，解决该问题将释放更强大的AI能力并带来广泛社会效益[1] DARPA的战略定位与历史背景 - DARPA历史上推动ARPANET（互联网前身）、无人机和Siri等重大技术创新[2] - 该机构具有军方背景但保持独立运作，当前正快速将AI整合至军事领域以保持竞争优势[2] - 数学研究计划被部分专家认为可能带有非纯粹学术目的，与国防需求相关[2] 数学研究现状与挑战 - 纯数学进展缓慢，过去百年论文数量增长远低于生命科学和技术科学[4] - 数学证明依赖引理构建，需严格验证每个步骤导致研究进程漫长而艰苦[5] - Lean证明助手可加速验证但存在使用门槛，需编程专业知识且沟通效率低[5] AI技术潜力与局限性 - AI可能通过自动化验证节省数学家时间，使其更专注于创造性工作[6] - 当前AI难以处理多步骤数学问题，其能力边界尚未被充分认知[6] - AI系统存在"黑箱"特性，运作机制缺乏完全理解引发行业担忧[6] 跨领域影响 - 数学能力提升的AI可增强密码学并支持太空探索等前沿领域[2] - 学术界肯定DARPA资金支持的价值，尤其在政府削减科研经费的背景下[3] - 数学研究被视为了解AI工作机制的良性循环入口，可能推动技术范式革新[2]

人工智能

纯数学

Artificial Intelligence

Artificial Intelligence

ChatGPT

Siri

Lean

陶哲轩：感谢Lean，我又重写了20年前经典教材！

机器之心· 2025-06-01 11:30

陶哲轩实分析教材形式化项目核心观点 - 陶哲轩为《Analysis I》教材创建Lean配套项目将教材中的定义、定理和练习转换为Lean可交互形式为学生提供新型学习工具[1][2] - 项目采用渐进式策略前期独立构建数学结构后期逐步迁移至标准数学库Mathlib 兼具教材辅助和工具入门双重功能[5] - 形式化内容严格遵循原书结构但刻意避免直接引用原文定位为注解式辅助资料而非替代品[4] 项目技术细节 - 使用Lean依赖类型理论特别利用其出色的商类型支持与教材采用的朴素类型理论高度兼容[2] - 当前已完成部分章节形式化采用"先独立后迁移"模式例如第2章先自定义自然数体系再建立与Mathlib标准体系的同构关系[5] - 习题部分以"sorry"占位符呈现不提供官方解答鼓励用户自行完成并创建项目副本[2][4] 教育应用价值 - 为数学系学生提供即时反馈机制错误证明无法通过编译显著提升学习效率[10] - 架设教材与Mathlib工具间的桥梁降低形式化验证的学习门槛[9] - 开源项目允许自由协作陶哲轩本人将持续收集用户反馈以优化项目[7] 社区反响 - 数学爱好者高度认可该项目价值认为其首次实现编程式严谨构建数学体系的教学目标[9] - 教育工作者期待未来结合LLM技术使Lean编译器能提供类似Rust的指导性错误修正建议[10]

当AI遇上数学：大语言模型如何掀起一场形式化数学的革命？ | Deep Talk

锦秋集· 2025-05-12 17:13

核心观点 - 大语言模型（LLM）与形式化数学结合正推动数学领域的范式变革，解决传统人工验证的瓶颈问题 [1][4] - 形式化数学通过严格逻辑和计算机辅助验证提升数学证明的可靠性和效率 [4][7] - 从Theorem Prover向Proof Engineering Agent转型是形式化数学的未来趋势 [11][17] - APE-Bench作为自动化证明工程基准，支持形式化数学的长期动态演进 [12][16] - LLM与形式化方法的结合将催生Certified AI，提升知识生产的可信度和效率 [17] 形式化数学的背景与挑战 - 现代数学证明规模庞大（如300页的开普勒猜想证明），传统人工验证效率低且易出错 [6] - 形式化数学通过公理系统和逻辑语言表达数学内容，借助计算机工具实现自动化验证 [8] - LLM的"幻觉"问题在数学领域尤为突出，需结合形式化方法确保生成内容的逻辑严密性 [6] 形式化定理证明的应用 - 典型案例包括Flyspeck项目（验证开普勒猜想）、液体张量实验（验证凝聚态数学引理）、PFR猜想众包验证 [13] - 形式化方法适用于数学理论证明和软件工程验证，确保逻辑一致性 [9] LLM驱动的最新进展 - AlphaProof在国际数学奥林匹克题目证明中达到银牌水平，DeepSeek-Prover V2在miniF2F基准成功率近90% [10] - LEGO-Prover项目利用LLM构建可复用的数学知识库，推动形式化数学向库级理论构建转型 [10] - 前沿研究探索LLM主动提出数学猜想和发现抽象结构的潜力 [10] Proof Engineering Agent转型 - 当前形式化工具面临人工成本高、协作效率低等问题（如Flyspeck项目耗费数十人年） [11] - 下一代工具需具备自我规划、修复和知识积累能力，支持大规模跨模块协作 [11] APE-Bench的设计与实施 - 分为三个阶段：单文件局部修改（APE-Bench I）、跨文件一致性维护（APE-Bench II）、完全自主Agent模式（APE-Bench III） [19] - 基于真实数学库（如Mathlib4）的历史修改记录，模拟实际Proof Engineering场景 [12] 未来影响与展望 - 数学领域：提升验证效率，推动理论创新和概念探索 [17] - 工业领域：应用于高安全系统（如操作系统内核、智能合约），提升安全性与可靠性 [17] - Certified AI将结合形式化验证与动态学习，成为可信的知识生产伙伴 [17]

大语言模型

形式化数学

形式化定理证明

自动化证明工程基准（APE - Bench）

自动化证明工程基准（APE - Bench）

Certified AI

人工智能

陶哲轩油管首秀：33分钟，AI速证「人类需要写满一页纸」的证明

量子位· 2025-05-12 12:11

陶哲轩AI辅助数学证明 - 核心观点：陶哲轩通过AI工具将传统数学证明时间从人工一页纸缩短至33分钟，并验证了AI在技术性证明中的潜力 [2][8][16] - 采用GitHub Copilot生成代码骨架+Lean策略填补细节，实现形式化验证且保持人类可读性 [10][11][12] - 该方法适用于技术性强、概念性弱的论证，能解放数学家处理繁琐事务 [17][18] 数学证明助手2.0版本 - 轻量级Python工具，专注简短繁琐证明（如渐近分析），支持命题逻辑处理 [24][25][28] - 双模式运作：假设模式/策略模式（默认），策略库含命题/线性算术/替代/简化四类 [28][34] - 案例演示：线性算术策略Linarith()可自动解决不等式证明，支持树状结构案例拆分 [31][33][38] 用户反响与数据表现 - 视频首日订阅900+、观看量超2000且持续高速增长 [5] - 网友评价具有历史意义，预期成为伟大数学频道 [4][7] - 工具开源接受功能扩展建议，计划开发函数空间规范工具 [38][39] 技术实现细节 - 基于Bruno Le Floch草稿拆解逻辑单元，需部分手动补全 [10] - 前两次尝试失败：代码可读性差（5行中断）、录屏故障（48分钟证明作废） [22] - 证明助手2.0改进：模仿精简证明助手交互，两周内完成升级 [26][27]