Workflow
AlphaGeometry
icon
搜索文档
模型与「壳」的价值同时被低估?真格基金戴雨森 2025 AI 中场万字复盘
Founder Park· 2025-08-02 09:09
核心观点 - 2025年AI行业迎来多个"李世石时刻",OpenAI通用大语言模型首次达到IMO金牌水准,标志着AI推理能力质的飞跃 [5][7][10] - AI应用和"套壳"价值被低估,Context Engineering成为关键竞争壁垒 [21][23][37] - Agent技术进入早期采用阶段,模型能力与产品设计协同推动生产力革命 [30][32][69] - 模型能力进化速度超预期,推理/编程/工具使用三大主线快速突破 [53][54][64] - 中国团队在AI应用层展现突出竞争力,Kimi等产品实现技术逆袭 [38][46][51] AI技术突破 OpenAI数学推理里程碑 - OpenAI通用大语言模型在2025年IMO竞赛中完成6题5对的成绩,达到金牌水平,且未针对数学专门优化 [5] - 该成绩获奥赛组委会官方认证,相比2024年Google专门设计的AlphaGeometry(银牌水平)更具泛化能力 [7] - 模型采用与GPT-4o相同底层架构,主要优化来自post-training和inference阶段 [9] - 数学证明属于"hard to verify"问题,突破意味着AI具备接近人类顶尖水平的逻辑推理能力 [8][13] 多模态与工具使用进展 - 图像生成从玩具级进化成生产力工具,ChatGPT图像生成可准确理解用户意图 [32] - Veo3模型实现虚拟世界真假难辨的生成效果,首次跨越恐怖谷效应 [33] - 工具使用形成API调用和视觉模拟两条技术路线,MCP生态初步建立 [64][65] 产品与应用演进 Agent技术发展 - ChatGPT Agent发布标志着行业共识形成,但产品体验仍有提升空间 [16][18] - Agent产品token用量相比Chatbot显著增长,Manus等产品进入Early Adopter阶段 [32][73] - 优秀Agent产品需为未来6-12个月的模型能力设计,当前任务完成率约20%,预期年底达70-80% [40][93] - 应用层通过Context Engineering构建三层壁垒:会话级/个性化/硬件增强上下文 [23][59][60] 中国团队突破 - Kimi K2开源模型在coding/Agent工作流/中文写作方面超越Claude,OpenRouter调用量快速攀升 [38] - 中国团队在长文本技术方向的前瞻布局得到验证,产品设计能力突出 [47][48] - 套壳应用展现持久价值,Manus等产品在特定场景表现优于ChatGPT Agent [19][21] 行业竞争格局 模型厂商动态 - Google Gemini 2.5实现技术反超,与OpenAI形成三强竞争格局 [55][56] - DeepSeek采取选择性突破策略,资源聚焦模型智能而非多模态 [42][43] - 模型benchmark出现钝化现象,实际用户体验差异成为新评估标准 [84] 人才与资本趋势 - 硅谷爆发acqui-hire抢人大战,顶尖人才薪资达disruptive级别 [80][82] - 推理算力需求爆发式增长,云服务商迎来新增长周期 [41][74] - 投资逻辑从"模型颠覆应用"转向"人机协作价值创造" [37][38] 未来演进方向 技术前沿展望 - 推理能力从7分到10分的质量提升,小模型开始具备强推理能力 [53][54] - 编程场景context长度与自我纠错能力持续优化,复杂代码一次通过率提升 [55] - 原生多模态、在线学习、高级Agent能力或成下一代模型突破点 [39][94] 社会影响预判 - 生产力提升带来"超级个体",3人团队可能实现独角兽级产出 [85] - 组织管理复杂度突破新量级,美团等企业将管理数百万AI协同体 [86] - 智能边界衡量成为新挑战,人类需建立评估超人智能的新标准 [84][87]
AI拿下奥数IMO金牌,但数学界的AlphaGo时刻还没来
36氪· 2025-08-01 10:40
伴随技术进展而来的,是行业竞争"好戏":当Demis Hassabis公开谴责OpenAI提前泄露成绩时,媒体曝出DeepMind金牌团队三名核心研究员已被Meta挖 角。 AI数学能力的进步速度令人惊叹。但IMO金牌究竟意味着什么?这是数学界的AlphaGo时刻吗?AI将会成为数学研究中值得信赖的合作者,还是沦为市场 逻辑下的技术产品,消解数学的真正意义? 最近,2025年国际数学奥林匹克(IMO)在澳大利亚落幕的两天内,AI界因"IMO金牌认证",开展了一场人才与技术话语权的双重争夺战。 OpenAI抢先宣布其保密推理模型以35分达到金牌线,DeepMind两天后也亮出IMO官方认证的同等成绩单。这标志着AI首次在IMO中比肩顶尖学生,实现 从2024年银牌到2025年双金牌的数学推理能力跃升。 本篇文章,我们邀请了IMO金牌得主,以亲历者的角度来聊聊两大AI的解题逻辑和数学水平,并透视竞赛背后的技术突破与数学的未来。 01 前后获得IMO金牌,DeepMind与OpenAI之战 一觉醒来,我以为我穿越回高中了:朋友圈竟然有人提起IMO(国际数学奥林匹克竞赛,International Mathemati ...
WAIC 2025|叩响“AI+数学”之问,普陀探寻交融新篇章
新华财经· 2025-07-27 13:05
人工智能与数学的辩证关系 - 人工智能与数学的边界逐渐模糊,大模型参数突破万亿后传统调参方法陷入瓶颈,模型的泛化能力、安全性、能耗控制等问题需要数学理论的系统性支撑 [1] - "AI for Math"模式正在改写数学研究范式,神经-符号混合AI系统AlphaGeometry在国际数学奥林匹克竞赛几何问题解决中展现非凡实力 [1] - 数学是人工智能的本源与未来依托,人工智能的诞生基于积累几千年的数学智慧,其未来进步也将依赖数学发展 [1] 人工智能与数学的双向赋能 - 数学突破将推动人工智能演进,人工智能应用有助于解决数学界未解之谜并探寻新问题 [2] - 中国人工智能要崛起并在国际占据一席之地,必须夯实基础理论和发展原始创新,国内已形成三、四支核心研究力量 [2] - 学界对"数学哺育AI,AI反哺数学"的双向赋能机制形成共识,推进领域融合发展的实践行动已展开 [2] 国际合作与人才培养 - 国际高校与沿沪宁高校数学与AI专业学生代表"结对",成为数学与AI融合的生动象征 [3] - 菲尔兹奖得主冠名实验室Hitchin–Ngo实验室和Fefferman实验室揭牌,为基础数学与人工智能融合研究创造更多合作空间 [3] - 菲数中国落地普陀海纳小镇数字创新中心,与筹建的西班牙欧洲中心共同构成菲数的两大中心 [3] 区域发展与产业创新 - 普陀区持续深化科技创新和产业创新,让顶尖科技成为产业带发展的"强心剂",打造具有核心竞争力的产业链 [4] - 普陀区将带动沪宁沿线高校、企业、园区共享菲数中国的全球影响力和科研网络,共同承接课题和场景,培养基础学科拔尖人才 [4] 上海的人工智能发展战略 - 上海正全力推动数学基础突破赋能人工智能创新加速,加快构建一流创新生态 [5] - 上海推动"AI + 数学"从基础研究到产业应用的全链条突破,为智能时代贡献独特的"上海方案" [5]
Nature头条:AI大模型已达国际数学奥赛金牌水平
生物世界· 2025-07-25 15:54
人工智能在数学领域的突破 - 大语言模型首次在国际数学奥林匹克竞赛中达到金牌水平,标志着AI在复杂数学问题解决能力的重大飞跃[2][4] - DeepMind的大语言模型在评估中跨越金牌得分门槛(满分42分,35分为金牌),OpenAI的模型也展现出同等能力[4][6] - 相比2024年银牌顶尖水平,2025年实现从银牌到金牌的实质性突破,体现AI在高级数学推理和问题解决能力的显著进步[5] 技术进展与范式转变 - DeepMind此次突破采用全新大语言模型DeepThink,完全基于自然语言处理,不再依赖人类专家翻译考题和解答[6] - 此前DeepMind在数学领域依赖专门工具AlphaGeometry和AlphaProof,需要人工翻译过程,新模型实现端到端自然语言处理[6] - 国际数学奥林匹克竞赛金牌代表全球高中生数学巅峰水平,AI达到该层次表明其在复杂概念理解、创造性推理和精妙解法发现方面的高度[5] 行业影响与未来潜力 - 该突破证明大语言模型能处理需要深度逻辑思维和抽象推理的复杂任务,超越文本生成和模式识别的传统能力[7] - AI可作为教育和研究工具,帮助学生学习高等数学、启发解题思路,并协助数学研究人员探索新猜想和定理[7] - 解决奥林匹克数学竞赛金牌级问题是通往通用人工智能(AGI)的重要里程碑,体现多方面认知能力的组合[7] - 从围棋击败人类冠军到数学竞赛金牌水平,AI持续刷新机器能力认知,预示在科学探索和技术研发等领域的巨大潜力[8]
DeepMind夺得IMO官方「唯一」金牌,却成为OpenAI大型社死现场
机器之心· 2025-07-22 12:25
技术突破 - 谷歌DeepMind新一代Gemini进阶版模型在IMO竞赛中达到金牌得主水平,成功解决六道超高难度试题中的五道,拿下35分(满分42分),成为首个获得奥赛组委会官方认定为金牌的AI系统[2] - 该系统首次证明人工智能无需依赖专业编程语言,仅通过自然语言理解即可攻克复杂数学难题[3] - 突破来自Gemini Deep Think增强型推理系统,采用并行思维技术,同时探索多种可能解决方案[6] - 模型以自然语言进行端到端运行,直接从官方问题描述中生成严格数学证明,并在比赛标准的4.5小时时限内完成任务[7] 行业对比 - 谷歌DeepMind成绩远超2024年表现,当时AlphaProof和AlphaGeometry系统组合解决六个问题中的四个,荣获银牌[4] - 谷歌谨慎发布方式赢得AI界广泛赞誉,与竞争对手OpenAI对类似成绩处理方式形成鲜明对比[11] - OpenAI因绕过官方竞赛规则提前官宣遭到批评,被指缺乏可信度[10][15] - DeepMind选择等待官方认可再发布成绩,赢得金牌和尊重,而OpenAI因时机与方式问题引发争议[25] 技术方法 - OpenAI研究科学家表示谷歌方法与其不同,说明存在多种研究方向[17] - OpenAI专注于不受Lean限制的自然语言通用推理研究,因此婉拒IMO基于Lean语言的正式比赛邀请[18] - OpenAI在通用推理方面取得进展,包括收集、整理和训练高质量数学数据,未使用RAG或任何工具[19] - OpenAI提交的每份证明由三位外部IMO奖牌获得者评分并获得一致正确性认可,证明已公开发布供验证[20][21] 行业影响 - 这场AI登上数学奥林匹克舞台的较量不仅是技术竞赛,更是关于规范、节奏与合作精神的展示[25] - 在通往AGI的路上,除了技术力,如何与人类社会的规则与价值观对齐正变得愈发重要[25] - AI推理能力正在快速发展,IMO结果确实表明了这一点[24]
陶哲轩回应OpenAI新模型IMO夺金!GPT-5测试版也曝光了
量子位· 2025-07-20 10:49
OpenAI新模型在IMO竞赛中的表现 - OpenAI最新模型在2025年国际数学奥林匹克竞赛(IMO)中达到金牌水平,成功解决6道题中的5道,获得35分(满分42分),超过金牌线[1][2][11] - 模型在完全模拟人类考试条件下完成测试,包括两场各4.5小时的考试,不借助任何工具或联网,仅通过自然语言写出证明过程[9][11] - 评分过程由三位前IMO奖牌获得者独立完成,需达成一致意见才确定最终分数[13] 技术突破与模型特点 - 该模型并非依赖特定任务方法,而是在通用强化学习和测试时计算扩展方面取得突破[4] - 突破了传统强化学习依赖明确可验证奖励的范式,能够像人类数学家一样构建多页证明[14] - 唯一未解决的第六题属于组合数学领域,与去年谷歌未完成的两道题类型相同[18][19] GPT-5相关动态 - OpenAI员工透露GPT-5即将发布,但IMO金牌模型为实验性研究,暂无发布计划[3] - 第三方开源代码中出现"GPT-5-reasoning-alpha-2025-07-13"字样,随后被删除,结合OpenAI发布前安全测试的惯例,推测GPT-5临近发布[6][8] 行业反应与专家评论 - 数学界顶尖学者陶哲轩指出缺乏统一测试标准,难以公平比较AI能力,强调需预先公布方法论[25][26] - 陶哲轩列举多项可能影响测试结果的因素,如资源分配、辅助工具使用及团队协作等[28][29][30][31][32] - 数学竞赛评测平台MathArena独立测试显示,其他模型如Gemini 2.5 Pro仅获13分(31%),远低于铜牌线19分[34][35][36] 历史对比与行业意义 - 从GSM8K(0.1分钟)到IMO(约100分钟),AI在需要长时间深度思考的数学问题上进步显著[14] - 研究员Alexander Wei表示,2021年预测2025年MATH基准测试仅达30%,实际进展远超预期[39] - DeepMind研究员Archit Sharma的删除推文引发猜测,可能暗示Google模型也达到类似水平[20][21] 公开资料与后续关注 - OpenAI公开了AI解题过程供查阅[42] - MathArena团队期待OpenAI模型发布后进行独立评估[37]
陶哲轩转发!DeepMind开源「AI数学证明标准习题集」
量子位· 2025-05-31 11:34
形式化数学猜想库 - DeepMind最新开源形式化数学猜想库,收录经典数学猜想的形式化表述,如解析数论中的四个朗道问题 [1] - 资源库提供代码函数,方便用户将自然语言数学猜想转化为计算机可验证的形式化版本 [2] - 陶哲轩转发并强调形式化表述是利用自动化工具解决开放性问题的关键第一步 [3] - 猜想库开放共建,鼓励数学家添加新猜想 [4] 猜想库的用途与结构 - 填补开放式猜想形式化资源的空白,可作为自动定理证明或形式化工具的测试基准 [6][7] - 收录使用Lean形式化表述的数学猜想,来源多样,类型丰富 [9] - 题目类别统计:数论(262个)、组合数学(99个)、特殊函数(28个)、域论与多项式(17个)等 [11] - 相当于为计算机提供可扩充的“习题集”,支持ATP直接进行证明搜索或作为训练数据让AI学习猜想模式 [11][13] 参与方式与流程 - 用户可通过四种方式参与:添加新问题形式化、提出形式化需求、改进引用标记、修复错误表述 [16][17][18] - 操作流程:GitHub创建问题→Fork仓库→本地构建验证→提交PR→等待审核 [20][21][22][23][24] - 审核机制结合人工与AlphaProof(通用数学自动证明系统)确保准确性 [26] DeepMind与陶哲轩的合作 - 陶哲轩曾称赞DeepMind的FunSearch是利用LLM进行数学发现的有前途范式 [28] - 双方合作开发AlphaEvolve(LLM驱动的进化编码Agent),在数学分析、几何学等领域取得突破 [33][38] - AlphaEvolve在75%案例中复现最优解,20%案例改进已知方案 [39][40] - 解决11维空间接吻数问题,发现593个外球体结构刷新下限 [36][37] 资源链接 - 形式化数学猜想库官网与项目地址 [42]