Workflow
AlphaEvolve
icon
搜索文档
百度亮出秘密武器:一个自我演化的AI,给出了人类做不到的最优解
机器之心· 2025-11-14 17:30
产品核心定位与能力 - 百度发布全球首个可商用、自我演化的超级智能体“伐谋”,能够针对复杂问题自主寻找全局最优解 [6] - AI能力实现从“执行指令”到“自主发现”的跨越,可发现人类无法想到的解决方案 [6] - 该系统旨在解决难度极大、人类解决得不太好的问题,将人类智慧进行规模化扩展 [20] - 输入自然语言指令和必要数据,智能体即可自动设立项目进行研究,寻找解法 [2] 核心技术特点 - 结合大语言模型和进化搜索算法,通过大语言模型的推理能力与大规模进化搜索解决复杂现实世界问题 [8] - 具备四大核心技术:冷启动初始化、自适应多样性采样、领域专用评估器、分布式异步基础设施 [14] - 使用昆仑芯一体机进行运算,任务求解时间从数小时到数天不等 [13] - 工作流程包括智能体寻找算法、选择优势品种进化、生成新算法并由评估器判断质量,形成闭环 [12] 性能表现与基准测试 - 在MLE-Bench上达到43.56%的奖牌率,比人类中位数高出51.56% [13] - 在ALE-Bench上得分为1976.3,比专门设计的ALE-Agent高出5.2% [13] - 在KernelBench上实现2.08到20.77倍的加速比 [13] - 所有实验均全自动运行,无人类干预,且未针对Benchmark进行针对性优化 [16] 应用场景与行业落地 - 应用领域涵盖路径规划、过程控制、排产调度、资源优化、机器学习和性能优化 [18] - 在金融领域,中信百信银行风控特征挖掘风险区分度提升2.41%,特征挖掘效率提升100% [25] - 在城市交通领域,通过优化上千红绿灯配时找到全局最优解,提升整体交通效率 [25] - 在超级工程领域,为海上风电电缆布置找到比人工设计更短的路径,交付时间节省数倍 [25] - 正在水务、物流、能源等领域测试,预期可降低能耗、提升工作效率 [25] 市场反响与发展阶段 - 发布首日吸引超1000家企业申请接入测试,覆盖交通、能源、金融、物流等行业 [33] - 目前处于落地初期,通过邀请码形式优先向高复杂决策需求企业开放 [33][6] - 基于AI的自主优化引擎被视为AI大规模技术落地的前沿方向 [30][32] - 标志着AI正从“对话”走向“决策”,有望在业务链各环节显现优化能力 [31][32]
陶哲轩力推AlphaEvolve:解决67个不同数学问题,多个难题中超越人类最优解
36氪· 2025-11-07 15:40
在与DeepMind高级工程师Bogdan Georgiev等人合著的新论文中,陶哲轩称其为数学发现的有力新工具。 陶哲轩又来安利AlphaEvolve了。 具体来说,他们用AlphaEvolve研究了67个数学问题,涵盖组合数学、几何、数学分析与数论等多个领域。 结果发现,AlphaEvolve在可扩展性、鲁棒性、可解释性方面均优于传统工具。 更关键的是,AlphaEvolve已经可以自主发现新颖的数学构造,并在部分问题上超越人类已有的最优结果。 AI自主发现新数学构造 AlphaEvolve在67个问题的测试中,不仅复现了众多已知最优解,更在多个方面展现了其独特的发现能力。 一个关键的成就是AlphaEvolve能够自主发现人类未曾一窥的新数学构造。 例如在处理Nikodym集问题时,系统生成的初步构造虽然尚未达到最优,但它为人类研究者提供了"一个极好的人类直觉跳板" 。 系统不仅将一个已知的下界从1.61226提升至1.668,其构造的解(形态上类似于离散高斯分布)还启发人类数学家建立了新的渐近关系,相关成果也即将 发表。 这种启发人类研究的能力,与AlphaEvolve输出结果的可解释性紧密相关。 基 ...
陶哲轩力推AlphaEvolve:解决67个不同数学问题,多个难题中超越人类最优解
量子位· 2025-11-07 13:32
核心观点 - AlphaEvolve被数学家陶哲轩称为数学发现的有力新工具,展示了AI在数学研究领域的强大能力 [1][2] 测试范围与成果 - 系统在67个数学问题上进行了测试,涵盖组合数学、几何、数学分析与数论等多个领域 [4] - 系统不仅复现了众多已知最优解,更关键的是能够自主发现新颖的数学构造,并在部分问题上超越人类已有的最优结果 [5][6][7] 自主发现与人机协作 - 在处理Nikodym集问题时,系统生成的构造为人类研究者提供了极好的直觉跳板,研究人员通过人工简化最终找到了更优构造,改进了已知上界,相关成果将作为独立数学论文发表 [8] - 在算术Kakeya猜想中,系统将一个已知的下界从1.61226提升至1.668,其构造的解(形态上类似于离散高斯分布)还启发人类数学家建立了新的渐近关系,相关成果也即将发表 [12] 系统特性优势 - 系统在可扩展性、鲁棒性、可解释性方面均优于传统工具 [9] - 系统生成的是结构清晰的程序代码,而非难以理解的黑盒结果,使得人类专家可以方便地分析、归纳其发现的模式 [12] - 在积木堆叠问题中,系统自主将递归程序重构为更简洁高效的显式程序,清晰揭示了最优解与谐波数之间的数学关系,与人类已知理论公式一致 [13][17] 鲁棒性与泛化能力 - 系统能够有效处理高维度参数空间、复杂的几何约束以及基于蒙特卡洛模拟的近似评分函数 [21] - 在最小三角形密度问题中,系统能适应从朴素评分函数切换到基于利普希茨连续性的更复杂连续评分函数,并迅速收敛到正确的理论最优解 [24][25] - 在IMO 2025第6题测试中,系统仅在输入n为完全平方数时被评分,这种信息限制迫使其寻找稀疏实例背后的共同结构模式,最终成功发现并在所有完全平方数n上均达到最优的通用构造,展现了归纳能力 [26][27][29] 效率与工作模式 - 系统效率极高,仅需少量高质量提示即可驱动,且对人类专家的输入具有高度敏感性,支持并行化架构以同时运行多个问题探索 [31] - 系统主要在两种模式下运行:"搜索模式"演化的是用于搜索构造的"搜索启发式算法"程序,解决了LLM调用缓慢与局部搜索快速之间的差异 [33][34][35] - "泛化模式"更具挑战性,目标是让系统编写能解决任意参数n问题的通用程序,期望其通过观察小规模n的最优解来自主发现并归纳出通用公式或算法 [37]
谷歌AlphaEvolve太香了,陶哲轩甚至发了篇论文,启发数学新构造
机器之心· 2025-11-06 16:58
AlphaEvolve系统概述 - 该系统是由Google DeepMind开发、由大型语言模型驱动的革命性进化编码智能体,能够自主发现极其复杂的算法,代码长度可达数百行[2] - 核心创新在于将大语言模型与进化计算、严格的自动化评估机制相结合,能够在大规模上发现显式数学构造,其结果可达到甚至超越许多长期数学问题中当前已知的最佳界限[8] - 该系统展示了AI系统与数学家之间全新互动方式的潜力,能够自主发现数学构造并补充人类直觉[11] 技术能力与性能表现 - 在覆盖数学分析、组合数学、几何学与数论的67个问题测试中,多数任务重新发现了已知最佳解,并在若干问题上取得了改进结果[9][10] - 系统具备从有限输入值结果泛化为适用于所有输入值通式的能力,在部分案例中甚至启发了新的数学论文[11][31] - 与传统数学研究方式相比,使用AlphaEvolve搭建并准备一个问题的时间通常只需数小时,而传统方法完成同等规模研究通常耗费更长时间[11] 核心技术机制 - 系统采用分层优化方法,具备同时在多个抽象层面上运行与优化的能力,不仅优化数学构造参数,还能优化发现这些构造的算法策略本身[12] - 引入"元层级进化"概念,优化过程本身成为被优化对象,系统能够自动为优化过程的不同阶段发现专门化的搜索启发式策略[12][13] - 系统在程序空间中进行搜索而非直接搜索解空间,通过简洁性与结构性先验帮助算法避开复杂局部最优点[24][25] 工作模式创新 - 搜索模式:进化搜索启发式算法,每个程序分配固定时间预算寻找最佳构造,有效解决计算速度不平衡问题[28] - 泛化器模式:要求系统编写能解决任意给定值的程序,基于一系列值上的表现进行评估,能够发现适用于所有参数的通用构造[31] - 构建AI工具流水线,结合模式发现(AlphaEvolve)、符号证明生成(Deep Think)和形式化验证(AlphaProof),实现从经验观察到形式化验证的完整闭环[33][34] 系统设计与关键洞察 - 验证器设计对系统性能和结果质量至关重要,连续损失函数比离散损失函数更能有效指导进化搜索过程[39] - 人类专家的提示和经验对最终构造质量有重大影响,领域专家使用AlphaEvolve的表现远胜于非领域专家[39][40] - 系统表现出"少即是多"的泛化特性,限制数据量反而能促进基本思想的涌现,跨问题训练可显著改善结果[41][42] 应用前景与局限性 - 系统擅长发现那些已在当前数学能力范围内但尚未被发现的构造,特别适用于需要大量时间和精力寻找特定问题标准思想正确组合的情况[43] - 对于需要真正新颖、深刻见解才能取得进展的问题,AlphaEvolve可能不是合适工具[44] - 未来可用于系统性地评估大类数学界限或猜想的难度,建立新的问题分类法,更有效地指导数学研究工作[45][46]
前OpenAI灵魂人物Jason Wei最新演讲,三大思路揭示2025年AI终极走向
36氪· 2025-11-03 11:02
AI发展的核心观点 - AI发展呈现渐进式而非爆发式超越人类,智能边界呈锯齿状,不同任务进展速率不同[33][42] - 所有能被验证的任务最终都会被AI解决,可验证性是AI攻克任务的关键驱动力[16][41] - 智能正成为商品化资源,知识获取成本趋近于零,公开信息价值下降而私有信息相对升值[5][15][40] 智能商品化 - AI能力发展分为前沿突破和能力商品化两个阶段,达到特定性能后成本快速下降[5] - MMLU等基准测试显示模型性能提升的同时达到特定分数的成本逐年下降[5] - 自适应计算技术使AI能根据任务难度动态调整算力,智能成本持续下降无需无限扩大模型规模[10][12] 验证者法则 - 存在验证非对称性现象:数独生成难验证易,网站代码生成极难但验证只需点击浏览[17][18] - 任务可验证性取决于五个因素:客观真值、验证速度、批量验证能力、低噪声稳定性、连续反馈质量[23] - AlphaEvolve案例展示通过生成候选答案、自动打分、迭代优化流程攻克易验证难求解任务[26][28][30] 智能锯齿边缘 - AI能力发展不均衡:代码调试和竞赛数学已攻克,化学研究和物理世界交互任务进展缓慢[34][35][38][39] - 任务数字化程度和数据丰富度决定AI攻克速度,前50种语言翻译已完成而意大利方言翻译可能永不攻克[37][40] - 对人类简单的任务对AI也简单,但AI能在癌症影像预测等人类极难领域实现超越[36] 知识民主化 - 信息获取时间从互联网时代数分钟缩短至Agent时代数秒,公开知识获取趋近零成本[14][40] - 编程和生物黑客等高门槛知识领域被大众化,内幕和独家信息价值因公开信息免费而相对提升[15] - 个性化互联网趋势使每个人可能拥有完全定制的知识入口[19]
陶哲轩敲警钟,谷歌DeepMind联手五大神殿,用AI向世纪难题宣战
36氪· 2025-10-30 12:12
谷歌DeepMind的AI赋能数学计划 - 谷歌DeepMind发起“AI赋能数学计划”,集结全球五大顶尖研究机构,旨在利用AI探索数学新领域[1][2] - 合作机构包括伦敦帝国学院、普林斯顿高等研究院、法国高等科学研究所、西蒙斯计算理论研究所和塔塔基础科学研究所[2] - 计划目标为发掘可借助AI获得突破的数学难题、构建相关基础设施与工具,并最终加速科学发现[6] AI在数学领域的近期技术进展 - 搭载Deep Think的Gemini模型在2024年IMO竞赛中达到金牌水平,完美破解5题拿下35分[11] - AlphaEvolve在数学分析、几何学等领域的50个公开难题上,于20%的题目中取得了最优解[14] - AlphaEvolve发明了全新的矩阵乘法方法,例如在4x4矩阵乘法问题上仅需48次标量乘法,打破了长达50年的历史纪录[14][16] 关于AI在数学研究中应用的讨论与建议 - 陶哲轩发起关于如何最佳融入AI、透明披露其作用并缓解风险的讨论[2][23] - 建议论文中对超出基础功能的AI实质性使用进行明确声明[26] - 建议讨论所用AI工具的一般性风险及已采取的缓解措施,例如应对内容虚构、缺乏可复现性等问题[27][28][29][31][32][33] - 强调论文所有作者必须为AI贡献内容承担最终责任[35]
史上最惨一代?AI延长人类寿命,下一代活到200岁不是梦
36氪· 2025-10-29 15:09
公司战略与竞争格局 - 谷歌在AI发展上采取谨慎态度,确保技术成熟后再推出,而微软则相对激进,OpenAI处于两者之间[8] - Meta在扎克伯格领导下明显转向,对"个人超级智能"项目投入巨资并疯狂招揽人才,马斯克也在通过xAI拼命追赶并疯狂加码算力投资[8][10] - 两年前谷歌被认为落后于OpenAI和微软,但现在已几乎重回前列,甚至在部分领域名列前茅[10] 行业发展瓶颈与挑战 - 能源可能成为美国AI发展的最大障碍,美国在芯片和AI训练技术方面优势明显,但能源基础设施不足,中国则在能源方面更强但芯片受限[10] - AI发展面临技术不均衡问题,某些领域表现超人般强大(如解决复杂数学与能源问题),但在简单任务上却可能出错(如数不清单词字母)[19] - AI可能发展出人类无法理解的"黑箱语言",这已在谷歌搜索算法中初现端倪,经过多年迭代后已复杂到超越个体理解力[19][23] 技术发展路径与趋势 - AI实验室负责人开始观察到AI"自我改进"的迹象,论文指出可能出现"一飞冲天"的发展路径[14] - 一旦达到AGI临界点,发展将呈"冰球棒"曲线急剧上升,超级人工智能ASI会很快跟上[17] - 谷歌DeepMind的AlphaEvolve项目正在用AI设计新算法,显示递归改进已经开启[19] - 机器人技术预计在15-20年内像汽车一样普及,家用机器人将首先进入前10%富裕家庭[37][38] AI应用前景与社会影响 - AI正在快速推动生物医学突破,包括AlphaFold预测蛋白质折叠、提前一年检测脑肿瘤、糖尿病早期预警等[26] - 技术发展可能使人类在2030-2035年达到"长寿逃逸速度",届时每活一年预期寿命增加两年以上[29][31] - 对10岁以下儿童,活到200岁的可能性高达50%以上,这将彻底改变家庭结构与人口模式[25][32][37] - 未来可能出现两种社会形态:一种是繁荣与创造力爆发,另一种则是全民懒散沉迷快感[33][35][39]
地理学的AlphaEvolve?MIT斯坦福让AI自我生长、懂地理、懂世界
36氪· 2025-10-28 11:04
研究背景与目标 - 地理空间建模是理解气候变化和推动城市可持续发展的关键工具,但传统方法依赖专家经验进行假设提出、算法设计和参数调整[4] - 大语言模型已展现自动进化代码的潜力,但通用系统存在短板,即缺乏地理学知识,导致生成的模型可能缺乏地理合理性[4] - GeoEvolve旨在构建一个结合AI自主进化与地理知识引导的新框架,让AI成为能够自主改进算法的科研合作者,而不仅仅是辅助工具[2][4] GeoEvolve框架设计 - 框架采用双循环机制,内循环中AI扮演博士生角色,基于初始代码不断试错和改进算法;外循环由一个地理知识库充当导师,确保演化方向符合空间理论[5] - 核心模块包括代码进化器、代码分析器、地理知识检索器和知识驱动提示生成器,共同构成闭环的代码生成、评估与改进过程[5][8] - 系统输入仅需三样:待改进的原始地理模型、衡量模型优劣的评价指标以及给大模型的一句话任务说明[5] 地理知识检索模块 - GeoKnowRAG是一个专门的地理知识库,收集了来自Wikipedia、arXiv和GitHub的核心资料,涵盖空间自相关、异质性、Kriging、地理加权回归等经典概念与算法[10] - 该模块的作用是确保AI在懂地理的前提下进行算法改进,避免进化过程跑偏,从而生成既聪明又可靠的地理模型[10][11] 案例研究:Kriging模型自动化改进 - 实验选取地质统计学中的经典空间插值方法Ordinary Kriging作为改进对象,应用于澳大利亚某矿区的铜、铅、锌元素预测[13][16] - GeoEvolve在保留Kriging核心的基础上,自动注入了多项改进,包括自适应经验变差图估计、多起点全局拟合和自适应数据变换[14][15][16] - 完整版GeoEvolve-Kriging在三种金属元素的预测中均取得最低的RMSE和MAE,相比OpenEvolve-Kriging,RMSE分别降低了11.3%(Cu)、20.9%(Pb)和13.5%(Zn);相较于原始Kriging,降低幅度达到15.4%、21.2%和13.0%[18] 研究意义与行业影响 - 研究表明AI在地理学知识引导下能自主进化出更强的经典模型,未来地理建模不一定总依赖研究人员手工设计[19] - 该技术为算法开发过程完全自动化提供了可能,使AI能不断试错、吸收知识,最终学会像地理学家一样思考[19] - GeoEvolve展示了一条通向可信赖的GeoAI的新道路,为AI-for-Science在地理科学和可持续发展中的应用打开了可能性[19][20]
Transformer作者初创公司最新成果:开源新框架突破进化计算瓶颈,样本效率暴涨数十倍
量子位· 2025-09-28 19:54
核心观点 - Sakana AI推出的开源框架ShinkaEvolve实现了大语言模型自我代码优化的进化计算,在性能比肩谷歌AlphaEvolve的同时,将样本效率提升了数十倍,仅需150次评估即可完成以往需数千次评估的任务[1][3][6][22] 技术架构创新 - 框架核心在于三大关键技术:平衡探索与利用的亲本抽样技术、代码新颖性拒绝抽样、基于多臂老虎机的LLM集成选择策略[7][11] - 亲本抽样技术采用岛群模型将种群分为独立子群并行进化,结合top-K优质解与随机样本选取,并通过幂律抽样和加权抽样平衡已知方案与新想法探索[13] - 代码新颖性拒绝抽样通过嵌入相似度筛选(阈值如0.95)加LLM判优的二级过滤机制,减少生成重复变异体的无效计算[14][16] - LLM集成选择策略基于UCB1算法动态调度模型,通过访问计数器和得分估计即时更新评分,并借助指数函数强化显著改进的贡献权重[17][18] 性能验证与实验结果 - 在数学优化任务(如26个圆在单位正方形内半径和最大化)中,ShinkaEvolve仅需150次评估,而AlphaEvolve需数千次评估,样本效率实现数量级提升[20][22] - 在智能体设计任务(2024年AIME竞赛30道数学推理题)中,框架显著优于简单单查询代理和复杂多数投票方法,7次LLM查询即产生最大性能,并在2023年、2025年题目上表现稳定[23][25] - 在竞争性编程基准测试(ALE-Bench)中,10道AtCoder竞赛题平均得分提升2.3%,其中ahc039任务排名从第5名升至第2名[28][29] - 在混合专家负载均衡损失函数任务中,新生成的损失函数在7个下游任务上均表现出更高准确率和更低困惑度,且随正则化系数增大优势更显著[30][32]
Scaling Law再遭质疑:“退化式AI”竟成终局?
虎嗅· 2025-08-04 20:14
大模型扩展的局限性 - 当前大模型行业依赖暴力数据扩展追求性能提升,但面临收益递减甚至负回报的困境 [1][2] - 学者警告 scaling law 在改善大语言模型预测不确定性方面存在严重缺陷,难以达到科学探究的可靠性标准 [2] - 这种扩展路径可能导致"退化式 AI",即灾难性积累错误与不准确性 [4] 核心机制缺陷 - 大语言模型从高斯输入分布生成非高斯输出分布的机制是错误积累的根本原因 [5] - 极低的扩展指数导致性能提升幅度有限,例如 GPT-4.5 参数量达 5-10 万亿但科学领域无实质进展 [11][12][14] - Llama 4 Behemoth 参数量达 2 万亿但性能未达预期规模水平 [13] 扩展壁垒与准确性困局 - 扩展指数符号变化预示"壁垒"出现,超过阈值后准确性可能显著下降 [16] - 即使同质训练场景中准确性问题也经常出现,异构情境下泛化能力不足 [18][19][21] - 数字系统舍入误差随复杂性增加而明显,影响模型可靠性 [20] 替代方案尝试 - 行业尝试通过大型推理模型和 Agentic AI 提高输出可信度,但缺乏严谨科学评估标准 [25] - 思维链策略模拟人类推理,但可持续性路径仍不明朗 [26][27] - AlphaEvolve 利用大语言模型生成代码变体,用进化算法替代强化学习 [28] 退化风险与解决路径 - 使用合成数据训练的大语言模型更容易发生退化式 AI [29] - 小扩展指数引发非高斯波动,导致不确定性韧性和信息灾难 [30] - 数据增加有时反而减少信息量,如存在冲突数据或恶意注入错误信息 [31] - 构建"世界模型"可从数据中识别真实相关性,避免盲目规模扩张 [34]