OpenEvolve
搜索文档
AI五小时发现MoE新算法,比人类算法快5倍,成本狂降26%
36氪· 2025-10-24 21:03
AI驱动的算法研究 - 加州大学伯克利分校研究团队提出AI驱动的系统研究方法ADRS,通过“生成—评估—改进”的迭代循环实现算法持续优化[1] - 基于开源框架OpenEvolve的案例研究表明,AI发现的算法显著优于人类设计算法,实现高达5倍的运行效率提升或26%的成本降低[2] 算法性能提升案例 - 在遥测修复任务中,AI算法比已发布解决方案的计数器修复得分提高9%,置信校准得分提高30%,耗时8小时且成本低于10美元[3] - 专家并行负载均衡器算法在保持相同平衡度的同时,运行时间比内部实现快2倍,耗时5小时且成本低于10美元[3] - 全局模型放置算法比已发布解决方案成本降低18.5%,仅需40分钟且成本低于85美元[3] - 在多区域spot实例调度中,AI算法比单区域基线成本降低26%,耗时1小时且成本低于22美元[3] 专家并行负载均衡技术 - 大型语言模型采用混合专家架构时面临关键性能挑战,即如何在各专家间实现负载均衡,避免某些专家“热点化”导致计算瓶颈[4] - 专家并行负载均衡器算法通过动态调整专家在GPU间的分布,追求最小化负载不均衡和最小化运行时间两个核心目标[6] 算法优化过程 - 研究团队使用OpenEvolve搜索EPLB算法,优化目标包含最大化负载均衡因子和降低算法运行时间的双重维度[8] - 实验采用80% Gemini 2.5 Flash与20% Gemini 2.5 Flash Lite混合配置,进化过程以开源贪心算法作为初始程序,设置300次迭代上限,完整流程耗时约五小时且成本低于10美元[8] 创新算法设计 - OpenEvolve生成的新算法发现巧妙启发式方法,通过对专家索引张量进行重塑与转置,利用PyTorch高速张量操作以“之字形”交错分配专家[10][12] - 该算法在保持与其他基线相当负载平衡因子的同时,将运行时间缩短至仅3.7毫秒,较内部参考实现性能提升达5倍[12] 相关研究进展 - Nature报道类似研究,Oh及其同事开发能发现新型强化学习算法的元学习算法,该算法在多项陌生任务中表现超越人类设计的强化学习算法[18][20][22]
AI五小时发现MoE新算法,比人类算法快5倍,成本狂降26%
量子位· 2025-10-24 15:50
文章核心观点 - AI已从单纯使用算法发展到能够自主创造新算法的阶段,其创造的算法在性能上显著超越人类设计[1][2] - 加州大学伯克利分校提出的ADRS系统通过"生成-评估-改进"的迭代循环实现算法持续优化,其发现的算法比人类设计算法快5倍或降低成本26%[2][4] - 在专家并行负载均衡等具体案例中,AI创造的算法实现了运行时间从19.6毫秒缩短至3.7毫秒的5倍性能提升[25] ADRS系统研究方法 - ADRS系统采用"生成—评估—改进"的迭代循环实现算法持续优化[2] - 基于开源框架OpenEvolve在多个领域案例研究表明,发现的算法显著优于人类设计算法[4] - 在专家并行负载均衡器优化案例中,通过300次迭代耗时约5小时,成本低于10美元即发现更优算法[19] 算法性能提升案例 - 专家并行负载均衡器优化:运行时间从19.6毫秒缩短至3.7毫秒,性能提升达5倍[14][25] - 全局模型放置优化:成本比已发布解决方案降低18.5%[5] - LLM-SQL优化:运行速度提升3.9倍[5] - 多区域实例调度:成本比单区域基线降低26%[5] - 事务调度优化:比贪心算法性能提升20%[5] 专家并行负载均衡技术细节 - 混合专家架构中路由器将输入文本token动态分配给特定专家网络,仅使用模型总参数的一小部分提升推理效率[6] - 专家并行负载均衡器通过动态调整专家在GPU间分布,最小化负载不均、最大化系统吞吐量[9] - 基础版EPLB算法分三阶段:确定专家副本数量、映射副本到GPU、优化负载均衡[10][12] - AI发现的新算法采用"之字形"张量操作在高负载与低负载GPU间交错分配专家,替代传统的线性for循环[20][23] 相关研究进展 - Nature报道的元学习算法能发现新型强化学习算法,在多项陌生任务中表现超越人类设计算法[34][35][38] - 该研究的元学习层采用神经网络充当强化学习算法,命名为元网络[36] - AI在算法创新领域的突破表明其具备自主创新能力,可能自主产生下一个重大突破[39][40]
AI动态汇总:上交AI智能体表现亮眼,AlphaEvolve生成代码反超人类
中邮证券· 2025-07-08 22:03
根据提供的研报内容,以下是量化模型与因子的总结: 量化模型与构建方式 1. **模型名称:ML-Master** - **模型构建思路**:模拟人类专家的认知策略,通过"探索-推理深度融合"范式解决AI4AI系统的三大瓶颈:探索效率低下、推理能力受限以及模块割裂问题[12] - **模型具体构建过程**: - 采用蒙特卡洛树搜索的并行化改造,将AI开发过程建模为动态决策树,每个节点代表一个潜在解决方案状态[13] - 通过实时评估75个Kaggle任务分支的潜力值,动态分配计算资源[13] - 可控推理模块通过自适应记忆机制筛选历史探索中的关键代码片段、性能指标和跨节点洞察[13] - 构建闭环进化系统,探索阶段收集的代码执行结果通过智能过滤后嵌入推理模型的"think"环节,而推理输出的优化方案又反向指导后续探索路径[15] 2. **模型名称:OpenEvolve** - **模型构建思路**:通过自主进化代码优化GPU核函数,实现性能提升[22] - **模型具体构建过程**: - 通过25代进化迭代,自主发现三项关键优化策略[23] - 采用多模型协同的进化架构,主模型Gemini-2.5-Flash负责快速探索,辅助模型Gemini-2.5-Pro进行深度优化[24] - 将Metal核函数源代码划分为可进化区块,通过岛屿模型并行进化5个子种群,每代种群规模25个个体[24] - 评估环节采用高鲁棒性设计,包含Metal命令缓冲区保护、内存访问违规处理、指数退避重试等安全机制[25] 3. **模型名称:盘古Pro MoE 72B** - **模型构建思路**:通过分组混合专家模型(MoGE)重构传统MoE架构,解决跨设备负载不均衡问题[28] - **模型具体构建过程**: - 将64个专家划分为8组并强制每组激活等量专家[28] - 结合昇腾原生算子优化,形成从算法设计到硬件部署的全栈创新[28] - 通过动态负载均衡技术将云端推理成本降低40%[30] 4. **模型名称:文心大模型4.5系列** - **模型构建思路**:通过MoE架构的多模态异构改造,解决模态间梯度冲突导致的性能折损[47] - **模型具体构建过程**: - 采用模态隔离路由技术将文本与视觉专家分组并行训练,配合自适应模态感知损失函数[47] - 训练效率方面,飞桨框架的异构混合并行策略将FLOPs利用率提升至47%[47] - 推理环节采用动态角色转换的预填充解码技术,使21B模型在昇腾910B芯片上的吞吐量达到1528 tokens/s[47] 5. **模型名称:AniSora V3** - **模型构建思路**:通过强化学习与人类反馈框架(RLHF)优化动漫视频生成质量[50] - **模型具体构建过程**: - 采用时空掩码模块动态调节时空维度的注意力权重[51] - 训练采用经过清洗的1000万高质量动漫片段数据集[51] - 引入专为动漫设计的RLHF框架,集成AnimeReward和GAPO工具[51] 模型的回测效果 1. **ML-Master模型** - 在MLE-bench基准测试中以29.3%的平均奖牌率夺冠,显著超越微软R&D-Agent(22.4%)和OpenAI自研的AIDE系统(16.9%)[12] - 中等难度任务奖牌率提升至20.2%,达到基线方法的2.2倍[13] - 高难度任务表现提升30%,远超微软系统的18.7%[13] 2. **OpenEvolve模型** - 在Transformer推理任务中实现了平均12.5%的性能提升,峰值性能提升106%,整体表现超越人类工程师手动优化版本21%[22] - 在20项基准测试中,解码速度平均提升12.5%,预填充速度提升14.4%,总吞吐量提升10.4%[25] 3. **盘古Pro MoE 72B模型** - 在昇腾800I A2上实现单卡1148 tokens/s的基础吞吐,通过MTP解码技术进一步跃升至1528 tokens/s[29] - SuperCLUE中文大模型基准测评显示,其以58.75分位列开源模型第五[29] 4. **文心大模型4.5系列** - 424B多模态模型在OCRBench文档理解评测中以885分刷新开源记录[48] - 0.3B版本在MMLU通用测试得41.9分,但在特定任务中通过微调后关键指标反超未优化的30B模型[48] 5. **AniSora V3模型** - 在VBench测试中角色一致性得分达到9.2/10,较V2版本提升23%[51] - 生成4秒1080p视频仅需2-3分钟,单位能耗成本降低34%[52] 量化因子与构建方式 (研报中未提及具体的量化因子构建内容) 因子的回测效果 (研报中未提及具体的因子测试结果) 以上总结涵盖了研报中提到的所有量化模型及其构建思路、具体构建过程和回测效果,未包含风险提示、免责声明等无关内容。