OpenEvolve - 财报，业绩电话会，研报，新闻

OpenEvolve

搜索文档

36氪· 2025-10-24 21:03

AI驱动的算法研究 - 加州大学伯克利分校研究团队提出AI驱动的系统研究方法ADRS，通过“生成—评估—改进”的迭代循环实现算法持续优化[1] - 基于开源框架OpenEvolve的案例研究表明，AI发现的算法显著优于人类设计算法，实现高达5倍的运行效率提升或26%的成本降低[2] 算法性能提升案例 - 在遥测修复任务中，AI算法比已发布解决方案的计数器修复得分提高9%，置信校准得分提高30%，耗时8小时且成本低于10美元[3] - 专家并行负载均衡器算法在保持相同平衡度的同时，运行时间比内部实现快2倍，耗时5小时且成本低于10美元[3] - 全局模型放置算法比已发布解决方案成本降低18.5%，仅需40分钟且成本低于85美元[3] - 在多区域spot实例调度中，AI算法比单区域基线成本降低26%，耗时1小时且成本低于22美元[3] 专家并行负载均衡技术 - 大型语言模型采用混合专家架构时面临关键性能挑战，即如何在各专家间实现负载均衡，避免某些专家“热点化”导致计算瓶颈[4] - 专家并行负载均衡器算法通过动态调整专家在GPU间的分布，追求最小化负载不均衡和最小化运行时间两个核心目标[6] 算法优化过程 - 研究团队使用OpenEvolve搜索EPLB算法，优化目标包含最大化负载均衡因子和降低算法运行时间的双重维度[8] - 实验采用80% Gemini 2.5 Flash与20% Gemini 2.5 Flash Lite混合配置，进化过程以开源贪心算法作为初始程序，设置300次迭代上限，完整流程耗时约五小时且成本低于10美元[8] 创新算法设计 - OpenEvolve生成的新算法发现巧妙启发式方法，通过对专家索引张量进行重塑与转置，利用PyTorch高速张量操作以“之字形”交错分配专家[10][12] - 该算法在保持与其他基线相当负载平衡因子的同时，将运行时间缩短至仅3.7毫秒，较内部参考实现性能提升达5倍[12] 相关研究进展 - Nature报道类似研究，Oh及其同事开发能发现新型强化学习算法的元学习算法，该算法在多项陌生任务中表现超越人类设计的强化学习算法[18][20][22]

AI五小时发现MoE新算法，比人类算法快5倍，成本狂降26%

量子位· 2025-10-24 15:50

文章核心观点 - AI已从单纯使用算法发展到能够自主创造新算法的阶段，其创造的算法在性能上显著超越人类设计[1][2] - 加州大学伯克利分校提出的ADRS系统通过"生成-评估-改进"的迭代循环实现算法持续优化，其发现的算法比人类设计算法快5倍或降低成本26%[2][4] - 在专家并行负载均衡等具体案例中，AI创造的算法实现了运行时间从19.6毫秒缩短至3.7毫秒的5倍性能提升[25] ADRS系统研究方法 - ADRS系统采用"生成—评估—改进"的迭代循环实现算法持续优化[2] - 基于开源框架OpenEvolve在多个领域案例研究表明，发现的算法显著优于人类设计算法[4] - 在专家并行负载均衡器优化案例中，通过300次迭代耗时约5小时，成本低于10美元即发现更优算法[19] 算法性能提升案例 - 专家并行负载均衡器优化：运行时间从19.6毫秒缩短至3.7毫秒，性能提升达5倍[14][25] - 全局模型放置优化：成本比已发布解决方案降低18.5%[5] - LLM-SQL优化：运行速度提升3.9倍[5] - 多区域实例调度：成本比单区域基线降低26%[5] - 事务调度优化：比贪心算法性能提升20%[5] 专家并行负载均衡技术细节 - 混合专家架构中路由器将输入文本token动态分配给特定专家网络，仅使用模型总参数的一小部分提升推理效率[6] - 专家并行负载均衡器通过动态调整专家在GPU间分布，最小化负载不均、最大化系统吞吐量[9] - 基础版EPLB算法分三阶段：确定专家副本数量、映射副本到GPU、优化负载均衡[10][12] - AI发现的新算法采用"之字形"张量操作在高负载与低负载GPU间交错分配专家，替代传统的线性for循环[20][23] 相关研究进展 - Nature报道的元学习算法能发现新型强化学习算法，在多项陌生任务中表现超越人类设计算法[34][35][38] - 该研究的元学习层采用神经网络充当强化学习算法，命名为元网络[36] - AI在算法创新领域的突破表明其具备自主创新能力，可能自主产生下一个重大突破[39][40]

AI动态汇总：上交AI智能体表现亮眼，AlphaEvolve生成代码反超人类

中邮证券· 2025-07-08 22:03

根据提供的研报内容，以下是量化模型与因子的总结：量化模型与构建方式 1. **模型名称：ML-Master** - **模型构建思路**：模拟人类专家的认知策略，通过"探索-推理深度融合"范式解决AI4AI系统的三大瓶颈：探索效率低下、推理能力受限以及模块割裂问题[12] - **模型具体构建过程**： - 采用蒙特卡洛树搜索的并行化改造，将AI开发过程建模为动态决策树，每个节点代表一个潜在解决方案状态[13] - 通过实时评估75个Kaggle任务分支的潜力值，动态分配计算资源[13] - 可控推理模块通过自适应记忆机制筛选历史探索中的关键代码片段、性能指标和跨节点洞察[13] - 构建闭环进化系统，探索阶段收集的代码执行结果通过智能过滤后嵌入推理模型的"think"环节，而推理输出的优化方案又反向指导后续探索路径[15] 2. **模型名称：OpenEvolve** - **模型构建思路**：通过自主进化代码优化GPU核函数，实现性能提升[22] - **模型具体构建过程**： - 通过25代进化迭代，自主发现三项关键优化策略[23] - 采用多模型协同的进化架构，主模型Gemini-2.5-Flash负责快速探索，辅助模型Gemini-2.5-Pro进行深度优化[24] - 将Metal核函数源代码划分为可进化区块，通过岛屿模型并行进化5个子种群，每代种群规模25个个体[24] - 评估环节采用高鲁棒性设计，包含Metal命令缓冲区保护、内存访问违规处理、指数退避重试等安全机制[25] 3. **模型名称：盘古Pro MoE 72B** - **模型构建思路**：通过分组混合专家模型（MoGE）重构传统MoE架构，解决跨设备负载不均衡问题[28] - **模型具体构建过程**： - 将64个专家划分为8组并强制每组激活等量专家[28] - 结合昇腾原生算子优化，形成从算法设计到硬件部署的全栈创新[28] - 通过动态负载均衡技术将云端推理成本降低40%[30] 4. **模型名称：文心大模型4.5系列** - **模型构建思路**：通过MoE架构的多模态异构改造，解决模态间梯度冲突导致的性能折损[47] - **模型具体构建过程**： - 采用模态隔离路由技术将文本与视觉专家分组并行训练，配合自适应模态感知损失函数[47] - 训练效率方面，飞桨框架的异构混合并行策略将FLOPs利用率提升至47%[47] - 推理环节采用动态角色转换的预填充解码技术，使21B模型在昇腾910B芯片上的吞吐量达到1528 tokens/s[47] 5. **模型名称：AniSora V3** - **模型构建思路**：通过强化学习与人类反馈框架（RLHF）优化动漫视频生成质量[50] - **模型具体构建过程**： - 采用时空掩码模块动态调节时空维度的注意力权重[51] - 训练采用经过清洗的1000万高质量动漫片段数据集[51] - 引入专为动漫设计的RLHF框架，集成AnimeReward和GAPO工具[51] 模型的回测效果 1. **ML-Master模型** - 在MLE-bench基准测试中以29.3%的平均奖牌率夺冠，显著超越微软R&D-Agent（22.4%）和OpenAI自研的AIDE系统（16.9%）[12] - 中等难度任务奖牌率提升至20.2%，达到基线方法的2.2倍[13] - 高难度任务表现提升30%，远超微软系统的18.7%[13] 2. **OpenEvolve模型** - 在Transformer推理任务中实现了平均12.5%的性能提升，峰值性能提升106%，整体表现超越人类工程师手动优化版本21%[22] - 在20项基准测试中，解码速度平均提升12.5%，预填充速度提升14.4%，总吞吐量提升10.4%[25] 3. **盘古Pro MoE 72B模型** - 在昇腾800I A2上实现单卡1148 tokens/s的基础吞吐，通过MTP解码技术进一步跃升至1528 tokens/s[29] - SuperCLUE中文大模型基准测评显示，其以58.75分位列开源模型第五[29] 4. **文心大模型4.5系列** - 424B多模态模型在OCRBench文档理解评测中以885分刷新开源记录[48] - 0.3B版本在MMLU通用测试得41.9分，但在特定任务中通过微调后关键指标反超未优化的30B模型[48] 5. **AniSora V3模型** - 在VBench测试中角色一致性得分达到9.2/10，较V2版本提升23%[51] - 生成4秒1080p视频仅需2-3分钟，单位能耗成本降低34%[52] 量化因子与构建方式（研报中未提及具体的量化因子构建内容）因子的回测效果（研报中未提及具体的因子测试结果）以上总结涵盖了研报中提到的所有量化模型及其构建思路、具体构建过程和回测效果，未包含风险提示、免责声明等无关内容。