AI4AI

搜索文档
AI动态汇总:上交AI智能体表现亮眼,AlphaEvolve生成代码反超人类
中邮证券· 2025-07-08 22:03
根据提供的研报内容,以下是量化模型与因子的总结: 量化模型与构建方式 1. **模型名称:ML-Master** - **模型构建思路**:模拟人类专家的认知策略,通过"探索-推理深度融合"范式解决AI4AI系统的三大瓶颈:探索效率低下、推理能力受限以及模块割裂问题[12] - **模型具体构建过程**: - 采用蒙特卡洛树搜索的并行化改造,将AI开发过程建模为动态决策树,每个节点代表一个潜在解决方案状态[13] - 通过实时评估75个Kaggle任务分支的潜力值,动态分配计算资源[13] - 可控推理模块通过自适应记忆机制筛选历史探索中的关键代码片段、性能指标和跨节点洞察[13] - 构建闭环进化系统,探索阶段收集的代码执行结果通过智能过滤后嵌入推理模型的"think"环节,而推理输出的优化方案又反向指导后续探索路径[15] 2. **模型名称:OpenEvolve** - **模型构建思路**:通过自主进化代码优化GPU核函数,实现性能提升[22] - **模型具体构建过程**: - 通过25代进化迭代,自主发现三项关键优化策略[23] - 采用多模型协同的进化架构,主模型Gemini-2.5-Flash负责快速探索,辅助模型Gemini-2.5-Pro进行深度优化[24] - 将Metal核函数源代码划分为可进化区块,通过岛屿模型并行进化5个子种群,每代种群规模25个个体[24] - 评估环节采用高鲁棒性设计,包含Metal命令缓冲区保护、内存访问违规处理、指数退避重试等安全机制[25] 3. **模型名称:盘古Pro MoE 72B** - **模型构建思路**:通过分组混合专家模型(MoGE)重构传统MoE架构,解决跨设备负载不均衡问题[28] - **模型具体构建过程**: - 将64个专家划分为8组并强制每组激活等量专家[28] - 结合昇腾原生算子优化,形成从算法设计到硬件部署的全栈创新[28] - 通过动态负载均衡技术将云端推理成本降低40%[30] 4. **模型名称:文心大模型4.5系列** - **模型构建思路**:通过MoE架构的多模态异构改造,解决模态间梯度冲突导致的性能折损[47] - **模型具体构建过程**: - 采用模态隔离路由技术将文本与视觉专家分组并行训练,配合自适应模态感知损失函数[47] - 训练效率方面,飞桨框架的异构混合并行策略将FLOPs利用率提升至47%[47] - 推理环节采用动态角色转换的预填充解码技术,使21B模型在昇腾910B芯片上的吞吐量达到1528 tokens/s[47] 5. **模型名称:AniSora V3** - **模型构建思路**:通过强化学习与人类反馈框架(RLHF)优化动漫视频生成质量[50] - **模型具体构建过程**: - 采用时空掩码模块动态调节时空维度的注意力权重[51] - 训练采用经过清洗的1000万高质量动漫片段数据集[51] - 引入专为动漫设计的RLHF框架,集成AnimeReward和GAPO工具[51] 模型的回测效果 1. **ML-Master模型** - 在MLE-bench基准测试中以29.3%的平均奖牌率夺冠,显著超越微软R&D-Agent(22.4%)和OpenAI自研的AIDE系统(16.9%)[12] - 中等难度任务奖牌率提升至20.2%,达到基线方法的2.2倍[13] - 高难度任务表现提升30%,远超微软系统的18.7%[13] 2. **OpenEvolve模型** - 在Transformer推理任务中实现了平均12.5%的性能提升,峰值性能提升106%,整体表现超越人类工程师手动优化版本21%[22] - 在20项基准测试中,解码速度平均提升12.5%,预填充速度提升14.4%,总吞吐量提升10.4%[25] 3. **盘古Pro MoE 72B模型** - 在昇腾800I A2上实现单卡1148 tokens/s的基础吞吐,通过MTP解码技术进一步跃升至1528 tokens/s[29] - SuperCLUE中文大模型基准测评显示,其以58.75分位列开源模型第五[29] 4. **文心大模型4.5系列** - 424B多模态模型在OCRBench文档理解评测中以885分刷新开源记录[48] - 0.3B版本在MMLU通用测试得41.9分,但在特定任务中通过微调后关键指标反超未优化的30B模型[48] 5. **AniSora V3模型** - 在VBench测试中角色一致性得分达到9.2/10,较V2版本提升23%[51] - 生成4秒1080p视频仅需2-3分钟,单位能耗成本降低34%[52] 量化因子与构建方式 (研报中未提及具体的量化因子构建内容) 因子的回测效果 (研报中未提及具体的因子测试结果) 以上总结涵盖了研报中提到的所有量化模型及其构建思路、具体构建过程和回测效果,未包含风险提示、免责声明等无关内容。