Workflow
Transformer作者初创公司最新成果:开源新框架突破进化计算瓶颈,样本效率暴涨数十倍
量子位·2025-09-28 19:54

核心观点 - Sakana AI推出的开源框架ShinkaEvolve实现了大语言模型自我代码优化的进化计算,在性能比肩谷歌AlphaEvolve的同时,将样本效率提升了数十倍,仅需150次评估即可完成以往需数千次评估的任务[1][3][6][22] 技术架构创新 - 框架核心在于三大关键技术:平衡探索与利用的亲本抽样技术、代码新颖性拒绝抽样、基于多臂老虎机的LLM集成选择策略[7][11] - 亲本抽样技术采用岛群模型将种群分为独立子群并行进化,结合top-K优质解与随机样本选取,并通过幂律抽样和加权抽样平衡已知方案与新想法探索[13] - 代码新颖性拒绝抽样通过嵌入相似度筛选(阈值如0.95)加LLM判优的二级过滤机制,减少生成重复变异体的无效计算[14][16] - LLM集成选择策略基于UCB1算法动态调度模型,通过访问计数器和得分估计即时更新评分,并借助指数函数强化显著改进的贡献权重[17][18] 性能验证与实验结果 - 在数学优化任务(如26个圆在单位正方形内半径和最大化)中,ShinkaEvolve仅需150次评估,而AlphaEvolve需数千次评估,样本效率实现数量级提升[20][22] - 在智能体设计任务(2024年AIME竞赛30道数学推理题)中,框架显著优于简单单查询代理和复杂多数投票方法,7次LLM查询即产生最大性能,并在2023年、2025年题目上表现稳定[23][25] - 在竞争性编程基准测试(ALE-Bench)中,10道AtCoder竞赛题平均得分提升2.3%,其中ahc039任务排名从第5名升至第2名[28][29] - 在混合专家负载均衡损失函数任务中,新生成的损失函数在7个下游任务上均表现出更高准确率和更低困惑度,且随正则化系数增大优势更显著[30][32]