智能体编程

搜索文档
刚刚,阿里最强编程模型开源,4800亿参数,Agent分数碾Kimi K2,训练细节公开
36氪· 2025-07-23 07:53
智东西7月23日报道,就在刚刚,阿里巴巴Qwen团队开源了其最新一代旗舰编程模型Qwen3-Coder-480B-A35B-Instruct。Qwen团队称,这是 该团队迄今为止最强大的开源智能体编程模型,拥有480B参数,激活参数为35B,原生支持256K上下文,并可通过外推扩展至100万上下文 (输入),其最大输出为6.5万token。 在基准测试中,Qwen3-Coder在编程和智能体任务上拥有不错的性能,于Agentic Coding(智能体编程)、Agentic Browser-Use(智能体浏览器 使用)和Agentic Tool-Use(智能体工具调用)三类任务中获得了开源SOTA,超过Kimi K2、DeepSeek V3等开源模型和GPT-4.1等闭源模型, 并可与Claude Sonnet 4这一以编程能力著称的模型相媲美。 Qwen3-Coder将提供多种尺寸,本次开源的是其最强大的变体,其参数量超过了阿里旗舰模型Qwen3的235B(2350亿),小于Kimi K2的1T (1万亿)。据阿里官方介绍,借助Qwen3-Coder,刚入行的程序员一天就能完成资深程序员一周的工作,生成一个品 ...
成熟的编程智能体,已经学会升级自己的系统了
机器之心· 2025-05-05 11:40
编程智能体发展 - 编程智能体成为2025年最热门话题之一,学术与工业界正探索高效落地路径,手工设计解决方案可能被自主学习方案取代 [2] - 研究提出完全自我参照式元智能体编程方案,突破传统元智能体与目标智能体分离的限制 [2][6] SICA技术框架 - SICA运行循环类似ADAS,但动态选择表现最佳的智能体作为元智能体,并保留历史档案优化迭代 [4] - 效用函数量化智能体性能,权重分配为基准分数50%、成本25%、时间25%,超时惩罚系数0.5 [5] - 上下文结构包含系统提示、核心问题陈述及运行日志,支持KV缓存以减少延迟和成本 [8][10] 实验性能改进 - 在SWE Bench验证集中,SICA实现17%-53%的性能提升,尤其在文件编辑和符号导航任务中显著优化效率 [6][12] - LiveCodeBench任务改进较微弱,推理任务中因模型与系统交互问题导致提升有限 [13][14] - 文件编辑基准中,智能体从低效覆盖文件发展到差异编辑工具,符号导航任务通过AST定位器提升效果 [13] 技术实现特点 - SICA采用标准Python实现,无领域特定语言,提供可扩展的参考框架支持LLM后训练 [6] - 实验使用Sonnet 3 5和o3-mini模型,推理任务中模型与系统协同效果影响最终表现 [12][13]