Workflow
Qwen Code
icon
搜索文档
阿里开源最强编码模型 Qwen3-Coder:1M上下文,性能媲美 Claude Sonnet 4
Founder Park· 2025-07-23 16:21
模型发布与性能 - 阿里通义团队发布并开源Qwen3-Coder系列代码模型,其中Qwen3-Coder-480B-A35B-Instruct是最强版本,拥有480B参数激活35B参数的MoE结构,原生支持256K token上下文并可通过YaRN扩展到1M token [3][4] - 该模型在Agentic Coding、Agentic Browser-Use和Agentic Tool-Use等任务上达到开源模型SOTA水平,性能媲美Claude Sonnet4 [5] - 在Terminal-Bench测试中得分为37.5分,优于Claude Sonnet4的35.5分和OpenAI GPT-4.1的25.3分 [6] - SWE-bench Verified测试中达到69.6分(500轮交互)和67.0分(100轮交互),接近Claude Sonnet4的70.4分和68.0分 [6] 技术架构与训练 - 预训练数据总量达7.5T,其中代码数据占比70%,在保持通用与数学能力的同时强化编程能力 [12] - 采用Code RL训练方法,通过自动扩展测试样例构建高质量训练实例,显著提升代码执行成功率 [15] - 实现Long-Horizon RL训练系统,可同时运行20k独立环境,在SWE-bench Verified上取得开源模型SOTA效果 [16] - 利用Qwen2.5-Coder对低质数据进行清洗与重写,提升整体数据质量 [12] 产品应用与集成 - 模型已在Qwen Chat网页版上线供免费体验 [6] - 推出开源命令行工具Qwen Code,基于Gemini Code二次开发,优化了Agentic Coding任务表现 [17] - 支持通过OpenAI SDK调用,只需配置环境变量即可接入 [20][21] - 可与Claude Code集成使用,通过阿里云百炼平台申请API Key实现 [22][23] - 支持与社区工具如Cline结合,通过OpenAI兼容模式接入 [27] 性能对比数据 - WebArena测试得分49.9分,优于DeepSeek-V3的40.0分,接近Claude Sonnet4的51.1分 [6] - Mind2Web测试得分55.8分,优于Claude Sonnet4的47.4分和OpenAI的49.6分 [6] - BFCL-v3测试得分68.7分,优于OpenAI的62.9分,接近Claude Sonnet4的73.3分 [6] - TAU-Bench Retail测试得分77.5分,优于DeepSeek-V3的59.1分,接近Claude Sonnet4的80.5分 [6]
开源Qwen凌晨暴击闭源Claude!刷新AI编程SOTA,支持1M上下文
量子位· 2025-07-23 08:24
核心观点 - 阿里通义大模型团队开源Qwen3-Coder,刷新AI编程SOTA,超越开源模型DeepSeek V3、Kimi K2及闭源标杆Claude Sonnet 4 [1] - Qwen3-Coder为开源免费模型,用户无需每月支付200美元使用Claude Code [2] - 模型效果被评价为“改变游戏规则” [3] 模型规格 - Qwen3-Coder-480B-A35B-Instruct为450B参数的MoE模型,激活参数35B [5] - 原生支持256K上下文,通过YaRN技术可扩展至1M长度 [6][23] 功能演示 - 简单prompt即可生成复杂功能:如p5js交互动画、动态天气卡片、3D地球可视化、可交互小游戏 [11][13][14][16] - 实测案例:生成可编辑简历模板、扫雷游戏(提示词直接输出可运行代码) [17][19] 技术细节 - 预训练阶段:数据扩展(7.5T tokens,70%为代码数据)、上下文扩展、合成数据扩展 [20][21][22] - 后训练阶段:采用Scaling Code RL(自动生成测试用例提升执行成功率)和Scaling Long-Horizon RL(阿里云支持20000个独立环境运行) [24][27] 开源生态 - 提供多端体验:Qwen官网、命令行工具Qwen Code(适配OpenAI SDK)、阿里云百炼平台API [28] - 采用Apache License 2.0协议,商用友好 [29] - 中国开源模型技术领先,Qwen3-Coder被视为开源编程Agent的重大飞跃 [30][32][34]
阿里Qwen3-Coder携1M上下文杀来!5分钟生成网站,开发者狂欢:Claude Code可以卸载了
AI前线· 2025-07-23 08:22
阿里发布Qwen3-Coder代码模型 - 核心观点:阿里发布迄今为止最具代理能力的代码模型Qwen3-Coder,具备卓越的代码和Agent能力,支持358种编程语言,在多项评测中取得开源模型最佳效果[1] - Qwen3-Coder采用混合专家MoE架构,参数规模达480B,激活参数35B,原生支持256K token上下文,可通过YaRN扩展到1M token[1] - 模型在Agentic Coding、Agentic Browser-Use和Agentic Tool-Use等任务上表现优异,可与Claude Sonnet4媲美[1] 模型性能表现 - 在Terminal-Bench评测中得分37.5,优于Kimi-K2 Instruct的30.0[2] - SWE-bench Verified得分69.6,SWE-bench Live得分26.3,均领先其他模型[2] - Multi-SWE-bench mini得分25.8,优于Kimi-K2 Instruct的19.8[2] - WebArena评测得分49.9,Mind2Web得分55.8,表现优异[3] - BFCL-v3评测得分68.7,TAU-Bench Retail得分77.5,展示强大工具使用能力[3] 技术特点与创新 - 训练数据总量达7.5T,其中代码占比70%[8] - 采用扩展Code RL训练方法,通过自动扩展测试样例构造高质量训练实例[7] - 实现可验证环境的扩展系统,可同时运行20k独立环境[10] - 利用Qwen2.5-Coder对低质数据进行清洗与重写,提升数据质量[8] 应用场景与效率提升 - 可帮助程序员完成基础编程任务,如写代码、补全代码、修Bug等[14] - 编程工作效率大幅提升,代码测试、查询生成等工作从数小时降至数分钟[14] - 刚入行程序员一天可完成资深程序员一周的工作[4] - 生成一个品牌官网最快只需5分钟[4] 开发者生态与商业化 - 已在魔搭社区、HuggingFace等平台开源,Github获得5.1k stars[5] - 将接入阿里AI编程产品通义灵码,API已上线阿里云百炼[5] - 阿里云百炼提供API服务,输入Token成本从$1/百万到$6/百万不等[20] 开发者反馈 - 开发者称赞模型速度快,可替代每月200美元的Claude Code[13] - 有开发者反馈模型在逐步推理提示下表现更好[19] - 部分开发者遇到基本操作失败的问题[20]
阿里开源最强AI编程模型Qwen3-Coder,性能比肩Claude4 | 钛快讯
钛媒体APP· 2025-07-23 08:01
模型发布与性能 - 阿里开源通义千问AI编程大模型Qwen3-Coder,编程能力登顶全球开源模型阵营,超越GPT4-1等闭源模型,比肩Claude4 [1] - Qwen3-Coder采用混合专家MoE架构,总参数480B,激活35B参数,原生支持256K token上下文并可扩展至1M长度 [2] - 模型在代码占比70%的7-5T数据上预训练,通过强化学习提升编程任务及智能体任务能力 [3] 技术指标与评测表现 - Terminal-Bench评测得分37-5,高于Claude Sonnet-4的35-5和GPT4-1的25-3 [2] - SWE-bench Verified评测中,w/ OpenHands 500 turns得分69-6,接近Claude4的70-4 [2] - WebArena评测得分49-9,超越GPT4-1的44-3;Mind2Web评测得分55-8,超越Claude4的47-4 [2] - 在工具调用评测BPCL-v3中得分68-7,超越GPT4-1的62-9 [2] 应用场景与商业化 - 模型擅长多步骤长任务,支持Agent调用工具解决复杂编程问题,适用于网页开发、AI搜索、深度研究等场景 [3] - 可大幅提升编程效率,代码测试、查询生成等工作从数小时降至数分钟,降低普通人编程门槛 [4] - 模型已在魔搭社区、HuggingFace等平台开源,将接入阿里AI编程产品通义灵码,API上线阿里云百炼 [4] - 千问系列编程模型全球下载量突破2000万次,阿里巴巴内部及一汽集团、建设银行等头部企业已接入使用 [4]
刚刚,阿里最强编程模型开源,4800亿参数,Agent分数碾Kimi K2,训练细节公开
36氪· 2025-07-23 07:53
智东西7月23日报道,就在刚刚,阿里巴巴Qwen团队开源了其最新一代旗舰编程模型Qwen3-Coder-480B-A35B-Instruct。Qwen团队称,这是 该团队迄今为止最强大的开源智能体编程模型,拥有480B参数,激活参数为35B,原生支持256K上下文,并可通过外推扩展至100万上下文 (输入),其最大输出为6.5万token。 在基准测试中,Qwen3-Coder在编程和智能体任务上拥有不错的性能,于Agentic Coding(智能体编程)、Agentic Browser-Use(智能体浏览器 使用)和Agentic Tool-Use(智能体工具调用)三类任务中获得了开源SOTA,超过Kimi K2、DeepSeek V3等开源模型和GPT-4.1等闭源模型, 并可与Claude Sonnet 4这一以编程能力著称的模型相媲美。 Qwen3-Coder将提供多种尺寸,本次开源的是其最强大的变体,其参数量超过了阿里旗舰模型Qwen3的235B(2350亿),小于Kimi K2的1T (1万亿)。据阿里官方介绍,借助Qwen3-Coder,刚入行的程序员一天就能完成资深程序员一周的工作,生成一个品 ...
通义千问发布Qwen3-Coder代码模型,性能媲美Claude Sonnet4
新浪科技· 2025-07-23 07:45
产品发布 - 阿里通义千问发布Qwen3-Coder代码模型,宣称是迄今为止最具代理能力的代码模型 [1] - Qwen3-Coder拥有多个尺寸,最强大版本是Qwen3-Coder-480B-A35B-Instruct,具有480B参数激活35B参数的MoE模型结构 [2] - 该模型原生支持256K token上下文,可通过YaRN扩展到1M token,在Agentic Coding、Agentic Browser-Use和Agentic Tool-Use上取得开源模型SOTA效果 [2] 性能表现 - 在Terminal-Bench测试中得分为37.5,优于Open Models Kini-K2(30.0)和Proprietary Models OpenAT(25.3) [2] - 在SWE-bench Multilingual测试中得分为54.7,高于Claude(53.3)和OpenAT(31.5) [2] - 在WebArena测试中得分为49.9,优于Open Models Kini-K2(47.4)和OpenAT(44.3) [2] - 在BPCL-V3测试中得分为68.7,仅次于Claude(73.3)但优于其他对比模型 [2] 配套工具 - 推出并开源命令行工具Qwen Code,基于Gemini Code二次开发,可激发Qwen3-Coder在Agentic Coding任务上的表现 [3] - Qwen3-Coder可与社区编程工具如Claude Code、Cline等结合使用 [3]