WebSailor AI Agent框架

搜索文档
阿里AI四连发,横扫全球开源榜单第一名
华尔街见闻· 2025-07-26 12:23
阿里巴巴通义团队AI模型发布 - 公司于7月22日至25日连续发布四款AI产品:Qwen3-235B非思考版本、Qwen3-Coder编程模型、Qwen3-235B-A22B-Thinking-2507推理模型和WebSailor AI Agent框架,覆盖基础模型、编程模型、推理模型和智能体领域 [1] - 权威机构Artificial Analysis评价通义千问3为"全球最智能的非思考基础模型" [1] - 四款产品在Github开源榜单表现突出,其中WebSailor框架曾获每日增长趋势第一名 [1][15] 非思考模型性能突破 - Qwen3-235B-A22B-Instruct-2507-FP8非思考模型在多项基准测试中超越Kimi-K2等顶级开源模型和Claude-Opus4-Non-thinking等闭源模型 [2][3] - 该模型在Agent能力测评(BFCL)中表现卓越,显示其在理解复杂指令、自主规划和调用工具方面达到新高度 [5] - 非思考模型在知识、推理、编程等多项测试中领先,如SimpleQA测试得分54.3,远超其他模型的22.8-40.3分 [6] 编程模型表现 - Qwen3-Coder编程模型基于MoE架构,拥有480B总参数和35B激活参数,支持256K上下文并可扩展至1M [10] - 在SWE-bench Verified基准测试中取得开源模型最佳表现(69.6分),超越DeepSeek-V3(38.8分)和OpenAI GPT-4.1(48.6分) [10][11] - 模型在7.5万亿token规模上训练,包含70%代码数据,并通过2万个虚拟环境的大规模实战训练 [11] - 配套推出命令行工具Qwen Code,形成完整编程解决方案 [11] AI Agent框架创新 - WebSailor AI Agent框架对标OpenAI的Deep Research产品,在BrowseComp-en/zh测试中性能优于所有开源智能体 [14] - 采用复杂任务生成和强化学习模块双重技术架构,支持高效信息检索和推理 [15][18] - 在SimpleQA基准测试中表现超过所有其他模型产品 [15] - GitHub获超5000颗星,打破闭源系统在信息检索领域的垄断 [15][18] 推理模型成就 - Qwen3-235B-A22B-Thinking-2507推理模型在多项测试中表现优异:AIME25(数学)92.3分、LiveCodeBench v6(编程)74.1分、WritingBench(写作)88.3分、PolyMATH(多语言数学)60.1分 [19][21] - 采用MoE架构,总参数235B,激活参数22B,94层结构和128个专家系统,支持262,144 tokens上下文长度 [22] - OpenRouter数据显示阿里千问API调用量暴涨超1000亿tokens,包揽最热门调用模型前三名 [23][24]