Workflow
阿里最新开源模型Qwen3到底能不能打?不妨上「通义App」亲自试试
AI前线·2025-04-30 13:11

阿里通义千问Qwen3模型发布与性能表现 - 阿里正式发布并开源最新通义千问Qwen3模型,迅速登顶多项大模型测评榜单[2] - Qwen3在推理、指令遵循、工具调用、多语言能力等方面大幅增强,旗舰模型Qwen3-235B-A22B刷新开源模型纪录[3] - 在ArenaHard测试中Qwen3-235B-A22B得分为95.6,优于OpenAl-ol的92.1和Deepseek-R1的93.2[4] - 在AIME'24测试中Qwen3-235B-A22B得分为85.7,优于OpenAl-ol的74.3和Deepseek-R1的79.8[4] - 在CodeForces Elo Rating测试中Qwen3-235B-A22B得分为2056,优于OpenAl-ol的1891[4] Qwen3在专业场景的测试表现 - 代码生成测试中Qwen3仅用44秒完成复杂逻辑陷阱处理,比DeepSeek R1快36秒[13][16][21] - 数学推理测试中Qwen3用36秒完成电商优惠计算,比DeepSeek R1快3分24秒[26][28] - 多角度论证能力测试中Qwen3在经济学、伦理学、技术发展史三个角度展开分析,论据多样且结论严谨[35] - Qwen3在代码生成时支持深/浅色版本显示,推理过程用Emoji图标呈现,提升用户体验[14] Qwen3在创意与生活场景的测试表现 - 创意写作测试中Qwen3仅用15秒生成科幻咖啡品牌完整方案,包括品牌名称、Slogan和500字故事[44][45][47] - 旅行规划测试中Qwen3用20秒完成北京至深圳三日攻略,包含交通、酒店、景点和预算分配[54][56][57] - Qwen3在旅行规划中额外提供避堵建议、天气与穿衣建议、出行安全提示等贴心内容[60] - 与DeepSeek R1相比,Qwen3在创意写作中对品牌调性和目标群体同理心的把握更精准[49] 行业竞争与产品定位 - 通义产品团队强调AI应用未来不仅是提效工具,更是理解、陪伴并提升用户生活质量的贴心助手[65] - 阿里通过「通义 App」实现能问、能聊、理解图片、生成图片、翻译、写作等智能体验,布局上层应用[64] - 与飞猪AI旅行助手相比,Qwen3在旅行规划功能上仍有闭环体验的优化空间[62]