Workflow
全网首测! Qwen3 vs Deepseek-R1 数据分析哪家强?

文章核心观点 - 阿里巴巴开源新一代通义千问模型Qwen3,AI Agent厂商数势科技的数据分析智能体SwiftAgent已率先完成全面适配,并发布了Qwen3与DeepSeek-R1的测评报告 [2] - Qwen3对比Qwen2.5有极大效果提升,对比DeepSeek-R1模型也不遑多让,在某些环节上还有惊喜 [4] - Qwen3模型在整体部署上成本极大降低,进一步降低了企业部署和使用门槛 [4] - Qwen3模型发布对于Agent构建有极大提升作用,在任务规划、代码生成、数学计算和语义识别等方面表现较为出色 [29] - Qwen3-32B模型远优于上一代模型,接近于DeepSeek-R1模型,且部署成本更低,消费级显卡即可实现推理自由 [29] 模型能力对比 上下文改写 - Qwen3-32B在Case1语境中准确回答,其他模型改写错误 [7][8] - Qwen2.5-72B在Case2中基于上轮时间进行错误推理改写,其他模型理解语境 [7][8] - 四个模型在Case3中均无法正确理解术语INV [7][8] 任务编排和工具调用 - Qwen2.5-72B在数据分析任务拆解和工具调用选择上落后于其他三个模型 [10][11] - DeepSeek-R1、Qwen3-32B和Qwen3-235B-A22B在Case2子任务拆解执行上表现优秀 [10][11] - Qwen2.5-72B在Case3中无法识别应调用归因分析工具,其他三个模型均能做到 [10][11] 数据要素解析 时间要素识别 - DeepSeek-R1、Qwen3-32B和Qwen3-235B-A22B在三种时间难例Case下均领先Qwen2.5-72B [13][14] - Qwen3-32B效果完全接近DeepSeek-R1的识别效果 [13][14] 实体抽取 - DeepSeek-R1和Qwen3-32B在Case1和Case2效果优于其他模型 [16][17] - DeepSeek-R1在Case3上漏识别维度 [16][17] - Qwen3-32B的Dense模型效果优于其他模型 [16][17] 图表生成 - Qwen72B数据理解和代码生成能力弱于Qwen3-32B [18][19] - Qwen3-32B在渲染排版上略逊色于Qwen3-235B-A22B和DeepSeek-R1 [18][19] 代码反思优化 - Qwen2.5-72B选择直接丢弃不符合数值格式的数据 [22] - DeepSeek-R1对数据强制转换但未解决潜在空列表错误 [24] - Qwen3两个模型对数据类型处理最符合预期 [25] - 二次提示优化后四个模型均给出优化方案 [25] 数学推理计算 - DeepSeek-R1和Qwen3-235B-A22B在数学计算推理能力上优于另外两种模型 [26][28] - Case1中DeepSeek-R1和Qwen3-235B-A22B回答正确,其他两个模型错误 [28] - Case2和Case3中所有模型均回答准确 [28] 行业影响 - 数势科技SwiftAgent在Qwen3发布首日完成全面适配,并对Agent中间环节进行能力升级和创新性功能开发 [31] - Qwen3模型为企业客户构建AI驱动的数据分析和智能决策提供了更高性能、更低成本的智能产品 [31]