AI To C战略

搜索文档
阿里Qwen3能否成为下一个DeepSeek?
36氪· 2025-05-07 19:38
模型发布与技术特点 - 阿里巴巴旗下通义千问团队发布并开源新一代模型Qwen3系列,包括2款参数规模为30B和235B的混合专家(MoE)模型,以及6款参数从0.6B到32B的密集模型 [1] - Qwen3采用混合专家(MoE)架构,旗舰模型Qwen3-235B-A22B总参数量235B但激活仅需22B,显著降低运行时算力需求 [3] - 预训练数据量跃升至36T,是Qwen2.5的三倍,多轮强化学习优化了模型在推理、指令遵循、工具调用及多语言能力等方面的表现 [5] - 在ArenaHard综合测试中得分95.6,AIME'24数学测试85.7,LiveCodeBench代码测试70.7,LiveBench决策测试77.1,显示多项能力提升 [5] 部署与成本优势 - 华为昇腾MindSpeed和MindIE实现Qwen3系列0Day适配,海光信息DCU完成全部8款模型无缝适配与调优 [2] - Qwen3-30B-A3B可单卡4090部署,Qwen3-235B-A22B仅需4张H20,显存占用为性能相近模型的三分之一,大幅降低部署成本 [2][6] - 与DeepSeek-R1相比参数量仅为其1/3,成本大幅下降,降低中小企业和个人开发者使用高性能模型的门槛 [6] 性能表现与局限性 - 在生成复杂代码、数学推理等方面思考模式表现明显优于非思考模式,但长文本能力表现不突出且存在一定幻觉率 [6] - 测试显示"普通"模式生成报告时出现较高幻觉率,而"深度思考"模式下幻觉率大幅降低,数据准确性提升 [6] 公司战略布局 - 阿里未来三年将投入超3800亿元用于云和AI硬件基础设施建设,强化通义千问与夸克的"双子星"格局 [7] - 通义千问专注云上智能支撑,夸克打造端侧入口,两大App所有用户均可免费使用Qwen3开源模型 [7] - 夸克2025年3月MAU达1.48亿登顶国内AI应用榜首,公司通过组织调整整合天猫精灵与夸克团队推进AI To C战略 [9] 行业竞争态势 - 腾讯混元大模型依托微信生态优势,字节跳动豆包借助抖音推流优势,2024年11月MAU达5998万长期霸榜AI应用前三 [10] - 阿里面临技术优势维持与使用门槛降低的双重挑战,中小企业技术对接与模型二次开发存在困难 [9] - 夸克用户体验稀释问题凸显,需优化技术架构与服务器性能以应对用户快速增长 [10]