群体心智

搜索文档
开源模型三城记
虎嗅· 2025-07-30 09:58
中国开源大模型竞争格局 - 北京、上海与杭州形成三城演义格局 在AI开源领域展开激烈竞争[1] - 美国对中国开源技术栈日益忌惮 表现为白宫调整开源策略及OpenAI推迟开源模型发布[1] - 全球开源模型性能榜单头部已被中国模型霸占 包括K2、Qwen3-2507系列、Qwen3-Coder、Wan2.2、Step-3等[1] 杭州开源生态建设 - 阿里巴巴密集推出多款开源模型 包括Qwen3-Coder(4800亿总参数/350亿激活参数)、Qwen3-2507系列、Qwen VLo多模态模型及全球首个开源MoE视频生成模型[3] - 开源模型定价具备显著优势 Qwen3-Coder价格仅为Claude 4的1/3[3] - 采用差异化产品策略 区分非思考版Instruct与推理版Thinking模型以贴近社区需求[5] 技术创新突破 - Wan2.2首次将MOE架构引入视频生成 在推理成本不变前提下提升总参数规模[4] - K2采用重述法训练提升学习效率 效果比同一内容重复训练高出约5个百分点[9] - Step 3采用AFD技术实现注意力模块与前馈神经网络解耦 优化硬件适配效率[10] - GLM-4.5实现高效能输出 生成速度达100tokens/s且总参数量3550亿中仅激活320亿参数[11] 企业竞争动态 - DeepSeek引发行业飞轮效应 推动开源模型价格战与技术迭代[2] - 月之暗面发布K2模型并采用自研MuonClip优化器与QK-Clip技术[9] - 阶跃星辰推出Step 3多模态推理模型 总参数3210亿且具备视觉能力[10] - 智谱开源GLM-4.5系列模型 采用MIT许可证支持商业用途[11] 产业生态发展 - 阿里云通过开源策略扩大生态影响力 Qwen系列累计下载超4亿次衍生模型超14万个[13] - 开源成为人才吸引与文化构建方式 DeepSeek证明华人团队在AGI领域的创新贡献[14] - 上海大幅提升智算规划规模 从2025年30EFLOPS提升至2027年200EFLOPS(增长6倍)[15] - 腾讯加入开源竞争 在WAIC上开源混元3D世界模型并公布系列开源计划[16] 地缘战略意义 - 中国通过WAIC展示开源AI部署决心 提出打造跨国开源社区应对美国AI行动计划[16] - 开源模型成为国际软实力新杠杆 新加坡明确欢迎中国高性价比模型覆盖东南亚多语言市场[16] - 中国建立开源技术栈目标明确 力求在token经济层面与美国闭源模型竞争[19]