Workflow
智能密度
icon
搜索文档
国内大模型全面被“万亿参数”卷进去了?
36氪· 2025-09-29 12:46
阿里通义千问Qwen3-Max发布 - 阿里云栖大会宣布通义千问Qwen3-Max达到超万亿参数规模,训练数据量达36T tokens,为国内首个万亿级大模型 [1] - 周靖人称其为"通义家族最强",参数规模跨越象征行业新纪元,对标GPT系列发展历程(GPT-2 15亿参数、GPT-3 1750亿参数、GPT-4近万亿参数) [1] 性能表现与产品分化 - 数学推理测试AIME25准确率86.4%位列全球前三,编程基准SWE-Bench Verified得分69.6%仅次于GPT-4.1(71.2%)居全球第二,Chatbot Arena综合榜单进入前五 [2] - 推出多版本分化:Thinking版专注复杂推理(科研/数学/金融分析),Instruct版擅长指令遵循(日常应用),Omni版支持实时语音交互与多模态(自然对话/视频即时反馈) [2] 国内万亿参数竞赛动因 - 2024年超50家大模型公司融资总额突破300亿元,投资人以技术指标追平国际巨头为敏感指标,参数数值成市场安抚工具 [4] - 企业采购逻辑将模型规模等同于可靠性,客户将92%与93%准确率差距放大为决定性差别,厂商被迫迎合认知 [4] - 高端GPU获取受限,国内厂商通过"以量补质"用工程手段换性能,以算力堆叠追赶国际水平 [4] 算力成本与边际效益 - 训练万亿参数模型能耗达2000-5000万度电,电费成本超千万元,全流程成本可能超数十亿元 [6] - 推理阶段单次调用开销为百亿模型的2-4倍,性能提升仅个位数(如准确率92%至93%),但训练成本可能翻倍,存在边际效益递减 [9][10] 阿里云生态战略布局 - Qwen3-Max目标成为阿里云"操作系统",通过百炼平台开放API按Token计费,Qwen3-Coder在OpenRouter调用量暴涨1474%跃居全球第二 [11] - 配套推出Qwen3-VL、通义万相2.5、通义百聆覆盖视频生成/语音交互/视觉编程场景,通过工具链绑定企业工作流至阿里云生态 [11][13] 行业技术路线对比与挑战 - 国际厂商转向轻量化与灵活性:OpenAI聚焦多智能体协作与API工具调用,Anthropic强调长文本与安全性,Meta通过开源Llama构建开发者生态 [3][14] - 国内"闭源+堆参数"路线面临长期灵活性风险,需从参数竞赛转向"智能密度"竞争(单位算力/成本下的有效智能输出) [14] - 万亿参数需验证产业价值:企业是否愿为高昂算力买单、开发者是否留存生态、用户能否感知省钱省力 [14]
DeepSeek与Anthropic的生存策略 | Jinqiu Select
锦秋集· 2025-07-04 23:35
文章核心观点 - AI行业的核心瓶颈是计算资源的稀缺,这制约了各家公司的发展 [1] - AI服务的定价本质上是延迟、吞吐量和上下文窗口三个性能指标的权衡游戏 [2][3] - DeepSeek和Anthropic采取了不同的策略来应对计算资源限制,反映了行业面临的共同挑战 [4][5] - 随着推理云服务的崛起,如何在有限计算资源下实现技术突破和商业成功的平衡成为关键 [5] AI服务定价机制 - AI服务的定价由三个关键性能指标决定:延迟(用户等待时间)、吞吐量(每秒生成token数)和上下文窗口(模型记忆容量) [3][22][23] - 通过调整这三个参数,服务商可以实现任何价格水平 [24] - 单纯比较每百万token价格意义不大,需结合实际应用场景和用户需求 [24] DeepSeek的策略分析 - DeepSeek选择极端配置:数秒延迟、每秒25个token输出速度、64K上下文窗口,换取极低价格和最大化研发资源 [4][26][28] - 官方平台用户流失29%(从614.7M降至436.2M),但第三方托管模型使用量暴增20倍 [15][16] - 公司主动牺牲用户体验,通过高batch率降低推理资源消耗,保留最大计算资源用于内部研发 [33] - 采用开源策略扩大全球影响力,让其他云服务商托管模型 [33] Anthropic的困境与应对 - Claude在编程领域成功导致计算资源紧张,API输出速度下降30%至每秒55个token [36] - 编程应用消耗更多计算资源,迫使提高batch处理规模 [36] - 与亚马逊达成合作获取50万片Trainium芯片,并向Google租用TPU资源 [37] - 通过提升"智能密度"优化资源利用,模型回答问题所需token数量远少于竞争对手 [40][42] 行业竞争格局变化 - OpenAI将旗舰模型降价80%,价格战加剧 [8][49] - 推理云服务崛起,更多公司将token作为服务直接销售而非打包订阅 [43] - DeepSeek R1编程能力显著提升,成本效益优势明显 [45][47] - Google凭借TPU计算优势提供免费大配额服务 [34] 技术发展趋势 - 强化学习持续迭代改进模型能力,DeepSeek R1-0528版本编程性能显著提升 [10][52] - 出口管制限制中国大规模部署推理服务能力,但未同等阻碍训练优秀模型的能力 [33] - 计算资源优化方式包括:提高batch规模、优化硬件使用(AMD/NVIDIA芯片)、提升token智能密度 [31][32][42]