DeepSeek V3

搜索文档
谁说Scaling Law到头了?新研究:每一步的微小提升会带来指数级增长
36氪· 2025-09-16 15:46
Scaling Law与模型规模扩大的经济价值 - 研究发现虽然单步任务准确率提升幅度减小,但这些微小进步叠加能使模型完成任务长度实现指数级增长,这在现实中更具经济价值 [1][2] - 论文指出模型在现实世界的价值往往源于智能体能够完成任务的长度,从这个角度观察,更大的模型非但没有收益递减,反而能将单步准确率微小提升复合放大,在任务完成长度上实现指数级跃升 [2] - 人类劳动报酬按时间计算,如果智能体经济价值源于能够完成任务时长,那么单轮或短任务基准可能并非评估进一步投资大语言模型计算资源所带来收益的可靠参考 [18] 长程任务执行的挑战与突破 - 长程任务执行一直是深度学习的致命弱点,自动驾驶demo很炫酷但要真正上路跑长途用了十多年才实现,AI能生成惊艳图片但拍一段连贯一致的长视频仍是难题 [4] - 研究通过解耦推理或智能体任务中规划和执行需求来解决问题,规划涉及决定检索什么信息或使用什么工具及顺序,而执行是让规划变成现实 [6] - 实验证实即使去除规划和知识要求,长时程任务执行对LLM仍具有挑战性,即使是表现最佳模型Qwen3-32B准确率在15个轮次内也降至50%以下 [23] Self-Conditioning效应的影响 - 研究发现随着任务推进,每步错误率本身会上升,这与人类通过练习进步形成对比,推测模型以自身容易出错历史为条件会增加未来出错可能性 [8] - 实验显示随着历史中错误率升高,后续步骤准确率急剧下降,验证模型会进行self-conditioning,这种性能下降不会通过增大模型规模而得到缓解 [8][26] - 与长上下文问题不同,扩大模型规模不能缓解self-conditioning效应,即使是参数2000亿以上的前沿大型模型仍然容易受到self-conditioning作用影响 [30] 思考模型的关键作用 - 近期思考模型不会受到先前错误影响,能够修正self-conditioning限制,顺序测试时计算量显著提升模型在单轮对话中可完成任务长度 [9] - 在没有思维链情况下,前沿大语言模型如DeepSeek V3连两步执行都无法完成,而具备思考能力版本R1则能执行200步,凸显行动前进行推理的重要性 [9] - 借助思维链,模型在单轮中能够执行步骤数量显著增加,经过强化学习训练的思维模型DeepSeek R1性能显著优于其经指令微调的对应模型DeepSeek-V3 [35] 模型性能基准测试结果 - 对前沿思考模型基准测试发现GPT-5思考版本(代号Horizon)能够执行超过1000步,远超能执行432步的Claude-4-Sonnet [9] - 实验显示开源权重模型在长时程执行方面仍在追赶仅通过API提供的模型,这凸显未来研究的机遇 [35] - 研究发现在显式提供所需知识和规划后,scaling模型大小仍能显著提高模型成功执行轮次数量,说明scaling模型价值不仅体现在让模型记住更多知识或更会寻找问题解答上 [7]
谁说Scaling Law到头了?新研究:每一步的微小提升会带来指数级增长
机器之心· 2025-09-16 12:01
Scaling Law的收益递减争议 - 很多人认为Scaling Law面临收益递减 继续扩大计算规模训练模型的做法被质疑[1] - 研究发现即使模型在单步任务准确率提升变慢 这些微小进步叠加能让完成任务长度实现指数级增长 这在现实中更有经济价值[1] - 虽然scaling law显示LLM在测试损失等指标存在收益递减 但模型现实世界价值源于智能体能完成任务的长度 从这个角度 更大模型能将单步准确率微小提升复合放大 在任务完成长度上实现指数级跃升[3] 论文核心发现 - 论文标题The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs 来自剑桥大学等机构[5][6] - 长期以来完成长程任务一直是深度学习致命弱点 自动驾驶demo炫酷但真正上路跑长途用了十多年 AI能生成惊艳图片但拍连贯一致长视频仍是难题[6] - 可以通过解耦推理或智能体任务中规划(planning)和执行(execution)需求来解决长程任务问题 规划涉及决定检索信息或使用工具顺序 执行是让规划变成现实[7] - 在思考的幻觉论文中 LLM显然知道规划 最初正确执行许多步骤 最终失败在于执行 随着任务变长 模型执行规划时更容易犯错[7] Scaling是否存在收益递减 - 虽然单步准确率提升幅度减小 但准确率微小提升可复合放大 导致模型能完成任务长度呈指数级增长[7] - 在显式提供所需知识和规划后 scaling模型大小仍显著提高模型成功执行轮次数量 说明scaling价值不仅体现在让模型记住更多知识或更会寻找问题解答上[8] - 当步骤准确率超过70%后 步骤准确率微小提升带来比指数级更快任务长度改善 即使在短任务问答基准测试中准确率提升似乎放缓 从数学角度仍可期待更长任务上取得显著收益[15] Self-Conditioning效应 - 随着任务推进 每步错误率本身会上升 这与人类形成对比 人类执行任务时通常通过练习进步[9] - 由于模型训练很大部分根据上下文预测最可能下一个token 让模型以自身容易出错历史为条件会增加未来出错可能性[9] - 随着历史中错误率升高 后续步骤准确率急剧下降 验证模型会进行self-condition设定[9] - 除了长上下文问题 self-conditioning设定还会导致模型在长程任务中性能下降 且这种性能下降不会通过增大模型规模缓解[9] 思考的影响 - 近期思考模型不会受到先前错误影响 能够修正self-conditioning限制[10] - 顺序测试时计算量显著提升模型在单轮对话中可完成任务长度[10] - 没有思维链情况下 DeepSeek V3等前沿大语言模型连两步执行都无法完成 而具备思考能力版本R1能执行200步 凸显行动前进行推理重要性[10] - GPT-5思考版本(代号Horizon)能执行超过1000步 远超能执行432步Claude-4-Sonnet[10] 经济价值衡量 - 人类劳动报酬往往按时间计算 如果智能体经济价值源于它能完成任务时长 那么单轮或短任务基准可能并非评估进一步投资大语言模型计算资源带来收益可靠参考[19] - 这些基准可能让人产生进展放缓错觉 而更能体现经济价值指标 模型能完成任务时长 实际上仍在快速增长[19] - 如果一个模型能完成任务长度表明其经济价值 那么持续投入增加计算量可能值得 即便短任务基准测试给人进展放缓错觉[11] 实验设计与结果 - 通过显式提供必要知识和规划隔离执行失败情况 将航班选择智能体示例中"先检索后组合"步骤串联起来[23] - 规划负责决定检索什么以及如何组合 而执行是实际执行这些操作 符合键值(key-value)词典抽象[23] - 即使去除了规划和知识要求 长时程任务执行对LLM仍具挑战性 所有模型第一步达到100%准确率 但任务准确率在后续回合迅速下降[25] - 更大模型在更多轮次保持更高任务准确率 导致任务长度呈现明显scaling趋势[27] - 随着轮次数量增加 各轮次准确率稳步下降 长上下文和self-conditioning都会导致准确率下降[28] - 当以无错误历史为条件时 模型在第100轮轮次准确率低于初始值 这与长上下文退化观察一致 随着上下文中注入错误比例提高 第100轮准确率持续下降 证明self-conditioning效应[28] 单轮任务执行能力 - 没有思维链情况下 不具备思考能力模型难以在单轮中完成两个步骤衔接[34] - 更大规模Qwen3 32B Gemma3 27B 以及DeepSeek-V3(670B)和Kimi K2(1026B)等前沿非思考型模型 连复杂度为2单轮任务都无法完成[34] - 借助思维链 模型在单轮中能执行步骤数量显著增加 对于智能体 行动前先进行推理至关重要[36] - 对于长时程执行任务 顺序性测试时计算比并行测试时计算更有效[36] - GPT-5(代号Horizon)与其他模型如Gemini 2.5 Pro Grok 4和DeepSeek R1之间存在巨大差距[36] - 经过强化学习训练思维模型DeepSeek R1性能显著优于其经指令微调对应模型DeepSeek-V3[36] - 长时程执行是挑战 开源权重模型仍在追赶仅通过API提供模型[37]
GPT-5 为啥不 “胡说” 了?OpenAI 新论文讲透了
腾讯研究院· 2025-09-12 16:58
文章核心观点 - OpenAI最新研究揭示语言模型幻觉产生的根本原因在于其统计学习本质,且后训练过程在当前评估体系下未能有效抑制幻觉,GPT-5可能通过非二元评估技术显著降低幻觉率 [9][12][24][32] 幻觉产生的必然性 - 幻觉是语言模型预训练阶段不可避免的副产品,因模型本质是通过统计规律生成内容,而非真实判断 [11][12] - 模型通过"是否有效"(IIV)判断器评估句子概率,但面对数据稀疏、复杂概念或训练数据错误时必然失效 [13][14] - 生成模型的错误率至少是IIV判断器错误率的2倍,因单个判断错误会衍生多种幻觉(如1+1=3和1+1≠2均属幻觉) [15][16] 后训练的局限性 - 后训练通过偏好反馈改变概率分布,将概率集中到"最佳答案"以减少不确定性幻觉,但可能增加过度自信风险 [19][20] - 主流评估基准(如GPQA、MMLU-Pro、SWE-bench)采用二元评分制,仅区分正确(1分)或错误(0分),系统性地惩罚"我不知道"的回答 [21][23] - 当前评估标准奖励猜测行为而非诚实回答,导致后训练在实践中未能有效引导模型降低幻觉 [24] 模型性能对比与技术路径 - DeepSeek R1采用二元奖励模型(ORM),在Vectara HHEM测试中幻觉率达14.3%,远高于其预训练模型DeepSeek V3的3.9% [30][31] - OpenAI o3使用过程奖励模型(PRM),通过逐步推理反馈降低幻觉率至6.8%,仅为DeepSeek R1的一半 [32] - GPT-5可能引入Universal Verifier技术,采用非二元评估标准(如评分细则Rubric),从根源上减少二元激励的负面影响 [32] 解决方向 - 后训练需引入带惩罚的评分机制,例如答对得1分、答错扣1分、过度自信答错扣9分,迫使模型成为"风险评估器"而非"得分优化器" [33] - 模型需专注于真实性而非单纯得分优化,才可能从根本上解决幻觉问题 [34]
Nano Banana爆火之后,一个神秘的「胡萝卜」代码模型又上线了
机器之心· 2025-09-05 12:31
大模型命名趋势 - OpenAI率先使用水果名称"Strawberry"命名模型引发热议[2] - 命名潮流扩展至动物和蔬菜 如Recraft的"red_panda"和谷歌的"Nano Banana"[4] - 新出现的"Carrot"模型延续了这种非正式命名趋势[5] Anycoder平台新模型 - 在Anycoder平台发现名为"Carrot"的新模型 具备超强代码能力[5][7] - 该平台同时集成了DeepSeek V3、Gemini 2.5 Pro、Grok-4、GPT-5等多个明星模型[8] - 模型演示地址为https://huggingface.co/spaces/akhaliq/anycoder[10] Carrot模型能力展示 - 能制作兔子躲避胡萝卜的游戏 实现胡萝卜作为子弹的编程效果[10] - 可生成体素宝塔花园和P5.js超粒子动画等复杂图形程序[12][14] - 知名博主AK使用该模型制作了"gemma-3-270m"聊天机器人 运行效果良好[16] 模型来源猜测 - 网友猜测可能来自谷歌 因谷歌刚发布Nano Banana图像模型[18] - 排除Kimi可能性 因Kimi刚刚发布K2 0905版本[19] - 也有猜测可能来自阿里的Qwen3系列[21]
人工智能行业专题:探究模型能力与应用的进展和边界
国信证券· 2025-08-25 21:15
行业投资评级 - 人工智能行业投资评级为优于大市(维持)[2] 核心观点 - 海外大模型呈现差异化发展,企业调用考虑性价比,OpenAI在技术路径上相对领先,谷歌在端到端原生多模态领先,Anthropic强调实用性和编程场景领先[4] - 兴趣推荐成为AI赋能最明显的场景,主要应用包括广告和游戏行业,通过多模态提升内容理解,进而提升用户点击率、观看广告时长,拉动广告价格和广告位增长[4] - 模型能力不断增强,开始与应用在场景上竞争,通过五个典型案例探讨不同场景下模型与应用企业的竞合关系[4] - 投资建议推荐腾讯控股、快手、阿里巴巴和美图公司[4] 海外大模型差异化发展 - 根据OpenRouter数据,谷歌与Anthropic模型份额合计占据半壁以上江山,谷歌份额31.6%,Anthropic份额25.4%,OpenAI份额18.1%[8][9] - OpenAI技术路径领先,聚焦强化推理与专业领域能力,但端到端多模态生成能力较谷歌偏弱[13] - 谷歌端到端原生多模态领先,尤其在视频生成方向业内领先[13] - Anthropic强调实用性、编程场景领先,高准确度带来高市场占有率[13] - 模型调用价格方面,谷歌与Anthropic相比OpenAI有明显优势,例如Gemini 2.0 Flash输入价格0.10美元/百万tokens,输出价格0.40美元/百万tokens,而GPT-4.1输入价格2.00美元/百万tokens,输出价格8.00美元/百万tokens[10] 国内大模型近期进展 - 国内模型方向各家尚未拉开明显技术差距,需要观察在特定场景的差异化能力[4] - DeepSeek技术研究领先,采用混合注意力机制、动态路由MoE等架构创新,在代码生成、数学计算等专业领域表现出色,主打开源[16] - 阿里自研能力与综合能力强,模型参数与种类丰富,Qwen3.0在多模态和对话交互方面表现突出[16] - 其他厂商如字节豆包大模型各模态表现较均衡,百度文心大模型在中文场景深度优化,腾讯混元大语言模型基于DeepSeek改造[16] 兴趣推荐场景之广告 - AI对广告推荐作用主要体现在通过多模态提升对内容理解,进而提升用户点击率、观看广告时长,拉动广告价格和广告位增长[4] - 搜索和社交媒体推荐存在生产力代差,AI对后者赋能显著,抖音、快手、拼多多、小红书、腾讯视频号等偏推荐场景相比偏搜索场景赋能潜力更大[23] - META通过AI技术赋能广告量价齐升连续七个季度,AI带动广告曝光量增长,通过精准推荐、提升AI内容分发占比、数据标签体系完善提升Reels用户时长增长,AI带动广告单价增长,通过Advantage+工具带动广告主投放环节20% ROI提升[29] - 谷歌AI带动广告转化率改善,广告收入稳健增长,新功能推出后通常能带来20%左右效率改善,25Q2启用AI Max的广告客户通常能获得14%额外转化量,使用智能竞价探索的广告系列平均转化量增长19%[35][37] - Reddit广告收入大幅增加,25Q2推出AI广告工具Reddit Community Intelligence,包含Reddit Insights和Conversation Summary Add-ons,点击率比标准图片广告高出10%以上[40][42] - 腾讯广告25H1连续两个季度实现20%同比高增长,主要来自广告价格CPM提升,AI部署带来更高点击率,微信小店和小游戏带来更完善闭环交易活动[46] - 快手广告收入增长主要驱动是CPM提升,AI赋能广告在营销素材增强、营销投放Agent和营销推荐等环节,25Q1 AIGC营销素材带来日均消耗约3000万人民币,25Q2可灵收入2.5亿元[49] 兴趣推荐场景之游戏 - 游戏是兴趣推荐重要场景,海外AIGC游戏平台Roblox通过AI升级推荐算法,让更多新游戏获得曝光,25Q1平台Top100游戏中有24款是过去一年内推出的,与24Q1相比TOP15游戏推出更多内容更新[4][53] - 由于更多新游戏获得曝光和竞争推荐,平台11-50名的游戏流水同比增长超过1倍,占总流水增量的40%[4][53] - Roblox不断推出多款AI游戏创作工具以降低创作门槛,包括编程助手、各种游戏素材生成工具等,25Q1推出Roblox文本生成功能,开源3D模型Cube 3D,生成超过100万个3D模型[54][55] 模型能力增强与应用边界的争夺 - 情景一:大模型直击原有产品痛点,新增AI原生竞争对手,例如LivePerson面临AI引入新竞争者、客户流失严重,净收入留存率从2024年第二季度83%下降到2025年第二季度78%[64][65] - 情景二:大模型加速原有产品功能开发,同时创新AI原生产品,例如美图公司在原有主力产品中推出更多AI功能,驱动付费率提升,订阅渗透率从23Q1末2.9%提升至25Q2末5.5%[73] - 情景三:AI产品与传统业务收入存在此消彼长相互替代关系,例如C3.AI传统订阅收入增长承压,2025财年传统订阅收入3.276亿美元,同比+18%,但AgenticAI业务年化ARR约6000万美元、生成式AI收入同比增长超100%[78] - 情景四:AI或颠覆原有需求流量入口,市场担忧部分公司会被AI颠覆,包括搜索、广告、人力资源、旅游服务、IT软件等领域公司[79][81] - 情景五:AI在编程、客服等场景降本显著,企业人均产出持续提升,例如Shopify、Applovin、Twilio等公司在员工人数减少的同时,人均产出大幅增加[83]
实测DeepSeek V3.1:不止拓展上下文长度
自动驾驶之心· 2025-08-22 07:34
核心观点 - DeepSeek V3.1相比V3版本在多个维度实现性能提升,包括上下文长度扩展至128K、编程能力增强、写作风格更人性化、数学问题解答更清晰、翻译准确性提高,但在部分细节处理(如冷门知识回答)仍存在瑕疵 [1][3][9][13][22][25][30][37] - 模型在非推理任务中达到SOTA水平,例如在aider测试中得分71.6%,优于Claude Opus 4且成本低68倍,同时在SVGBench基准测试中表现优于其他变体 [43][44] - 用户可通过多种渠道访问模型,包括Hugging Face平台、网页端、APP及小程序,且API调用成本具竞争力(输入0.004元/千Token,输出0.016元/千Token) [8][10] 技术规格更新 - 上下文长度从65K扩展至128K,最大输入98,304 Token,支持多种张量格式 [1][10] - 思维链长度提升至32,768 Token,最大回复长度16,384 Token,较V3版本(8,192 Token)翻倍 [10] - 模型参数量为685B(满血版),较V3的671B略有增加 [10] 性能测试结果 编程能力 - V3.1代码生成更全面,增加异常处理(如检查GIF格式)、依赖库安装说明及命令行使用指南,而V3仅提供基础压缩代码 [13][14] - 实测中V3代码压缩18.3MB文件后仍超10MB需二次压缩,V3.1直接满足要求但输出GIF速度略慢 [15][18] 写作与翻译 - 写作风格从V3的理性平铺直叙变为V3.1的诗意表达,更贴近人类情感化输出 [22] - 翻译长难句能力提升(V3.1减少括号补充说明),但存在简单词漏译(如"several") [30] 数学与冷门知识 - 双曲线离心率问题(答案为2√2)两者均正确,但V3.1展示完整推导过程(含公式$$e=\sqrt{1+\frac{b^2}{a^2}}$$) [25][26] - 冷门知识问答中两者均错误判断构树果实为核果(实际应为瘦果),且V3.1出现中英文混用("conclusion")及回答偏题 [31][37][38] 市场反馈与基准表现 - Hugging Face热度升至第二,Reddit测试显示aider得分71.6%为非推理模型SOTA,成本仅为Claude Opus 4的1/68 [41][42][43] - SVGBench基准中V3.1得分53.1%优于思考版本(47.8%)及R1-0528(40.4%),但低于领先模型(如horizon-beta 67.4%) [44] - 用户报告新增特殊Token及自动搜索功能,物理理解能力(如动态GIF生成)有所提升 [45][47]
实测DeepSeek V3.1,不止拓展上下文长度
量子位· 2025-08-20 15:48
DeepSeek V3 1与V3的差异分析 核心更新 - 上下文长度从65K扩展至128K 支持多种张量格式 [1][7] - 网页端界面将【深度思考(R1)】简化为【深度思考】 手机端仍在同步更新中 [2] - 当前Base版本可通过Hugging Face下载 完整版支持网页 APP和小程序访问 [6] 性能参数对比 - V3 1输入成本0 004元 千Token 输出成本0 016元 千Token Batch调用成本减半 [8] - V3输入成本0 002元 千Token 输出成本0 008元 千Token Batch调用成本同样减半 [8] - V3 1免费额度为各100万Token 有效期180天 V3未明确标注免费额度 [8] 功能测试表现 编程能力 - V3 1在Python代码生成中考虑更全面 提供依赖库安装 命令行使用说明及工作原理 [12][13] - 实测18 3MB GIF文件压缩 V3需二次压缩才能低于10MB V3 1方案更高效 [14][15] 情境写作 - V3输出风格理性平铺直叙 V3 1转为文艺诗意化表达 差异显著 [20] 数学理解 - 双曲线离心率计算题两者均正确 但V3 1推导过程更规范 [22][23][24] 翻译水平 - V3 1对长难句理解更优 但遗漏"several"等简单词翻译 V3偏好括号补充说明 [29] 冷门知识 - 构树果实分类问题两者均判断为核果 与小红书博主实验结论(瘦果)存在分歧 [30][37] 第三方评测与用户反馈 - 在aider测试中以71 6%得分超越Claude Opus 4 成本低68倍 [42] - SVGBench基准显示V3 1表现优于V3 1(思考模式)及R1 0528 [43][44] - 用户发现新增4个特殊token 关闭搜索时仍会自动触发搜索 [45] 物理模拟能力 - V3 1对"旋转六边形内弹跳球"的模拟效果优于V3 [47] 市场热度 - 发布后迅速成为Hugging Face热门话题第四 截至发稿升至第二 [40][41]
万字解析DeepSeek MOE架构!
自动驾驶之心· 2025-08-15 07:33
MOE架构基本原理 - MOE全称为混合专家模型 核心思想是使用多个专家FFN替代原Transformer架构中的前馈层 每个token会选择top-K个专家进行前向传递[2][4][6] - MOE层由路由器(门控和选择器)和n个专家FFN组成 路由器通过softmax操作选择不同专家的权重 选择器确定top-K专家[6] - 在Switch Transformers中采用top-K=1策略 主要考虑专家并行方案时的通信 计算和存储效率平衡[9][10][14] - 引入容量因子概念 专家容量=(总token数/专家数量)×容量因子 用于控制每个专家处理的token数量 防止溢出或资源浪费[13][18] Switch Transformers优化方案 - 采用简单稀疏路由和高效稀疏路由两种方案 简单稀疏路由针对单个token选择专家 高效稀疏路由针对专家并行设计[7] - 负载不均衡问题通过可微的负载均衡辅助损失函数解决 使token在专家分布上尽可能均匀[17][20] - 专家容量静态分配可能导致溢出或浪费 动态计算时需要平衡容量因子设置[15][16] DeepSeek V1架构创新 - 提出细粒度专家划分策略 通过拆分FFN中间隐藏维度增加专家数量 在保持参数总量不变情况下提升专家专业化程度[22][25] - 引入共享专家分离机制 设置特定共享专家始终激活 用于捕捉通用知识 减少其他路由专家间的冗余[24][26] - MOE层输出由三部分组成:共享专家输出 Top-K路由专家输出和残差连接[30] - 设计专家级别和设备级别双重负载均衡损失函数 解决训练不充分和计算瓶颈问题[32][35] DeepSeek V2优化重点 - 实施设备受限路由策略 将每个token的激活专家所在GPU设备数量限制为3个 显著降低通信开销[37] - 新增通信负载均衡损失函数 优化设备间token分配均衡性[38][39] - 采用token丢弃策略 对超过专家容量的token按分值降序丢弃 仅影响当前MOE层计算[42] DeepSeek V3技术演进 - 将门控函数从SoftMax改为Sigmoid 可能出于降低计算复杂度考虑 特别在专家数量增至256个时更明显[44][45] - 弃用所有辅助负载均衡损失 引入可学习偏置项bi 通过动态调整偏置值实现负载均衡[46][47] - 新增序列级别辅助损失函数 防止单个序列内出现极端不平衡情况[49][50] - 完全取消token丢弃策略 通过偏置项和序列级损失实现良好负载均衡[52] MOE架构发展脉络 - MOE架构早在1991年就已提出 但直到2023年底Mixtral 8*7B模型发布后才受到广泛关注[2] - 国内Qwen和MiniMax等公司也推出MOE模型 但架构实现相对DeepSeek更简单[3] - DeepSeek从V1到V3持续优化负载均衡和通信效率 体现对高效计算的一贯追求[36][43] - MOE模型特别适合云计算并行推理场景 在AI模型中的地位日益重要[3]
用户都去哪了?DeepSeek使用率断崖式下跌?
菜鸟教程· 2025-07-23 10:10
DeepSeek R1市场表现与行业影响 - DeepSeek R1推出后迅速成为全球现象级AI应用,上线20天日活跃用户(DAU)达2215万,登顶140多个国家IOS下载榜并超越ChatGPT成为美区免费应用榜首[2] - 其崛起对美股科技股造成冲击:纳斯达克100指数期货单日跌幅达5%,英伟达股价暴跌17%,科技板块单日市值蒸发近万亿美元[4][6] - 但近期网页访问量出现显著下滑:2月至5月访问量从614M降至436M(-29%),同期ChatGPT增长40.6%,Gemini增长85.8%,Grok增长247.1%[9] 用户流失核心原因 - 第三方平台分流:R1和V3模型在第三方部署使用量增长近20倍,导致官方token消耗份额持续下降[14][16] - 用户体验痛点:首token延迟高、输出速度慢(因采用批量处理请求机制),上下文窗口仅64K(第三方平台普遍达2.5倍以上)[21][23][24] - 竞争环境加剧:半年内GPT-4.5/Gemini 2.5/Claude 4等竞品密集发布,R2版本延迟推出削弱市场竞争力[38] 公司战略选择 - 主动牺牲用户体验:通过高批量处理降低算力消耗,将资源集中于AGI研发而非商业变现,被描述为"算力实验室"模式[26] - 开源策略扩大影响力:官方平台流量下滑但通过第三方部署实现模型广泛渗透[14][43] - 与Anthropic形成对比:后者通过优化代码工具(如Claude Code)和云服务合作(获亚马逊50万Trainium芯片)提升效率[29][30][31] 行业竞争格局 - 技术路线分化:DeepSeek选择研发优先,Anthropic侧重效率优化,反映商业模式差异[46] - 资源争夺白热化:算力成为核心竞争力,头部公司通过云合作(如Anthropic与AWS/Google)或战略取舍应对限制[28][30] - 迭代速度加快:Grok4已推出,GPT5/Gemini3等新品传闻频出,行业进入高强度技术竞赛阶段[47] 用户反馈 - 负面评价集中于速度慢/幻觉问题/服务器拥堵/内容过滤等体验缺陷[35] - 部分用户转向竞品,但仍有群体坚定支持,认为开源模型数据对比方式不公平[40][43] - 行业共识在于技术突破与商业平衡的挑战,价格战背后是资源分配与战略定位的深层较量[45][48]
Kimi K2 不仅抢了开源第一,还抢了自家论文署名:我「夸」我自己
36氪· 2025-07-22 19:07
模型发布与市场地位 - 月之暗面发布全球首个万亿参数开源大模型Kimi K2 参数量达1.04T 激活参数32B 采用混合专家架构[1][12] - 模型在LMSYS开源排行榜位列第一 Arena Score达1420分 超越DeepSeek R1等竞争对手[2] - 前四名开源模型均为国产模型 显示中国在开源大模型领域的技术领先性[2] 技术创新与架构设计 - 采用MuonClip优化器解决超大规模训练稳定性问题 成功抑制logits值超过1000的现象[15][16] - 使用稀疏MoE架构 稀疏度为48 每个token仅激活8位专家[12] - 上下文窗口扩展至128K token 支持长文档处理与多轮工具调用[14] 数据策略与训练成果 - 训练数据规模达15.5T token 覆盖网页、代码、数学和知识领域 采用改写法增强数据多样性[12][17] - 通过合成数据与真实数据混合策略 构建10万条高质量工具使用轨迹 覆盖3000+真实工具与2万+合成工具[20][23] - 在代码任务中表现突出 LiveCodeBench v6达53.7分 SWE-bench Verified达51.8分[29] 性能表现与基准测试 - 在数学任务中MATH-500准确率达97.4% AIME 2024平均分达69.6分[29] - 通用任务MMLU得分92.9分 MMLU-Pro达81.2分 接近闭源模型水平[29] - 工具使用任务Tau2 retail平均分70.6分 AceBench准确率76.5分[29] 应用前景与行业影响 - 模型定位为"智能体时代"基础设施 专注于Agentic Intelligence能力开发[9] - 开源策略包括释放1T参数权重 为开发者提供完整模型访问权限[11] - 预计将推动2025年下半年垂直领域智能体应用发展 从聊天场景延伸至生产环境[31]