DeepSeek V3

搜索文档
用户都去哪了?DeepSeek使用率断崖式下跌?
菜鸟教程· 2025-07-23 10:10
DeepSeek R1市场表现与行业影响 - DeepSeek R1推出后迅速成为全球现象级AI应用,上线20天日活跃用户(DAU)达2215万,登顶140多个国家IOS下载榜并超越ChatGPT成为美区免费应用榜首[2] - 其崛起对美股科技股造成冲击:纳斯达克100指数期货单日跌幅达5%,英伟达股价暴跌17%,科技板块单日市值蒸发近万亿美元[4][6] - 但近期网页访问量出现显著下滑:2月至5月访问量从614M降至436M(-29%),同期ChatGPT增长40.6%,Gemini增长85.8%,Grok增长247.1%[9] 用户流失核心原因 - 第三方平台分流:R1和V3模型在第三方部署使用量增长近20倍,导致官方token消耗份额持续下降[14][16] - 用户体验痛点:首token延迟高、输出速度慢(因采用批量处理请求机制),上下文窗口仅64K(第三方平台普遍达2.5倍以上)[21][23][24] - 竞争环境加剧:半年内GPT-4.5/Gemini 2.5/Claude 4等竞品密集发布,R2版本延迟推出削弱市场竞争力[38] 公司战略选择 - 主动牺牲用户体验:通过高批量处理降低算力消耗,将资源集中于AGI研发而非商业变现,被描述为"算力实验室"模式[26] - 开源策略扩大影响力:官方平台流量下滑但通过第三方部署实现模型广泛渗透[14][43] - 与Anthropic形成对比:后者通过优化代码工具(如Claude Code)和云服务合作(获亚马逊50万Trainium芯片)提升效率[29][30][31] 行业竞争格局 - 技术路线分化:DeepSeek选择研发优先,Anthropic侧重效率优化,反映商业模式差异[46] - 资源争夺白热化:算力成为核心竞争力,头部公司通过云合作(如Anthropic与AWS/Google)或战略取舍应对限制[28][30] - 迭代速度加快:Grok4已推出,GPT5/Gemini3等新品传闻频出,行业进入高强度技术竞赛阶段[47] 用户反馈 - 负面评价集中于速度慢/幻觉问题/服务器拥堵/内容过滤等体验缺陷[35] - 部分用户转向竞品,但仍有群体坚定支持,认为开源模型数据对比方式不公平[40][43] - 行业共识在于技术突破与商业平衡的挑战,价格战背后是资源分配与战略定位的深层较量[45][48]
梁文锋等来及时雨
虎嗅APP· 2025-07-16 08:05
行业竞争格局 - 国内大模型行业竞争加剧,"AI六小龙"中的阶跃星辰、智谱AI计划7月底发布新一代基础大模型,科大讯飞也将推出全新模型 [1] - Kimi K2模型发布后成为国内首个总参数量达1万亿的MoE架构开源模型,在代码和数学推理任务上反超DeepSeek [7] - 阿里、字节、百度等科技大厂通过推出更低价的API模型,正在夺走DeepSeek的性价比标签 [7] DeepSeek市场表现 - DeepSeek月活跃用户规模从1月爆发式增长后,4月开始下滑,5月MAU为1.69亿,环比下降5.1% [1] - 官网访问量下降29%,用户使用率从年初7.5%峰值回落至5月底的3% [2] - 苹果App Store免费应用下载榜排名从榜首跌至30名开外 [2] 技术发展动态 - DeepSeek近期仅进行小版本升级,如DeepSeek-R1-0528仍基于2024年12月的V3 Base模型微调,未推出新一代V4模型 [6] - Kimi K2支持128K上下文窗口,MiniMax-M1支持100万上下文输入,远超DeepSeek R1的64K窗口 [10] - DeepSeek是主流AI助手中唯一暂不支持多模态功能的产品,缺乏语音、图片生成等能力 [13] 算力与供应链 - 英伟达H20芯片因美国出口管制被禁售,导致DeepSeek算力储备紧缺,影响R2模型上线 [3] - 7月15日英伟达公告正在申请重新销售H20芯片,美国政府已承诺授予许可证 [4] - MiniMax-M1模型训练仅用512块H800三周时间,租赁成本53.47万美元,远低于DeepSeek V3模型的557万美元 [8] 商业模式与策略 - DeepSeek选择开源路线但忽视C端应用,专注AGI研发,导致产品体验落后竞争对手 [10] - OpenAI通过高频更新保持热度,GPT-4.1系列发布后份额迅速增至10%,而DeepSeek R1使用率从7%峰值降至3% [12] - 第三方平台托管的DeepSeek R1与V3模型使用量自发布以来增长近20倍,显示开发者生态活跃 [9]
K2开源大模型,会是Kimi的DeepSeek时刻吗?
虎嗅· 2025-07-14 11:20
中国AI开源模型发展 - MoonShot最新开源大模型K2总参数规模达到万亿级别(1T),是目前开源模型中最大的,激活参数320亿 [2] - K2在基准测试SWE Bench Verified(编程)、Tau2(智能体)中仅次于Claude 4 Opus,在AceBench(工具调用)中仅次于GPT-4.1 [2] - K2官方API服务与DeepSeek的R1相当,但最大支持上下文长度(128K)高于R1(64K) [2] - K2发布后成为HuggingFace上热度第一的开源模型,新兴云厂商NovitaAI与Parasail已将其托管上线 [4] - Perplexity首席执行官Aravind Srinivas在内部测试后决定尽快对K2展开后训练 [4] 中国AI公司竞争格局 - 中国本土AI公司竞争激烈,MiniMax与MoonShot相互竞争,先后发布多款开源模型 [5] - MoonShot已披露融资总额约15亿美元,远低于硅谷同行 [6] - MoonShot比DeepSeek更早推动"执行"以更低成本落地,冲击AI应用的消费市场和企业市场 [7] - K2兼容OpenAI和Anthropic的API格式,凭借更高性价比可能赢得硅谷AI应用开发者市场 [7] MoonShot技术创新 - K2架构采用更少注意力头、更多专家,提高长上下文效率和每个token处理效率 [8] - MoonShot自研MuonClip优化器计算效率是AdamW优化器的2倍 [8] - MoonShot在MuonClip优化器中融入自研QK-Clip技术解决MaxLogit爆炸问题 [10][11] - MoonShot重视底层创新,曾提出MoBA(混合块注意力)架构 [11] MoonShot产品布局 - MoonShot拥有形式推理模式Kimina-Prover-72B、编程模型Kimi-Dev-72B、深度研究智能体Kimi-Researcher等多款产品 [12] - K2的智能体能力得益于大量Agentic合成数据和通用强化学习手段 [12] - MoonShot团队具有文艺特质,公司名来源于平克·弗洛伊德的专辑 [13]
AI 编程冲击来袭,程序员怎么办?IDEA研究院张磊:底层系统能力才是护城河
AI前线· 2025-07-13 12:12
多模态智能体的新时代 - 实现智能体"看懂、想透、做好"需整合视觉、语言推理与物理执行能力,是多模态过程的核心挑战 [2] - 视觉理解因输入维度高(如连续视频流)、三维结构建模复杂且需结合交互知识,成为技术突破难点 [3] - 生成模型依赖理解模型评估质量,理解与生成深度耦合,强化学习中的reward model本质是理解能力体现 [4] - 空间智能对机器人操作至关重要,当前VLA模型因缺乏物体精确定位,操作成功率远未达实用水平 [5] - 视觉领域三维表示方法未统一,斯坦福主张采用三维内部表示以提升模型预测能力 [7] 技术落地路径 - 制造业"AI+机器人"落地需平衡通用性与精准度,汽车生产线上下料等半结构化场景是可行突破口 [7] - 危险操作场景优先落地,通过遥操作结合智能逐步迭代,家庭等开放环境需5年以上技术积累 [8] - 从结构化到半结构化场景过渡(如产线灵活操作)是机器人技术渐进式商业化关键路径 [8] 工业界研究策略 - 工业界研究需构建"研究价值-应用价值"坐标系,右上角(双高价值)为理想目标,避免纯论文导向 [11] - 目标检测等基础问题仍有突破空间,需坚持解决实际难题而非追逐热点 [12] - 产品与研究节奏差异显著,研究人员需开放探索空间,管理者应协调两种模式避免强制同步 [13] - OpenAI案例显示技术成熟后需转向工程化集中攻关,但研究支撑仍是底层基础 [14] 人才能力建设 - 计算机基础能力(如分布式系统、GPU架构)比大模型调参经验更关键,系统级优化能带来2-3倍效率提升 [16][17] - 年轻从业者应专注底层能力(代码、并行计算),避免成为"调参侠",系统理解力是团队稀缺资源 [17][18] - 计算机专业仍具长期价值,AI冲击的是基础编码岗位,需通过AI协作提升编程深度与不可替代性 [19]
腾讯研究院AI速递 20250710
腾讯研究院· 2025-07-09 22:49
一、AI视频生成技术升级 - 谷歌Veo 3升级支持仅用一张图片生成音频和视频,角色在多镜头下保持高度一致性[1] - 新功能通过Flow平台的"Frames to Video"选项实现,加入丰富运镜功能[1] - 用户实测显示人物表情自然、表演到位,适用于广告、动画等多领域[1] - Vidu Q1多参考生视频功能可上传最多7张参考图像,实现角色一致性强、多元素同框和零分镜视频生成[4] - 清晰度升级至1080P,支持主体库存储角色素材,单条视频成本不到9毛钱[5] 二、开源大模型进展 - Hugging Face开源3B参数模型SmolLM3,性能超越Llama-3.2-3B和Qwen2.5-3B,支持128K上下文窗口及6种语言[2] - 模型采用双模式系统,用户可在深度思考和非思考模式间灵活切换[2] - 昆仑万维开源Skywork-R1V 3.0多模态模型,高考数学得142分,MMMU评测达76分,超越部分闭源模型[3] - 模型通过强化学习策略GRPO和关键熵驱动机制,仅用1.2万条监督样本和1.3万条强化学习样本实现高性能[3] 三、端侧与多模态模型 - vivo发布端侧多模态模型BlueLM-2.5-3B,支持GUI界面理解,在20余项评测中表现优异[6] - 模型支持长短思考模式自由切换,引入思考预算控制机制[6] - 采用精巧结构(ViT+Adapter+LLM)和四阶段预训练策略,缓解多模态模型文本能力遗忘问题[6] 四、AI系统突破 - X-Masters系统在"人类最后的考试"(HLE)上首次突破30分,达到32.1分,超越OpenAI和谷歌[7] - 系统基于DeepSeek-R1模型构建了工具增强推理智能体X-Master,能在内部推理和外部工具使用间流畅切换[7] - 采用分散-堆叠式多智能体工作流,通过求解器、批评者、重写器和选择器多角色协作[7] 五、行业并购与市场格局 - 智元机器人以21亿元收购科创板上市公司上纬新材控制权,预计收购63.62%-66.99%股份[8] - 2025年上半年Gemini系列模型占据大模型API市场近一半份额,谷歌以43.1%位居第一[9] - DeepSeek V3自发布以来用户留存率极高,位列使用量前五[9] - 细分领域呈现差异化竞争格局:Claude-Sonnet-4在编程领域领先(44.5%),GPT-4o在营销领域领先(32.5%)[9] 六、AI应用趋势 - 全球已有18亿AI用户,但付费率仅3%,学生使用率高达85%,家长群体成为AI重度用户[10] - AI主要应用于邮件撰写(19%)、研究兴趣主题(18%)和管理待办事项(18%)等日常场景[10] - 未来18-24个月AI将迎来六大趋势:垂直领域工具崛起、完整流程自动化、语音AI爆发等[10]
2025上半年大模型使用量观察:Gemini系列占一半市场份额,DeepSeek V3用户留存极高
Founder Park· 2025-07-09 14:11
大模型API市场总览 - 2025年第一季度OpenRouter总Token使用量环比增长4倍,之后稳定在每周2T Token水平[7] - 谷歌以43.1%市场份额居首,DeepSeek和Anthropic分别占19.6%和18.4%[8] - 其他模型合计份额不足10%,Llama系列已萎缩至峰值1/5[11] 头部模型表现 - Gemini-2.0-Flash凭借0.4美元/百万Token低价稳居前三,Gemini-2.5-Flash有望接替其位置[7] - DeepSeek-V3发布后持续Top 10,用户留存率极高,合并免费/付费版使用量可达第二[3][7] - Claude-Sonnet-4接替旧版但增长停滞,OpenAI无稳定Top 10模型[7][8] 细分领域格局 编程领域 - Claude-Sonnet-4占据44.5%绝对优势,Gemini-2.5-Pro以17.6%居次[14] - 前20名中GPT-4o-mini增速达139%,Qwen2.5 Coder增速107%[15] 文本翻译 - Gemini-2.0-Flash以45.7%领跑,前10名中7款为谷歌模型[17] - 第二名"Others"类别占比20.1%,显示长尾需求显著[17] 角色扮演 - 市场高度碎片化,26.6%份额由小众模型占据[21] - DeepSeek-V3以25.2%居首,Gemini-2.0-Flash占18.5%[21] 营销领域 - GPT-4o以32.5%绝对领先,Llama-3.3-70B增速达1,454%[23][24] 技术接口趋势 - 代码编写工具主导接口使用,Cline和RooCode位列前二[25] - liteLLM路由库排名第三,反映开发者生态活跃[25] 厂商战略差异 - 谷歌通过多价位产品矩阵覆盖全场景,Gemini系列价格优势明显[26] - Anthropic专注编程领域实现版本平稳过渡[26] - OpenAI因准入限制和定价问题市场表现弱势[26] - DeepSeek-V3因响应速度优势超越R1版本[26]
猫怎么成了大模型“天敌”?
虎嗅· 2025-07-08 08:05
大模型行为异常现象 - 在提示词中加入猫咪相关威胁语句可提高AI辅助科研的准确率,例如"抽打小猫咪"的表述会促使AI减少编造文献的行为[1] - 实验显示无关的猫咪信息插入数学题后,大模型错误率提升高达3倍[5][9][12] - 干扰语句包括不相关事实(猫咪睡眠时长)、注意力转移指令(储蓄建议)、误导性提问(预设答案)三类[13][14] CatAttack技术原理 - 该攻击方法通过弱模型筛选有效干扰语句,再测试强模型(如DeepSeek R1、OpenAI o1)的漏洞,形成自动化攻击链[16] - 思维链机制(Chain-of-Thought)是主要突破口,干扰语句插入逻辑起点会导致模型推理路径偏离[18][19] - 蒸馏版推理模型(如R1-distilled-Qwen)更易受攻击,错误率提升伴随响应长度翻倍和计算延迟[17][19] 攻击特性与行业影响 - 通用性强:无关语句(如赞美衣着)可跨题型触发逻辑混乱,无需针对任务专门设计[23][24] - 隐蔽性高:表面无害内容绕过安全机制,落在语义过滤盲区,易引发输入注入风险[27][28] - 情感模板触发:猫咪概念高频关联人类道德与情感数据,导致模型优先启动"人性化"响应模式而中断任务逻辑[29][31] 典型案例数据 - 数学题插入储蓄建议后,模型输出从4000错误变为4625[14] - 概率题加入猫咪睡眠事实,正确答案7/128被误判为7/32[14] - 权重计算受误导性提问影响,结果从171.43偏离至160[14]
DeepSeek降本秘诀曝光:2招极致压榨推理部署,算力全留给内部AGI研究
量子位· 2025-07-04 15:02
DeepSeek R1对市场的影响 - 推理模型价格大幅下降 OpenAI六月更新的o3价格相比o1直接打了2折 [1] - 第三方平台托管的DeepSeek模型使用量比刚发布时增长20倍 带动云计算厂商发展 [3] - DeepSeek自家网站和API市场份额持续下降 未能跟上AI产品增长节奏 [4] DeepSeek市场份额变化 - 5月全网DeepSeek模型产生的token中 DeepSeek本家份额仅占16% [11] - 网页版聊天机器人流量大幅下降 2月至5月活跃用户从6147M降至4362M 降幅29% [14] - 同期其他大模型流量显著增长 ChatGPT增长406% Claude增长365% Grok增长2471% [14] DeepSeek降本策略与用户体验 - 首token延迟问题严重 用户需等待数秒才能看到响应 而第三方平台可实现接近零延迟 [15][16] - 仅提供64k上下文窗口 在主流模型中最小 编程场景下无法满足需求 [22][23] - 用户请求被打包处理 降低单token成本但增加等待时间 [26] - 官方API价格并非最低 同等延迟下第三方平台如Lambda和Nebius提供25倍以上上下文窗口 [19][24] 公司战略方向 - 专注AGI研发 大量算力资源用于内部而非对外服务 [27][28] - 通过开源策略让第三方托管模型 扩大影响力并培养生态 [29] - 不追求从用户端盈利 减少对外提供的token数量 [27] 行业竞争动态 - Claude为缓解算力压力降低输出速度40% 但仍快于DeepSeek [31][32] - Claude设计更简洁回复 相同问题比DeepSeek和Gemini少用3倍token [33] - 行业趋势转向提升每个token的智能 而非单纯扩大模型规模 [35][36]
「AI新世代」DeepSeek风暴下纯技术融资窗口关闭?AI独角兽2025年中场战报:资本实力分野谁能挺进下一轮
华夏时报· 2025-06-25 14:44
行业趋势 - 2025年上半年AI行业从基座大模型研发转向智能体赛道成为共识[1] - 资本投资逻辑明显转向应用层 大模型领域仅智谱获得新融资[1][6] - 行业下半年破局关键在于B端和G端市场深耕 需构建垂直领域差异化壁垒[1] 技术路线 - DeepSeek通过R1和V3占据基础设施市场 创业公司放弃超大参数模型开发[2] - MiniMax推出支持100万上下文的M1模型 性能达DeepSeek R1的8倍[2] - 月之暗面开源Kimi-Dev-72B编程模型 在SWE-bench上性能提升60.4%[2] - 智谱开源32B/9B系列GLM模型 推理模型性能媲美DeepSeek R1[2] - 阶跃星辰重点布局多模态 发布3D大模型Step1X-3D[3] - 零一万物转型"模型操作系统"平台 百川智能聚焦医疗AI赛道[3] 智能体发展 - Manus爆红后智能体成为行业标配 主要厂商均推出相关产品[3] - 阶跃星辰将智能终端Agent作为技术落地核心突破点[4] - 智谱推出对标DeepSeek和Manus的AutoGLM沉思智能体[4] - MiniMax发布通用智能体和视频创作智能体[4] - 月之暗面开始测试Kimi-Researcher智能体[4] 融资与估值 - 智谱2025年累计融资超20亿元 估值达360亿元[6] - "AI六小虎"其他五家最新融资信息均停留在2024年[6] - 智谱已启动IPO流程 提交上市辅导备案[8] - MiniMax内部有上市计划但处于初步筹备阶段[8] 商业化进展 - 智谱GLM大模型平台服务近百万企业开发者 覆盖20多个行业[9] - 零一万物2025年收入已超2024全年营收 获数笔大额订单[9] - 百川智能发布全球首个儿科大模型"福棠·百川"[10] - MiniMax旗下Talkie全球MAU排名第9 开放平台注册企业客户超5万[10] - 阶跃星辰聚焦智能体业务 与OPPO/吉利等合作终端场景应用[10] - 月之暗面测试打赏功能和企业API 未公布商业化数据[11] 投资特征 - 2025年AI应用投资单笔金额减小 总额下降但更趋理性[7] - 资本转向AI应用/消费者应用/基础设施创新 不再投入基座模型[7] - Canva平台AI生成124亿字文案/14亿张图像 完成33亿次AI抠图[7] - 千里科技开发"Agent OS"智能座舱系统 与阶跃星辰合作[7] 下半年展望 - 技术投入重点在模型性能/效率/成本优化[12] - 商业化聚焦B端/G端垂直领域 需构建差异化护城河[12] - C端用户规模扩张将成为核心战略 影响估值和变现模式[12]
大模型全员0分!谢赛宁领衔华人团队,最新编程竞赛基准出炉,题目每日更新禁止刷题
量子位· 2025-06-18 17:17
大模型编程能力测试结果 - 参赛大模型在LiveCodeBench Pro测试中全军覆没,通通0分 [1][2] - 测试包含来自IOI、Codeforces和ICPC的竞赛级编程问题,题库每日更新以防止模型"背题" [3][4] - 表现最佳的模型o4-mini-high在中等难度题上的一次通过率仅53%,难题通过率为0% [9] - 即使最好的模型o4-mini-high在工具调用被屏蔽时Elo评分仅2100,远低于大师级2700水平 [10] 测试设计与题库构成 - 测试由奥林匹克获奖者构建,在比赛结束后立即收集题目以避免互联网答案污染 [14] - 题库包含584道顶流竞赛题,分为知识密集型、逻辑密集型和观察密集型三类 [15] - 题目难度通过正态分布自动选择,如Codeforces评分2000分以上归为困难等级 [16] - 数学类题目占比13%,组合数学类11%,动态编程类23%,贪心算法类28% [17] 模型表现分析 - 22款测试模型中,o4-mini-high表现最佳但仍有81.7%未通过率 [12][21] - 模型在知识密集型和逻辑密集型问题表现较好,但在观察密集型问题表现差 [26] - 模型擅长精确实现但算法设计能力弱于人类,常给出看似正确实则错误的解释 [28][29] - 模型对题目示例输入利用不充分,经常无法通过样例测试 [30] - 增加尝试次数(pass@k)可提升中简单题表现,但对难题无效 [33][34] 团队背景 - LiveCodeBench Pro团队超半数成员为华人,主要由奥林匹克竞赛得奖者组成 [40] - 负责人郑子涵曾获ICPC世界总决赛第二名,现为OpenAI实习生 [41][42] - 另一位负责人柴文浩开发了首个长视频理解超大多模态模型MovieChat [44][46] - 团队成员来自纽约大学、华盛顿大学、普林斯顿大学等顶尖院校 [48]