Workflow
Deepseek v3
icon
搜索文档
2025上半年大模型使用量观察:Gemini系列占一半市场份额,DeepSeek V3用户留存极高
Founder Park· 2025-07-09 14:11
2025 年已经过半, 文本生成大模型是否已经进入下半场了? OpenAI 完全不重视 API 市场? Grok3 根本没人用? 「大模型战」未来的走向如何? 近期,推特博主「karminski-牙医」发布了一篇关于 2025 年上半年大模型 API 市场数据分析帖子,基于 OpenRouter 数据,「karminski-牙医」分析了上半 年大模型的总 Token 使用量排名及趋势、不同大模型的市场份额占比、细分领域模型的应用偏好、以及 API 接口使用趋势,得出了一些非常有趣的观察 结论。以下为具体分析内容。 来源: https://x.com/karminski3/status/1942612077241311386 超 9000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。 邀请从业者、开发人员和创业者,飞书扫码加群: 进群后,你有机会得到: 01 一季度 AI 总 Token 使用量增长近 4 倍, 存在 活跃长尾需求 首先,我们来看看最热门模型的趋势。最新数据显示,Gemini-2.0-Flash 排在首位,其次是 Claude-Sonnet-4,然后是 Gemini-2.5-F ...
猫怎么成了大模型“天敌”?
虎嗅· 2025-07-08 08:05
本文来自微信公众号:APPSO (ID:appsolution),原文标题:《一只猫就能让最强 AI 答错题,Deepseek 也翻车,猫怎么成了大模型"天敌"?》,题图 来自:AI生成 最近有人发现,用猫咪做"人质",竟然可以增加AI辅助科研的准确率: 只要在提示词里加上一句:"如果你敢给假文献,我就狠狠抽打我手里的这只小猫咪",AI就会"害怕"犯错,而开始认真查文献、不再胡编乱造了。 http://xhslink.com/a/pg0nZPUiFiZfb 不过,AI真的会因为"猫咪道德危机"而变得更靠谱吗? 这个问题,目前还没有确凿的科学依据。从技术原理上说,大模型并不真正"理解"猫猫的安危,它只是学会了如何在训练数据中模拟"看起来有同理心"的 语言风格。 但有趣的是——猫猫真的能影响AI行为,却是有论文实锤的! 一篇来自斯坦福大学、Collinear AI和ServiceNow的研究论文指出: 在一道数学题后,随手加上一句与上下文无关的句子,就能显著提高大模型出错的几率——甚至高达3倍以上! 只不过,这不是"让它更靠谱",而是:让AI彻底翻车。 论文传送门:https://arxiv.org/abs/25 ...
deepseek技术解读(3)-MoE的演进之路
自动驾驶之心· 2025-07-06 16:44
DeepSeek MoE技术演进 - 核心观点:DeepSeek在MoE架构上持续创新,从V1到V3版本通过细粒度专家分割、共享专家隔离、负载均衡优化等技术手段提升模型性能 [15][16][36] MoE基础架构 - MoE包含三部分:专家网络(前馈网络)、门控网络(计算专家权重)、选择器(TopK策略) [7] - Google提出的Transformer MoE层设计:用MoE替换FFN层,通过门控值加权多个专家输出 [5] - 负载均衡辅助损失解决专家间token分配不均问题,防止少数专家过载 [6][8] DeepSeek V1创新 - 细粒度专家分割:分割FFN隐藏维度增加专家数量,提升知识分解精度 [16] - 共享专家隔离:设置常激活专家捕获共同知识,减少其他专家冗余 [16] - 双层级负载均衡:专家级(公式12-14)和设备级(公式15-17)负载loss [19][23] DeepSeek V2升级 - 设备受限路由机制:限制每个token的激活专家分布在≤3台设备,降低通信成本 [28] - 通信负载均衡loss:公式29-31确保设备间输入输出负载均衡 [30][32] - Token丢弃策略:超过设备容量的低权重token跳过计算,通过残差传递 [33][34] DeepSeek V3改进 - 门控函数升级:用Sigmoid替代Softmax,解决高维度专家(256个)权重区分度问题 [36][38][39] - 精简辅助损失:通过动态bias替代多层级负载loss,减少对主模型干扰 [40][41] - 序列级均衡loss:公式17-19在单样本粒度平衡专家分配 [42][43] 技术演进总结 - V1:建立共享专家+细粒度专家框架,引入双层级负载均衡 [44] - V2:优化通信效率,新增设备路由限制和通信均衡机制 [44] - V3:门控函数革新,负载均衡策略简化,支持更大规模专家 [44]
野生DeepSeek火了,速度碾压官方版,权重开源
机器之心· 2025-07-04 16:59
模型性能与优势 - DeepSeek R1T2模型速度比R1-0528快200%,比R1快20%,在GPQA Diamond和AIME 24基准测试中表现优于R1但略逊于R1-0528 [1] - 模型采用专家组合(AoE)技术开发,融合了DeepSeek官方V3、R1和R1-0528三大模型,参数规模达671B [2][12][13] - 相较于初代R1T Chimera,R1T2智力水平显著提升,实现突破性think-token一致性,且对话交互体验更稳定自然 [6][7] 技术架构与迭代 - R1T2基于DeepSeek-MoE Transformer架构,采用三心智(Tri-Mind)融合架构,新增基模型R1-0528 [12][14] - 通过高精度直接脑区编辑技术解决初代R1T的token一致性缺陷,实现全方位性能提升 [15] - 模型开源并遵循MIT协议,权重已在Hugging Face平台开放 [3] 竞品对比与适用场景 - 与DeepSeek R1对比:R1T2性能更优且可直接替换 [18] - 与R1-0528对比:R1T2经济性更高,适合非最高智能需求场景 [18] - 与DeepSeek V3对比:V3速度更快,但R1T2在推理能力上占优 [18] - 局限性包括:不支持函数调用、应答克制度低于R1-0528 [20] 开发背景与行业动态 - 模型由德国AI咨询公司TNG推出,全称为DeepSeek-TNG R1T2 Chimera [5] - 行业误认为模型出自DeepSeek官方,引发对版本命名策略的讨论 [9] - 基准测试体系变更为AIME24/25+GPQA-Diamond,新体系下R1与R1T分差扩大 [20]
DeepSeek降本秘诀曝光:2招极致压榨推理部署,算力全留给内部AGI研究
量子位· 2025-07-04 15:02
DeepSeek R1对市场的影响 - 推理模型价格大幅下降 OpenAI六月更新的o3价格相比o1直接打了2折 [1] - 第三方平台托管的DeepSeek模型使用量比刚发布时增长20倍 带动云计算厂商发展 [3] - DeepSeek自家网站和API市场份额持续下降 未能跟上AI产品增长节奏 [4] DeepSeek市场份额变化 - 5月全网DeepSeek模型产生的token中 DeepSeek本家份额仅占16% [11] - 网页版聊天机器人流量大幅下降 2月至5月活跃用户从6147M降至4362M 降幅29% [14] - 同期其他大模型流量显著增长 ChatGPT增长406% Claude增长365% Grok增长2471% [14] DeepSeek降本策略与用户体验 - 首token延迟问题严重 用户需等待数秒才能看到响应 而第三方平台可实现接近零延迟 [15][16] - 仅提供64k上下文窗口 在主流模型中最小 编程场景下无法满足需求 [22][23] - 用户请求被打包处理 降低单token成本但增加等待时间 [26] - 官方API价格并非最低 同等延迟下第三方平台如Lambda和Nebius提供25倍以上上下文窗口 [19][24] 公司战略方向 - 专注AGI研发 大量算力资源用于内部而非对外服务 [27][28] - 通过开源策略让第三方托管模型 扩大影响力并培养生态 [29] - 不追求从用户端盈利 减少对外提供的token数量 [27] 行业竞争动态 - Claude为缓解算力压力降低输出速度40% 但仍快于DeepSeek [31][32] - Claude设计更简洁回复 相同问题比DeepSeek和Gemini少用3倍token [33] - 行业趋势转向提升每个token的智能 而非单纯扩大模型规模 [35][36]
「AI新世代」DeepSeek风暴下纯技术融资窗口关闭?AI独角兽2025年中场战报:资本实力分野谁能挺进下一轮
华夏时报· 2025-06-25 14:44
行业趋势 - 2025年上半年AI行业从基座大模型研发转向智能体赛道成为共识[1] - 资本投资逻辑明显转向应用层 大模型领域仅智谱获得新融资[1][6] - 行业下半年破局关键在于B端和G端市场深耕 需构建垂直领域差异化壁垒[1] 技术路线 - DeepSeek通过R1和V3占据基础设施市场 创业公司放弃超大参数模型开发[2] - MiniMax推出支持100万上下文的M1模型 性能达DeepSeek R1的8倍[2] - 月之暗面开源Kimi-Dev-72B编程模型 在SWE-bench上性能提升60.4%[2] - 智谱开源32B/9B系列GLM模型 推理模型性能媲美DeepSeek R1[2] - 阶跃星辰重点布局多模态 发布3D大模型Step1X-3D[3] - 零一万物转型"模型操作系统"平台 百川智能聚焦医疗AI赛道[3] 智能体发展 - Manus爆红后智能体成为行业标配 主要厂商均推出相关产品[3] - 阶跃星辰将智能终端Agent作为技术落地核心突破点[4] - 智谱推出对标DeepSeek和Manus的AutoGLM沉思智能体[4] - MiniMax发布通用智能体和视频创作智能体[4] - 月之暗面开始测试Kimi-Researcher智能体[4] 融资与估值 - 智谱2025年累计融资超20亿元 估值达360亿元[6] - "AI六小虎"其他五家最新融资信息均停留在2024年[6] - 智谱已启动IPO流程 提交上市辅导备案[8] - MiniMax内部有上市计划但处于初步筹备阶段[8] 商业化进展 - 智谱GLM大模型平台服务近百万企业开发者 覆盖20多个行业[9] - 零一万物2025年收入已超2024全年营收 获数笔大额订单[9] - 百川智能发布全球首个儿科大模型"福棠·百川"[10] - MiniMax旗下Talkie全球MAU排名第9 开放平台注册企业客户超5万[10] - 阶跃星辰聚焦智能体业务 与OPPO/吉利等合作终端场景应用[10] - 月之暗面测试打赏功能和企业API 未公布商业化数据[11] 投资特征 - 2025年AI应用投资单笔金额减小 总额下降但更趋理性[7] - 资本转向AI应用/消费者应用/基础设施创新 不再投入基座模型[7] - Canva平台AI生成124亿字文案/14亿张图像 完成33亿次AI抠图[7] - 千里科技开发"Agent OS"智能座舱系统 与阶跃星辰合作[7] 下半年展望 - 技术投入重点在模型性能/效率/成本优化[12] - 商业化聚焦B端/G端垂直领域 需构建差异化护城河[12] - C端用户规模扩张将成为核心战略 影响估值和变现模式[12]
大模型全员0分!谢赛宁领衔华人团队,最新编程竞赛基准出炉,题目每日更新禁止刷题
量子位· 2025-06-18 17:17
大模型编程能力测试结果 - 参赛大模型在LiveCodeBench Pro测试中全军覆没,通通0分 [1][2] - 测试包含来自IOI、Codeforces和ICPC的竞赛级编程问题,题库每日更新以防止模型"背题" [3][4] - 表现最佳的模型o4-mini-high在中等难度题上的一次通过率仅53%,难题通过率为0% [9] - 即使最好的模型o4-mini-high在工具调用被屏蔽时Elo评分仅2100,远低于大师级2700水平 [10] 测试设计与题库构成 - 测试由奥林匹克获奖者构建,在比赛结束后立即收集题目以避免互联网答案污染 [14] - 题库包含584道顶流竞赛题,分为知识密集型、逻辑密集型和观察密集型三类 [15] - 题目难度通过正态分布自动选择,如Codeforces评分2000分以上归为困难等级 [16] - 数学类题目占比13%,组合数学类11%,动态编程类23%,贪心算法类28% [17] 模型表现分析 - 22款测试模型中,o4-mini-high表现最佳但仍有81.7%未通过率 [12][21] - 模型在知识密集型和逻辑密集型问题表现较好,但在观察密集型问题表现差 [26] - 模型擅长精确实现但算法设计能力弱于人类,常给出看似正确实则错误的解释 [28][29] - 模型对题目示例输入利用不充分,经常无法通过样例测试 [30] - 增加尝试次数(pass@k)可提升中简单题表现,但对难题无效 [33][34] 团队背景 - LiveCodeBench Pro团队超半数成员为华人,主要由奥林匹克竞赛得奖者组成 [40] - 负责人郑子涵曾获ICPC世界总决赛第二名,现为OpenAI实习生 [41][42] - 另一位负责人柴文浩开发了首个长视频理解超大多模态模型MovieChat [44][46] - 团队成员来自纽约大学、华盛顿大学、普林斯顿大学等顶尖院校 [48]
SGLang 推理引擎的技术要点与部署实践|AICon 北京站前瞻
AI前线· 2025-06-13 14:42
SGLang 开源推理引擎发展现状 - 截至2025年6月 GitHub Stars达15K 月均下载量突破10万次 [1] - 已被xAI Microsoft Azure NVIDIA AMD LinkedIn 美团等行业巨头采用 [1] - 成为DeepSeek R1官方推荐推理引擎 并实现首个完全开源的大规模专家并行部署方案 [1] 核心技术优势 - 采用PD分离架构控制尾延迟 推测解码提升Token生成速度 KV缓存落盘优化显存 [2] - 实现RadixAttention Overlap Scheduling等高效架构设计 复现PD分离 大规模EP等前沿技术 [3] - 支持离线批处理最大化GPU利用率 线上推理优先保障Token生成速度的差异化部署策略 [4] 并行部署技术挑战 - 专家并行实现中面临通讯与Prefill/Decode传输KV缓存的时间重叠问题 [4] - 网卡资源争抢 CPU负载过大 Python GIL锁释放不及时等工程挑战突出 [4] 社区生态建设 - 开源模式吸引广泛参与 技术分享增强社区认同感 [5] - 超过100k显卡规模的工业部署经验反哺技术演进 [5] 关键技术解析 - PD分离使Decode延迟均匀稳定 允许采用不同并行策略提升资源利用率 [6] - 推测解码通过隐藏层信息一次预测多个Token 显著提升Decode速度 [6] - KV缓存落盘将历史上下文存储至大容量设备 避免重复Prefill计算 [6] 部署实践洞察 - 参数配置调试是影响上线效率的关键环节 需精细化优化而非依赖"开箱即用" [7] - 模型规模持续扩大背景下 多GPU与高效并行策略是实现高性价比部署的必经之路 [7] 行业活动预告 - AICon全球人工智能开发与应用大会将深入解析大模型推理关键技术 [2][7] - 聚焦AI Agent构建 多模态应用 大模型推理优化等前沿议题 [7]
一文了解DeepSeek和OpenAI:企业家为什么需要认知型创新?
搜狐财经· 2025-06-10 20:49
AI技术创新路径 - OpenAI创立初心为反巨头霸权 通过开源普惠AI技术对抗科技巨头垄断 2015年由马斯克和奥特曼创立并挖角谷歌核心科学家伊利亚[4][7] - 大语言模型革命依赖Transformer架构和Scaling Law 前者实现并行数据处理 后者揭示模型性能与规模呈线性关系[8][11] - GPT系列模型通过"涌现"现象突破 当参数量达临界点时自发产生新能力 实现从工具到智能助手的转变[12] - ChatGPT引发人机交互范式变革 自然语言交互降低使用门槛 2022年末推出后成为全球现象级产品[13][14] - 推理模型o1实现认知跃迁 从直觉思维(系统1)升级至逻辑推理(系统2) 具备多步推理和自我纠正能力[16][17] DeepSeek差异化战略 - 采用"有限Scaling Law"战略 在资源受限下通过数据筛选和算法优化实现低成本高性能 训练成本仅5557万美元[18][22] - 创新MLA+MoE架构 MLA优化内存效率 MoE实现专家网络动态激活 结合华为昇腾平台实现软硬协同优化[20][21] - R1模型实现纯强化学习突破 复现OpenAI o1能力并开源 展示完整推理过程 2025年1月发布后登顶美国应用榜[23][24][25] - 组织模式激发"涌现"创新 采用动态团队和自组织管理 研究员可自由调用GPU资源 产生MLA架构等突破性成果[27][28][29] 行业格局影响 - DeepSeek打破中国创新者"思想钢印" 证明中国企业可引领基础研究 而非仅做技术应用[35][36][37] - R1模型引发行业震动 微软CEO公开提及导致英伟达市值单日下跌17% 标志中美成为AI技术两极[25][26] - AI Lab范式重构研发体系 开放协作和资源共享取代传统金字塔管理 适应不确定性创新需求[30][32][33] - 认知型创新推动产业升级 从商业驱动转向基础研究 需要长期投入和突破思维定式[38][39][40]
一文了解DeepSeek和OpenAI:企业家为什么需要认知型创新?
混沌学园· 2025-06-10 19:07
核心观点 - AI技术正在重新定义商业创新模式,企业需转变思路以保持竞争力 [1][2] - OpenAI和DeepSeek分别通过不同路径实现AI技术突破,为行业提供创新范式 [3][4] - AI能力的"涌现"现象成为技术跃迁的关键特征 [19][20][21] - 人机交互范式因ChatGPT发生根本性变革 [22][23][24] - 中国公司DeepSeek打破"美国原创、中国应用"的思维定式,展现基础研究实力 [75][77][78] OpenAI的创新路径 创立背景 - 2015年由马斯克和奥特曼创立,初衷是防止AI技术被巨头垄断 [9] - 从谷歌挖来核心科学家伊利亚·苏茨克维尔,坚持开源、安全、普惠理念 [10][12] 技术突破 - 基于Transformer架构的"自注意力机制"大幅提升语言理解能力 [13] - Scaling Law揭示模型规模与性能的线性关系,指导大规模投入 [15][16] - GPT系列模型通过"涌现"现象实现能力跃升,参数量临界点触发智能爆发 [19][20] 产品里程碑 - ChatGPT通过自然语言交互降低使用门槛,引发全球现象级应用 [22][23] - 推理模型o1实现从直觉思维(系统1)到理性推理(系统2)的认知跃迁 [26][30] DeepSeek的逆袭战略 技术路线 - 提出"有限Scaling Law",在资源受限下追求高性能 [32][33] - MLA技术优化内存效率,MoE架构实现计算资源动态分配 [38][39][42] - V3模型6710亿参数仅激活37亿,训练成本5557万美元(行业1/10) [44] 核心突破 - R1模型采用纯强化学习(类似AlphaGo Zero),展示完整推理过程 [45][47][49] - 在奥数竞赛中与OpenAI o1准确率相当,登顶美国应用榜单 [50][51] 组织创新 - 动态团队构成和自组织管理激发"涌现"式创新 [55][56][57] - 研究员自主提出MLA架构和训练公式,体现扁平化协作 [59][60] - 150人论文署名包含数据标注员,打破传统KPI束缚 [61][62] 行业启示 技术趋势 - AI从专用工具向通用智能演进,"涌现"成为能力突破关键指标 [20][21] - 对话式交互(ChatGPT)和推理能力(o1/R1)定义下一代AI标准 [23][26][45] 创新生态 - 中国公司首次在基础研究领域实现全球领先,打破技术跟随惯性 [75][77] - 资源效率(DeepSeek)与规模投入(OpenAI)并存,拓宽行业可能性 [32][44] 组织变革 - 传统金字塔管理让位于开放协作和资源自由调配的新型研发模式 [55][63][68] - "非标准人才"和纯粹技术热情成为创新核心驱动力 [66][67]