DeepSeek V3
搜索文档
AI大模型分野:从技术狂热到商业价值回归
新浪财经· 2025-12-25 20:40
当年初DeepSeek一夜爆红,打破原有大模型市场的格局,这一年就注定不平凡。2025年的中国大模型市场经历了 一场深刻的"价值回归",技术突破的边际效应减弱,一场围绕真实需求、可持续商业模式与产业深度的"生存进 化"全面展开。"2025年是全球化AI应用的创业之年。"顺福资本创始人、行行AI董事长李明顺总结道。 在此背景下,国内"AI六小虎"加剧赛道分化,零一万物和百川智能放弃超大模型训练,在更加务实的商业化应用 赛道越走越远,阶跃星辰将智能终端Agent作为⼤模型技术落地的关键发⼒点,在终端Agent领域取得突破,月之 暗面开始重视商业化,任命曾经的投资人为总裁,智谱和MiniMax则作为商业化的佼佼者率先成功闯关二级市 场。 DeepSeek的"起伏" 2025年初,一场由东方掀起的AI浪潮席卷全球应用市场。1月27日,来自中国的人工智能公司DeepSeek一举登顶 美国苹果商店免费应用下载榜首,将长期盘踞头部的ChatGPT暂时拉下王座,之后又迅速演变为一场全球性的现 象级传播——DeepSeek的名字随之刷屏各国社交网络,成为开年最受瞩目的科技焦点。 热度并未止步于年初的榜单登顶。整个上半年,Dee ...
AI大模型分野:从技术狂热到商业价值回归|2025中国经济年报
华夏时报· 2025-12-25 16:16
文/石飞月 当年初DeepSeek一夜爆红,打破原有大模型市场的格局,这一年就注定不平凡。2025年的中国大模型 市场经历了一场深刻的"价值回归",技术突破的边际效应减弱,一场围绕真实需求、可持续商业模式与 产业深度的"生存进化"全面展开。"2025年是全球化AI应用的创业之年。"顺福资本创始人、行行AI董事 长李明顺总结道。 在此背景下,国内"AI六小虎"加剧赛道分化,零一万物和百川智能放弃超大模型训练,在更加务实的商 业化应用赛道越走越远,阶跃星辰将智能终端Agent作为⼤模型技术落地的关键发⼒点,在终端Agent领 域取得突破,月之暗面开始重视商业化,任命曾经的投资人为总裁,智谱和MiniMax则作为商业化的佼 佼者率先成功闯关二级市场。 DeepSeek的"起伏" 2025年初,一场由东方掀起的AI浪潮席卷全球应用市场。1月27日,来自中国的人工智能公司DeepSeek 一举登顶美国苹果商店免费应用下载榜首,将长期盘踞头部的ChatGPT暂时拉下王座,之后又迅速演变 为一场全球性的现象级传播——DeepSeek的名字随之刷屏各国社交网络,成为开年最受瞩目的科技焦 点。 热度并未止步于年初的榜单登顶。整 ...
Mamba作者团队提出SonicMoE:一个Token舍入,让MoE训练速度提升近2倍
机器之心· 2025-12-19 14:38
混合专家模型架构发展趋势 - 混合专家模型已成为实现语言模型规模化扩展的事实标准架构,其核心优势在于不显著增加计算成本[1] - 近期MoE模型呈现出高专家粒度和高稀疏性的明显趋势,即采用更小的专家中间层维度和在专家总数增加时保持激活专家数不变,这提升了单位FLOPs的模型质量[1] - 这一趋势在近期开源模型中表现突出,例如DeepSeek V3、Kimi K2以及Qwen3 MoE等,它们通过更细粒度设计和更高稀疏度,在保持激活参数量不变的同时大幅增加了总参数量[1] 代表性MoE模型参数对比 - 模型参数规模与稀疏度持续提升,例如Kimi K2总参数量达1.04万亿,专家激活比例仅为2.08%[2] - 专家粒度指标持续提高,例如Owen3-Next-80B-A3B-Instruct的专家粒度达到4.00[2] - 近期模型如DeepSeek-V3.2-Exp总参数量达6850亿,专家激活比例保持在3.13%[2] 细粒度MoE架构的硬件效率挑战 - 细粒度MoE设计导致严重的硬件效率下降问题,包括内存墙瓶颈、IO瓶颈和计算浪费[3] - 激活内存占用量随激活专家数量线性增长,导致前向和反向传播中内存压力剧增[4] - 由于专家更小更分散,算术强度显著降低,IO访问变得动态频繁,模型训练进入内存受限区间[4] - 高稀疏性场景下,Grouped GEMM内核中的Tile量化效应导致输入数据需填充以对齐硬件Tile大小,直接造成计算资源浪费[4] SonicMoE系统性解决方案 - 普林斯顿大学团队提出名为SonicMoE的系统性解决方案,专为NVIDIA Hopper和Blackwell架构GPU定制[3] - 核心贡献包括内存高效算法、计算与IO重叠技术以及Token舍入路由策略[3] - 在细粒度7B MoE模型测试中,前向传播相比高度优化的DeepGEMM基线速度提升43%[3] - 反向传播相比最先进的ScatterMoE和MoMoE基线,速度分别提升83%和115%[3] - 端到端训练仅依靠内核优化即可将训练吞吐量提升50%,配合Token舍入路由在扩展专家数量时可进一步获得16%的额外吞吐量提升[3] SonicMoE关键技术细节 - 内存高效算法通过重新设计MoE计算图,在计算路由梯度时不缓存激活值,对于细粒度7B MoE模型每层激活内存占用减少45%[4] - 随着专家粒度增加,其内存占用保持恒定,效率比现有基线高出0.20-1.59倍[4] - 利用Hopper架构GPU的WGMMA指令与生产者-消费者异步范式,设计新型GPU内核,将GEMM计算与从HBM加载数据的IO操作并行执行[4] - Token舍入策略将分发给每个专家的Token数量四舍五入为Grouped GEMM Tile大小的倍数,有效减少因填充导致的算力浪费[4] SonicMoE性能表现 - 仅使用64台H100运行SonicMoE,实现了每日2130亿token的训练吞吐量,与使用96台H100运行ScatterMoE的效率相媲美[6] - 在高稀疏性场景下,Tile感知的Token舍入算法在验证不损失下游任务精度的同时,显著提升了内核执行速度[6] - SonicMoE的前向计算吞吐量平均达到理论上限的88%,最高91%,最低86%[7] - 尽管采用高度模块化设计,SonicMoE仍展现出业界领先的训练吞吐量和最低的激活内存使用量[15] SonicMoE系统架构特点 - SonicMoE中的MoE计算启动8个内核,包括前向传播的up-proj、down-proj和专家聚合内核,以及反向传播的激活梯度内核[11] - 系统提供高效的基于Tensor Core的top-K路由,以及与任意路由逻辑兼容的接口[13] - 实现具有高度模块化特性,仅由经过优化的分组GEMM内核和专家聚合内核两部分组成[14][22] - 通过融合减少IO访问,将IO延迟与计算重叠,利用cp.async指令从HBM gather激活值[23] Token舍入路由算法 - 为消除稀疏MoE训练中因填充产生的GEMM tile计算浪费,提出路由方法token rounding[21] - 算法首先计算基础的TC路由结果,对每个expert对应的token按路由分数排序,在第二步排序中选择丢弃或补齐token[24] - 对路由权重矩阵进行处理,使得TC选中的token始终优先于EC token,确保丢弃或填充只影响每个expert的最后一个输入tile[25] - 实验表明该方法在实现更高训练吞吐量的同时,不会影响模型质量[26]
China narrows AI gap with US 3 years after initial ChatGPT shock
Yahoo Finance· 2025-12-13 17:30
全球开源大模型使用激增的驱动因素 - 今年全球开源大语言模型使用量激增 主要归因于中国开发系统的采用度不断提高 包括阿里巴巴云的Qwen系列模型、深度求索的V3以及月之暗面的Kimi K2 [1] 中国AI行业发展的关键转折点 - 中国AI行业的转折点出现在2024年12月和2025年1月 深度求索相继发布V3和R1模型 其性能与当时OpenAI的GPT和Meta的Llama模型相当 但训练成本仅为这些美国公司的一小部分 [6] - 中美AI差距已从一年以上缩短至约三个月 这得益于AI人才涌入、技术快速迭代以及中国大陆AI应用蓬勃发展 [8] - 尽管面临地缘政治问题导致的高端处理器短缺 但中国AI技术的发展并未受到阻碍 这显示出中国云服务提供商的前瞻性 它们已为训练目的积累了足够的AI芯片 [8][9] 中国AI战略与路线的演变 - ChatGPT发布初期 中国曾认为维持AI服务的“围墙花园”策略是最佳选择 直到国内科技公司能开发出与西方AI提供商有效竞争的产品 [3] - 中国科技巨头和初创公司争相推出自己的AI聊天机器人和大语言模型 并完成政府备案 旨在将美国AI服务挡在中国超过10亿互联网用户之外 [4] - 华为创始人任正非指出 美国与中国正朝着“不同方向”追求AI发展 美国专注于超级计算能力和大模型以追求通用人工智能和超级智能 而中国则采用更务实的方法 利用AI解决现实世界问题 [10][11] - 中国在2017年将AI定为国家重点 计划到2030年成为AI超级大国 其驱动力源于当时的主流观点 即中国庞大的数据宝藏将有助于推动经济和产业转型 [12] 中国AI企业格局与竞争动态 - 早期涌现的“AI四小龙”(商汤、旷视、依图、云从)在计算机视觉和面部识别技术领域处于世界领先地位 [13] - 2024年 随着月之暗面、百川智能、MiniMax、智谱AI等新一代“AI四小龙”的出现 市场重燃乐观情绪 这些公司均获得了投资者的巨额融资 [16] - 深度求索和阿里巴巴云Qwen的开源发展方式 鼓励了中国AI初创公司在无法获得英伟达和AMD高端GPU的情况下 继续追求创新 [16] - 深度求索的成功并未保证其他AI初创公司一帆风顺 百川智能与零一万物已退出AI模型市场 因为它们不再想为用户访问其性能较差的产品收费 [18] - 2025年7月 月之暗面发布Kimi K2模型 随后智谱AI发布GLM-4.5模型 其编码能力给程序员留下深刻印象 10月又发布了编码能力更强的旗舰模型GLM-4.6 [19] - MiniMax于2025年6月转向开源 发布M1模型 10月发布M2模型 使其作为前沿开源模型公司受到国际关注 [21] - 风险投资人士认为 中国生态系统现已形成模型公司争夺主导权的竞争格局 社交媒体平台红笔记、按需配送巨头美团以及智能手机和电动汽车制造商小米等相邻行业公司也开始寻求创建自己的开源模型 [22] 开源模式的兴起与影响 - 百度联合创始人兼CEO李彦宏在2025年2月表示 从深度求索学到的一点是 开源最好的模型可以极大地帮助采用 这与他此前认为开源模型不如专有模型的评论形成鲜明对比 [7] - 中国AI专家指出 开源是挑战者的工具 封闭的AI系统如同专有软件 提供商控制访问权 而开源模型开发者公开其模型权重 允许用户根据需求部署和微调 [17] - 阿里巴巴云对其Qwen系列采取的策略 是所有中国AI实验室中最接近美国科技巨头的 该公司发布了涵盖从视觉、编码到图像和视频生成模型的多种尺寸的开源模型 [23] - AI研究人员认为 阿里巴巴云的Qwen3系列模型和深度求索的R1是今年最值得注意的开源模型发布 因其强大的性能和拥有多种尺寸的实用性 [24] - OpenAI和Anthropic均公开指责从深度求索到智谱AI等中国AI公司存在安全风险 这从侧面表明中国AI公司在过去三年取得了巨大进步 [24] 行业观点与未来展望 - 在ChatGPT发布一年多后 风险投资人朱啸虎曾表示对投资中国构建大语言模型的初创公司没有兴趣 因其缺乏清晰的盈利路径和支撑业务繁荣的数据 [2] - 网络安全公司360创始人周鸿祎在2023年曾表示 中国在开发类ChatGPT技术方面落后美国两到三年 [15] - 智谱AI全球运营负责人表示 从深度求索R1发布到GLM 4.5发布之间等待了太久 公司价值被低估 尤其是在中国 而在美国则被完全忽视 [20] - 美国特朗普政府于2025年6月宣布一项AI行动计划 强调在全球扩散美国AI技术 部分原因是为应对中国在开源领域的主导地位 [25] - 华为任正非指出 中国AI工程师不再羡慕国外同行 但中国在吸引全球人才方面仍落后于美国 这需要大陆更加开放 [25] - 风险投资人朱啸虎近期表示 中国有望在十年内在AI领域击败美国 主要因为中国大陆在电网和数据中心基础设施的建设速度更快 [26] - 朱啸虎认为 AI竞争实质上是数据中心和电力供应的竞争 而中国在这方面具有显著优势 [27]
China's open-source models make up 30% of global AI usage, led by Qwen and DeepSeek
Yahoo Finance· 2025-12-08 17:30
全球AI模型使用格局 - 全球AI模型使用中,开源模型占比近30%,其中中国开发的开源模型贡献了主要增长动力 [1] - 西方专有模型(如OpenAI的GPT-4o和GPT-5)在全球市场中仍占据主导地位,份额为70% [3] 中国开源AI模型的增长与表现 - 中国开源大语言模型的全球份额从2024年底的1.2%的低基数起步,在2025年的几个月内增长至近30% [4] - 2025年以来,中国开源大语言模型平均每周处理令牌量占比达到13%,在下半年增长加速,几乎与世界其他地区AI模型13.7%的平均占比持平 [5] - 报告指出,中国开源AI模型的崛起不仅反映了其具有竞争力的质量,也体现了快速的迭代和密集的发布周期 [7] 主要中国AI模型与公司 - 中国开发的开源大语言模型推动了全球使用量的激增,代表性系统包括阿里巴巴集团的Qwen系列模型、深度求索的DeepSeek V3以及月之暗面的Kimi K2 [2] - 阿里巴巴云(阿里巴巴集团的AI与云计算服务部门)的Qwen和深度求索的DeepSeek积极的发布计划使用户能够快速适应不断增长的发展工作量 [8] 中国在AI领域的地位与影响 - 报告认为,中国已成为一股主要力量,不仅通过国内消费,还通过产出具有全球竞争力的模型 [6] - 报告提供了新的证据,表明尽管美国限制中国企业获取英伟达和AMD等公司的高级图形处理器,中国在AI模型开发领域已成为美国的紧密同行 [6]
DeepSeek V3到V3.2的进化之路,一文看全
机器之心· 2025-12-08 12:27
DeepSeek模型系列技术演进 - 公司于2024年12月发布DeepSeek V3基础模型,随后推出基于相同架构的专用推理模型DeepSeek R1,使其成为最受欢迎的开放权重模型之一,成为OpenAI、Google、xAI和Anthropic等公司专有模型的有力替代方案[11] - 从DeepSeek V3到V3.2的演进过程中,公司模型策略从专用推理模型转向混合模型,V3.1和V3.2均为兼具通用聊天和推理能力的混合模型,而R1可能更多是作为研究项目或测试平台[25] - 公司于2025年9月发布实验性模型DeepSeek V3.2-Exp,旨在为更大规模的发布准备生态系统和推理基础设施,该模型引入了非标准的稀疏注意力变体,需要定制代码[17][18] - 2025年12月1日,公司发布新旗舰模型DeepSeek V3.2和DeepSeek V3.2-Speciale,与当前专有旗舰模型相比表现非常出色[5][103] 核心架构创新:注意力机制与效率提升 - DeepSeek V3基础模型采用了混合专家模型和多头潜在注意力架构,MLA通过在将键和值张量存储到KV缓存前将其压缩到低维空间来节省内存,虽然增加了一次额外的矩阵乘法,但显著减少了内存使用[29][31][32] - DeepSeek V3.2-Exp及V3.2的主要架构创新是DeepSeek稀疏注意力,该机制由Lightning Indexer和Token选择器组成,基于学习到的相关性分数选择性地关注部分过去的Token,而非所有Token或固定局部窗口[49][50][54][58][59] - DSA将注意力机制的计算复杂度从二次的O(L²)降低到了线性的O(Lk),其中L是序列长度,k是选定Token的数量,在减少性能衰减的同时实现了效率提升[66][67][68] - DeepSeek V3.2使用了与DeepSeek V3.2-Exp完全相同的架构,集成了MLA和DSA机制,主要动机是提高整体模型性能的同时,将计算效率视为巨大驱动因素[107][110] 训练方法演进:从RLVR到自我验证 - DeepSeek R1专注于“带可验证奖励的强化学习”方法以提高推理能力,其核心思想是让模型从可以进行符号化或编程验证的响应中学习,例如数学和代码[37][38] - RLVR流程使用了GRPO算法,这是“近端策略优化”算法的一个简化变体,GRPO取消了评论家模型,而带GRPO的RLVR进一步移除了奖励模型,转而依赖来自符号工具的可验证奖励[40][42] - 为改善常规RLVR的缺点,公司在DeepSeekMath V2中引入了自我验证与自我修正技术,开发了基于LLM的验证器和元验证器来对证明生成器的输出进行评分和检查,使验证器证明分析的平均质量得分从0.85提高到了0.96[76][77][83][86][89][90] - 在推理期间,公司使用单一模型同时执行证明生成和验证,这比运行第二个LLM进行证明验证增加了更少的复杂性和计算需求,通过多达8次的自我修正迭代,模型的准确性得到提高且尚未饱和[98][99][102] DeepSeek V3.2的具体训练改进 - DeepSeek V3.2采用了类似于DeepSeek R1的RLVR程序,但更新了奖励机制,对于推理和智能体任务采用基于规则的结果奖励、长度惩罚和语言一致性奖励,对于通用任务则采用生成式奖励模型[115][116] - 对于数学领域,公司整合了来自DeepSeekMath-V2的数据集和奖励方法[117] - 在GRPO算法本身,公司进行了一系列稳定性更新,包括:零梯度信号过滤、主动采样、Token级损失、无KL损失、更高裁剪阈值、截断重要性采样、无标准差归一化、特定领域的KL强度、无偏KL估计、异策略序列掩码、保留MoE模型的路由、保留top-p/top-k的采样掩码以及保留原始GRPO优势归一化[119][120][122] - DeepSeek V3.2-Speciale是V3.2的扩展思维变体,其在RL阶段仅在推理数据上进行训练,并减少了长度惩罚以允许模型输出更长的响应,这种推理扩展形式以生成长度增加为代价获得更好的结果[123][124] 模型性能表现 - DeepSeek V3.2在多项基准测试中与专有旗舰模型相比表现非常出色,在数学基准测试中获得了金牌级的表现,同时在训练时也考虑到了工具的使用,在其他任务上也表现良好[103][107] - 扩展思维变体DeepSeek V3.2-Speciale在多个基准测试中实现了更高的准确性,例如在AIME 2025基准上达到96.0,在HMMT Feb 2025基准上达到99.2,但同时也生成了更多的Token[127]
估值低,仓位轻!摩根大通上调中国股市评级,看好AI应用加速和反内卷
华尔街见闻· 2025-12-03 11:27
评级与核心观点 - 摩根大通将中国股市评级从"中性"上调至"增持",认为市场处于复苏早期阶段[1] - 市场回调后提供了"有吸引力的切入点",2026年大幅上涨风险远高于大幅下跌风险[1] - 基本情景预测MSCI中国指数2026年底目标为100点,较当前有19%上涨空间,牛市情景目标120点,熊市情景80点[1] 估值与仓位分析 - 中国股市估值处于后全球金融危机时期的平均水平,显著低于美国、印度、台湾等处于或接近历史高位的主要市场[3] - 全球主动型基金对中国股票配置仍处于严重不足的低配状态,潜在资金流入空间巨大[6] 人工智能与科技创新 - 2025年是中国生成式AI应用的"拐点",以DeepSeek V3和R3大语言模型发布为标志[7] - 中国在AI领域具备"整体性方法"优势,涵盖电力生产、开源模型、本土应用及半导体和数据中心开发[7] - 阿里巴巴规划530亿美元AI/云资本支出计划,百度、腾讯和快手等公司将AI深度融入运营[9] - 第十五个五年计划聚焦科技自立和先进制造业,重点关注机器人、生物技术和半导体[9] 企业盈利与政策环境 - "反内卷"政策旨在抑制破坏性价格竞争、减少过剩产能和恢复盈利能力,覆盖钢铁、煤炭及太阳能、电池、电子商务等领域[7] - 该政策对行业领先企业的公司利润和收益具有积极影响[8] - 香港上市中国股票及ADR回购活动自2024年以来显著增加,公司股息支付力度加大反映治理水平和财务状况改善[11] 流动性配置趋势 - 2025年第三季度出现四年来首次资金流动转变,散户股票参与度和流入共同基金资金有所回升[11] - 中国家庭资产负债表中现金和存款占比极高,2024年现金占比1.5%,存款占比28.6%,而股票占比仅8.0%,显示向权益类资产转移潜力巨大[11][13]
谁在为美国买单?
观察者网· 2025-11-18 09:04
美国AI投资的资金来源与规模 - 全球数据中心资本支出预计到2028年将达3万亿美元,科技巨头现金流仅能覆盖一半,存在1.5万亿美元的融资鸿沟[1] - 2024年全球AI私人投资创纪录,美国独占1091亿美元,是中国的近12倍[3] - 风险投资市场活跃,2025年美国有33家AI初创公司融资超1亿美元,全球VC资金50%以上流向AI,其中美国占比超75%[3] - 债券市场是主力融资工具,2025年前10个月美国投资级企业债券发行额占公司债券市场三分之二,总额超2万亿美元,预计明年高等级债券市场将吸收3000亿美元的AI数据中心融资[4] - 寿险公司是关键买家,2025年美国年金销售达3450亿美元,成为信用市场最大边际买家,推动信用利差至1990年代以来最低水平[4] - 联邦政府2025财年投入33亿美元用于非国防AI研发,同时亚马逊、Alphabet、微软和Meta等公司计划在2025财年总计投资3640亿美元用于数据中心和AI基础设施[4] - 2025年上半年AI相关资本支出占美国GDP增长的1.1%,超过消费驱动[4] 美国AI投资的驱动因素与生态优势 - 全球AI私人投资的75%流向美国,自2022年ChatGPT推出以来,AI相关股票贡献了标普500指数75%的回报和80%的盈利增长[5] - 美国拥有全球最活跃的VC网络、顶尖大学和相对宽松的监管,孕育了OpenAI等创新者,联邦政策如出口管制进一步巩固优势[5] - 微软等公司视AI为万亿美元机会,愿意支付更高利息换取先机[5] 美国AI投资面临的风险与挑战 - 当前巨额投资显现泡沫迹象,企业AI试点项目失败率高达95%,若实际生产力提升滞后于预期,泡沫破裂风险将急剧放大[6] - 科技七巨头市值占S&P 500的三分之一,一旦崩盘可能引发系统性金融危机,波及养老金、债券市场乃至全球经济[6] - 监管合规成本快速攀升,各州AI法规形成碎片化格局,纽约州金融AI规则预计使华尔街机构年成本上升15%-25%,初创公司开发周期从数周延长至半年[7] 全球AI竞争格局与美国领先地位 - 2024年美国产生40个有影响力的AI模型,中国产生15个,欧洲只有3个[9] - 从2013年到2024年,美国人工智能民间投资累计超4700亿美元,而欧盟国家约为500亿美元,英国为280亿美元[9] - 美国在人工智能超级计算机的累积容量中占据主导地位,控制全球74%的高端AI计算,中国占14%,欧盟占4.8%[11] - 截至2024年,美国拥有4049个数据中心,远超欧盟的2250个和中国的379个,2024年美国数据中心容量增加5.8吉瓦,欧盟为1.6吉瓦[11] - 美国服务器基数为每千人99.9台,远超其他发达经济体和中国[11] 中国的AI竞争策略与优势 - 2024年中国民间AI投资仅为美国的1/12,但通过国家主导的新型举国体制展现韧性[13] - 中国竞争策略聚焦应用导向,目标到2027年实现AI广泛应用,到2030年将AI整合进90%经济体[13] - 中国凭借规模经济和本土芯片降低AI部署成本,每年STEM博士产出远超美国[13] - 在全球布局上,中国有机会输出AI能力到一带一路、全球南方国家[13] - DeepSeek通过成本创新颠覆商业范式,其推理成本为每百万token 0.14美元,是OpenAI GPT-4o的1/35[14] 能源基础设施对比 - 中国发电容量约为3200吉瓦,美国为1293吉瓦,欧盟为1125吉瓦,2024年中国增加429吉瓦净发电容量,是美国净新增容量的15倍多[11] - 国际能源署预计到2030年全球数据中心电力消耗将增加一倍以上,美国和中国占增长的80%[11]
梁文锋代表DeepSeek,他代表梁文锋
量子位· 2025-11-15 10:08
杭州六小龙与DeepSeek亮相 - 浙江乌镇世界互联网大会上,“杭州六小龙”首次同台亮相,包括宇树科技、强脑科技、群核科技、游戏科学、云深处科技及DeepSeek的代表[1] - 除DeepSeek外,其他五家公司的代表均为创始人或CEO,头衔显示在嘉宾介绍中[42][44] - DeepSeek创始人及CEO梁文锋未出席,由研究员陈德里代表公司及梁文锋本人参会[3][4][6] DeepSeek研究员陈德里的观点 - 陈德里对AI短期(未来三到五年)持乐观态度,认为AI的进步将极大地帮助人类,处于“蜜月期”[8] - 对AI长期(十年以后)发展表示担忧,认为AI可能取代绝大多数工作,且不再像以往技术革命那样创造新岗位,对社会秩序和经济结构造成巨大冲击[9][12] - 强调此轮AI革命与前两次工业革命有本质区别,AI是首个具备自主“智慧”甚至在某些方面超越人类的技术,正在改写人类与技术的关系格局[10][11] - 指出长期来看AI可能对社会产生负面影响,届时需要科技公司扮演“守护者”的角色[13] 陈德里的背景与角色 - 陈德里于2023年加入DeepSeek担任研究员,主要负责语言模型、对齐机制、训练策略及模型泛化能力等核心方向[18] - 在DeepSeek发布的多项重要研究成果(如V2、V3、R1)中均有贡献,其名字出现在相关论文作者列表中[19] - 根据谷歌学术,其被引次数已超过1.3万次,且在2025年增长尤为明显[20] - 本科与研究生均就读于北京大学,主修信息管理与信息系统及EECS,拥有量化研究(瑞穗证券实习)和AI研究(腾讯微信AI团队实习)复合背景[31][32][33][34][35] - 曾作为第一作者发表关于图神经网络(GNN)的论文,该论文引用次数已超过1500次[36][37][38] - 此次亮相使其成为继梁文锋之后,DeepSeek在公开场合的第二个“代言人”,更被视作“梁文锋代言人”[41][42] DeepSeek的技术进展与公开活动 - 2024年是DeepSeek正式入局大语言模型的关键一年,团队在一年内完成了从V1到V3的三次大版本迭代[22] - 在英伟达GTC2024大会上,DeepSeek连续第三次受邀登台,陈德里首次以“幻方AI兼DeepSeek研究员”身份亮相并发表演讲[23] - 陈德里在GTC2024演讲中提出了“价值观对齐解耦化”的新思路,主张将AI对齐拆分为必须统一的“核心价值观”和可定制的“多元价值观”,以实现“和而不同”[24][25][26] - 此次GTC演讲成为DeepSeek在该舞台的“绝唱”,公司未出席2025年大会,陈德里也在近两年内未再公开露面[27][28][29][30]
Kimi杨植麟称“训练成本很难量化”,仍将坚持开源策略
第一财经· 2025-11-11 20:04
公司战略与产品发布 - 月之暗面Kimi公司近半年持续投入开源模型研发与更新,并于11月6日发布最新开源思考模型Kimi K2 Thinking [3][6] - 公司未来很长一段时间内将坚持开源策略,重点推进Kimi K2 Thinking模型的应用与优化 [6][8] - 公司在优先发展文本模型的前提下兼顾多模态模型推进,避开与OpenAI等头部厂商在AI浏览器等具体赛道的直接竞争 [8] - 公司尝试通过架构创新、开源策略与成本控制建立差异化优势 [8] 模型训练成本与性能 - 有消息称Kimi K2 Thinking模型的训练成本为460万美元,低于DeepSeek V3模型的560万美元和OpenAI GPT-3的数十亿美元 [3][6] - 公司CEO杨植麟回应称460万美元并非官方数字,由于大部分投入花在研究与实验上,训练成本很难量化 [4][6] - 针对模型推理长度过长、榜单成绩与实际体验不符的质疑,公司表示现阶段优先考虑绝对性能,token效率将在后续改善 [4][7] - 榜单高分与实测的脱节问题预计在模型通用能力补齐后被逐渐消解 [4][7] 行业竞争与市场表现 - 最新一周OpenRouter模型调用榜单前二十名中,中国开源模型产品占据五席,包括MiniMax M2、DeepSeek V3、GLM4.6、DeepSeek V3.1、DeepSeek V3.2 Exp [4][7] - Kimi模型因OpenRouter平台接口问题,目前只能以API形式被使用 [4][7] 技术资源与基础设施 - 公司团队使用携带InfiniBand网络互连技术的H800 GPU芯片支持持续的模型更新与庞大训练量 [4][7] - 公司承认所使用的GPU性能比不上美国的高端卡,数量也处于劣势,但强调每张卡都被用到了极致 [4][7]