DeepSeek V3
搜索文档
核心AI场景首超英伟达,一场国产算力的“破局叙事”|甲子光年
新浪财经· 2026-01-29 20:12
公司技术路线与架构突破 - 公司于2025年推出的天数天枢架构,在DeepSeek V3大模型场景下,实测性能领先英伟达Hopper约20%,成为首个实现对国际主流架构实质性超越的国产方案[4][32] - 公司公布了清晰的四代架构路线图,计划在2025至2027年间实现对英伟达Hopper、Blackwell乃至Rubin架构的超越,标志着国产算力从“对标追赶”转向“自主定义”[2][30][34][35] - 2025年落地的天数天枢架构在执行注意力机制计算时,算力实际有效利用率突破90%[5][35] - 2026年将开启“双线超越”,天璇架构对标Blackwell并新增ixFP4精度支持,天玑架构实现全面性能超越并覆盖AI计算到加速计算的全场景[7][37] - 2027年的天权架构将剑指英伟达Rubin,后续将彻底跳出对标框架,转向突破性计算芯片架构设计[8][38] - 公司技术突破由三大核心创新底层赋能:TPC BroadCast(计算组广播机制)、Instruction Co-Exec(多指令并行处理系统)和Dynamic Warp Scheduling(动态线程组调度机制)[10][39] - 公司研发逻辑以问题为导向,针对DeepSeek V3的FP8累加精度不足和矩阵转置开销大等痛点,提供定制化解决方案,在推理场景中带来约10%的性能提升[11][40] 产品性能与市场落地 - 公司产品已服务超300家客户,完成超1000次部署,数千卡集群稳定运行超过1000天[22][33][49] - 公司发布“彤央”系列边端产品,构建覆盖100T至300T实测稠密算力的产品矩阵,标志着其“云+边+端”全场景算力布局成型[18][46] - TY1000算力模组在计算机视觉、自然语言处理、DeepSeek 32B大模型等多个场景中,实测性能优于英伟达AGX Orin,剑指“边端大算力国内第一”地位[21][49] - 在互联网AI领域,公司通过架构优化实现了Token成本减半;在科学探索领域,产品成为多家顶级学府的科研支撑[22][49] - 产品已深入产业场景:在瑞幸咖啡数千家门店处理视频流并支持营销决策;与20个车路云一体化试点城市合作;赋能具身智能机器人[24][51] - 在金融领域将研报生成效率提升70%;在医疗领域将结构化病历生成时间压缩至30秒[24][51] 算力价值主张与软件生态 - 公司提出以高效率、可预期、可持续为核心的高质量算力三维特质,重构算力产业的价值坐标系[12][41] - “高效率”体现为通过全链路优化降低TCO,依托kv cache量化+无损反量化技术将模型推理实际内存使用量降低50%以上[14][43][44] - “可预期性”通过精准的仿真模拟技术实现,让企业在获取芯片前即可预判万卡集群在任意模型下的性能表现,大幅降低试错成本[16][44] - “可持续性”通过通用GPU架构支持全类型数学运算图谱,确保硬件能应对未来算法演进,延长硬件生命周期[16][44] - 公司构建了AI++算力系统新范式,形成从底层AI库、通讯库到上层AI生成式应用、科研探索的全栈支撑能力[18][46] - 软件层面保持与主流编程接口高度兼容,客户仅需投入原计划三分之一的精力即可完成开发调优[25][53] - 公司的天垓系列产品已稳定运行400余种模型及数千种算子,国内新发布大模型在发布当天即可在其平台上跑通[25][53] 行业定位与市场前景 - 公司宣告国产算力正在告别“对标式”的路径依赖,正式驶入自主定义的领航海域[4][32] - 当算力竞争从“量的堆砌”转向“质的较量”,公司证明国产算力不再是实验室备选方案,而是在千亿市场中以现有成果为未来承诺背书[4][33] - 中国通用GPU市场规模已迈入千亿级别,国产化替代需求持续释放,公司凭借技术、产品、生态三重优势站在行业爆发的关键风口[27][55] - 公司采取硬件筑基、软件适配、伙伴协同的三维生态策略,与合作伙伴打通从芯片到系统部署的全产业链,形成完整布局[25][53] - 公司不寻求成为第二个英伟达,而是通过深耕通用算力,确保产品在长达十年的周期内稳定发挥价值,成为具备行业定义能力的长期主义者[25][53]
中国AI“三杰”同日轰炸,召唤百个Agent的门票终于发到每个人手里
观察者网· 2026-01-28 17:37
文章核心观点 - 月之暗面公司发布的Kimi K2.5模型,通过原生多模态和智能体集群等核心能力,将AI从“副驾驶”工具进化为可直接交付生产力的“同事”或“超级个体”,实现了从提供软件(SaaS)到提供服务(Service)的根本性商业范式转移 [8][22][24] 产品与技术能力 - **技术路线图清晰连贯**:K1时代构建超长上下文“记忆”,K2时代通过智能体解决“行动”,K2.5时代通过多模态和集群解决“感知与组织”,最终形成一个能看、能想、能干、能协作的“超级个体” [8] - **硬核基准测试表现卓越**:在SWE-Bench Verified和HLE等测试中,Kimi不仅超越DeepSeek V3位列开源第一,更在多项指标上击败闭源的GPT 5.2和Gemini 3 Pro,实现全球第一 [9] - **原生多模态能力颠覆开发流程**:K2.5的核心升级之一是原生多模态,视觉理解能力与语言、代码能力深度融合,用户仅需提供草图或涂鸦,Kimi即可生成包含完整HTML、CSS和JS的可运行代码,具备“动态理解”和“审美溢价”能力 [11][13][15] - **智能体集群重构组织形式**:K2.5引入的Agent Swarm架构,使主模型能作为“总指挥”自动创建并调度数十个AI分身并行协作,将复杂任务的处理链条大幅坍缩 [17][21] 效率与生产力提升 - **大幅缩短产品开发周期**:传统创意上线流程需数周乃至数月,K2.5将其坍缩为“决策者直连Kimi”的单节点,实现“所见即生成” [14][16] - **智能体集群显著提升效率**:在大规模搜索场景下,与单Agent相比,Agent集群将达成目标所需的最少关键步骤减少3到4.5倍,实际运行时间最高可缩短4.5倍 [19] - **深度集成办公场景提升人效**:K2.5可深度集成进Excel、Word等工作流,将处理万行数据表等需数天的工作量压缩至几分钟,提供强大的“人效杠杆” [20][21] 商业模式与市场影响 - **商业逻辑从“卖铲子”转向“帮你挖井”**:公司瞄准的不是销售软件工具,而是直接提供生产力服务,实现了从软件(Software)到服务(Service)的范式转移 [22] - **通过开源确立标准,通过云端服务盈利**:尽管K2.5开源,但企业自建“数字员工”的算力与运维成本高昂,公司通过极致优化的API服务实现利润,其价值主张极具吸引力 [23] - **市场增长与付费意愿强劲**:2025年下半年,公司全球付费用户数月增速达170%,自11月以来海外大模型API收入增长4倍,证明了开源模型可实现商业闭环且市场愿为“结果”付费 [23] - **切入广阔业务流程外包市场**:公司切入的不仅是软件市场,更是规模超3000亿美元的业务流程外包市场,使AI以“服务交付”形式直接进入劳动力市场 [23] - **估值快速攀升反映市场认可**:公司在12月31日完成5亿美元融资后,不到一个月估值即从43亿美元推升至48亿美元 [22] 行业趋势与未来展望 - **AI从“Copilot”进化为“Coworker”**:AI正在成为一个不可逆的时代洪流,从辅助工具全面进化为可直接协作的“同事” [24] - **重新定义企业核心资产与组织形态**:未来创业可能不再需要庞大团队,而只需足够算力配额;公司的核心资产可能从“人头数”转向“Agent调度能力” [24] - **技术的终极价值在于赋能于人**:技术的价值不在于其本身有多聪明,而在于能让多少人变得更强大,真正被重新定价的是人的想象力边界 [26]
这家国产GPU用七年深蹲,交出一份敢写日期的路线图
是说芯语· 2026-01-28 07:31
公司核心观点与路线图 - 公司于1月26日公布了2025至2027年精确的四代架构路线图,明确列出了超越国际巨头产品的时间点:2025年天枢架构超越英伟达Hopper,2026年天璇架构对标Blackwell、天玑架构超越Blackwell,2027年天权架构超越英伟达Rubin,之后将转向突破性计算芯片架构设计 [3] - 路线图并非空谈,其首代架构“天枢”的性能已在关键场景得到验证,在DeepSeek V3大模型场景下,平均性能已比英伟达Hopper架构高出约20% [5] - 公布路线图被视为公司管理市场预期的行为,而其大胆宣言的底气源于过去七年反常的“保守”与坚持,包括全栈自研和深入客户实战 [18] 技术实力与产品验证 - 公司发布了以自身大量测试为依据的性能白皮书,其天枢架构AI芯片在执行注意力机制计算时,算力实际有效利用效率达到90%,较当前行业平均水平提升60% [8] - 公司新发布了边端产品“彤央系列”,四款产品实测稠密算力覆盖100T到300T,其中入门型号TY1000在计算机视觉、自然语言处理、DeepSeek 32B大模型等多个场景的实测性能已超越行业标杆英伟达AGX Orin [8] - 公司产品支撑的数千卡级计算集群已稳定运行超过1000天,证明了其芯片硬件可靠性、系统软件成熟度及工程支撑体系的实力 [15] 商业化进展与客户价值 - 公司商业化飞轮已转动,拥有超过300家客户和超1000次实战部署,在国产GPU阵营中显著领先 [13] - 公司产品在真实业务中为客户创造了可量化的价值:为太平金科实现万亿资产风控提效;在医院将单份医疗病历结构化时间压至30秒;帮助互联网企业实现单机性能翻倍而Token成本减半 [16] - 客户迁移至公司平台的适配门槛极低,仅需投入原计划1/3的开发调优精力,国内新大模型发布当天即可在其平台上跑通,技术优势能迅速转化为生产力优势 [18] 发展策略与行业定位 - 公司坚持长达七年的全栈自研道路,从架构、核心IP到编译器、驱动,从芯片到系统再到应用,不留盲区,在追逐风口的行业氛围中选择了“笨功夫” [13] - 公司深入金融、医疗、互联网、科研等各行各业“啃硬骨头”,通过解决具体而琐碎的实际问题来积累实战经验 [13] - 公司的发展逻辑已从“技术公司”跑通为“产品公司”,其护城河在于让几百家客户愿意持续使用的综合体验,而非一两个惊艳的参数 [18]
明年超越英伟达Rubin?400亿国产GPU大消息
中国基金报· 2026-01-26 23:20
公司战略与产品路线图 - 公司发布超越英伟达相关产品的四代架构路线图,计划在2025年至2027年间陆续推出多款产品以持续提升计算性能 [2] - 具体路线图规划为:2025年天数天枢架构超越英伟达Hopper架构;2026年天数天璇架构对标Blackwell架构,同年天数天玑架构超越Blackwell架构;2027年天数天权架构超越英伟达Rubin架构;2027年之后将转向突破性计算芯片架构设计 [3] - 四代架构关键细节包括:天数天枢架构支持从高精度科学计算到AI精度计算,在执行注意力机制相关计算时算力实际有效利用效率达到90%以上;天数天璇架构新增ixFP4精度支持;天数天玑架构实现全场景AI与加速计算覆盖;天数天权架构融入更多精度支持与创新设计 [3] 技术性能与市场表现 - 基于相关核心技术创新,公司已实现在DeepSeek V3场景平均比英伟达Hopper架构高约20%的性能 [3] - 公司于2026年1月8日在港股上市,截至1月26日股价以188.2港元/股收盘,当日大跌7.65%,最新市值为478亿港元 [4] 公司治理 - 公司董事会主席盖鲁江同时兼任CEO,于2020年7月加入公司,并于2025年5月调任执行董事,主要负责公司的日常管理及整体策略规划,在此之前拥有约17年财务及投资经验 [3]
2027年超越Rubin:这家国产GPU用七年深蹲,交出一份敢写日期的路线图
36氪· 2026-01-26 19:16
公司核心观点与路线图 - 公司发布了2025至2027年精确的四代GPU架构路线图,明确列出超越英伟达各代架构的时间点:2025年天枢架构超越Hopper,2026年天璇架构对标Blackwell、天玑架构超越Blackwell,2027年天权架构超越Rubin,之后将转向突破性计算芯片架构设计[3][4] - 路线图中最近一代的天枢架构,在DeepSeek V3大模型场景下的平均性能已比英伟达Hopper架构高出约20%,这被视为对未来的“进度汇报”而非预测[6][7] - 公布路线图被视为管理市场预期的行为,其底气源于过去七年坚持全栈自研、深耕客户所积累的“起跳板”厚度[2][18] 技术实力与产品验证 - 公司通过性能白皮书验证其技术可信度,其天枢架构AI芯片在执行注意力机制计算时,算力实际有效利用效率达到90%,较行业平均水平提升60%[9] - 新发布的边端产品“彤央系列”包含四款产品,实测稠密算力覆盖100T到300T,其中入门型号TY1000在计算机视觉、自然语言处理、DeepSeek 32B大模型等多个场景的实测性能已超越英伟达AGX Orin[9] - 公司产品支撑的数千卡级计算集群已稳定运行超过1000天,证明了其芯片硬件可靠性、系统软件成熟度与工程支撑体系的实力[15] 商业化进展与客户价值 - 公司商业化飞轮已转动,拥有超过300家客户和超1000次实战部署,在国产GPU阵营中显著领先[13] - 公司产品在真实业务中创造可量化的价值:为金融客户实现万亿资产风控提效,将单份医疗病历结构化时间压至30秒,帮助互联网企业实现单机性能翻倍而Token成本减半[17] - 客户迁移至其平台的开发调优精力仅需原计划的1/3,国内新大模型发布当天即可在其平台跑通,极低的适配门槛使技术优势能迅速转化为生产力优势[17] 发展路径与行业叙事 - 公司过去七年坚持走全栈自研的“笨功夫”和“难路”,从架构、核心IP到编译器、驱动,从芯片到系统再到应用不留盲区,以此构筑护城河[12][13][18] - 公司的发展路径被概括为从“技术公司”跑通了“产品公司”的逻辑,其护城河在于让数百家客户愿意持续使用的综合体验,而非个别惊艳参数[17] - 公司的“大胆”路线图建立在过往七年“保守”深耕的基础上,其挑战的不仅是国际巨头的技术指标,更是行业浮躁的叙事,体现了芯片行业长期主义者的特质[18]
一个被忽视的Prompt技巧,居然是复制+粘贴。
数字生命卡兹克· 2026-01-22 11:09
文章核心观点 - 一种名为“提示词重复”的简单技巧能显著提升非推理类大语言模型的回答准确率 该方法仅需将用户问题原样复制粘贴一遍 无需添加任何额外指令或解释 根据谷歌论文的实验结果 在70个基准模型组合测试中 该方法在47个组合中胜出 其余23个打平 无一失败 部分任务准确率可从21%飙升至97% [1][5][7][25] - 该技巧主要适用于非推理模型 对已具备思维链能力的推理模型效果有限 其原理在于大模型是因果语言模型 重复问题为模型提供了“回头看”的机会 使其在第二次处理问题时能结合第一次的全部信息进行更准确的表征和判断 [14][28][30][31] - 这一发现挑战了人们对提示词工程复杂化、玄学化的普遍认知 表明对于许多纯粹的问答场景 最简单直接的重复操作可能是最有效的优化手段 其思想可类比人类社会的复述、强调等行为 并可能影响未来模型的训练与推理优化方向 [45][46][48][51][52] 实验设计与方法 - 谷歌的研究测试了七个主流非推理大模型 包括Gemini 2.0 Flash、Flash Lite、GPT-4o、GPT-4o-mini、Claude 3 Haiku、Claude 3.7 Sonnet以及DeepSeek V3 均通过官方API进行测试 [13] - 测试任务涵盖多个常见基准数据集 如ARC、OpenBookQA、GSM8K、MMLU-Pro、MATH等 并包含两个自定义任务:NameIndex和MiddleMatch 用于测试模型在列表索引和中间匹配场景下的表现 [18][19][20] - 实验方法极为简单 仅将原始查询模板从“<查询>”改为“<查询><查询>” 即在原问题后不加任何修饰地直接重复一遍问题本身 然后对比两种方式下模型的回答准确率 [22][23] 实验结果与数据 - 提示词重复方法在70个基准模型组合测试中赢得了47次 其余23次打平 没有一次失败 所有测试模型的性能均得到了改善 [7][25] - 性能提升显著且广泛 在某些任务上 模型的准确率从21.33%大幅提高至97.33% [1][7] - 衍生实验表明 将提示词重复三遍也能带来类似的性能提升效果 [27] 技术原理阐释 - 大语言模型通常采用因果语言模型架构 在生成下一个词时只能看到之前的文本 无法前瞻后续内容 [28][29] - 当问题被重复时 例如从“Q”变为“Q1Q2” 模型在处理第二个问题“Q2”的每个词时 其注意力机制可以“看到”第一个问题“Q1”的全部内容 这相当于为模型提供了一次回顾和重新思考整个问题的机会 [30][31] - 通过一个选择题的例子进行类比说明:第一次阅读选项时 模型缺乏后续的场景信息作为判断依据 而当问题重复后 模型在第二次处理选项时 已经携带了第一次获得的完整场景信息 从而能做出更准确的判断 [34][36][37] 适用性与影响 - 该技巧主要对非推理模型有效 例如DeepSeek V3 而对于像DeepSeek R1这类具备深度思考能力的推理模型效果不明显 因为推理模型在思考过程中已经自发地学会了复述问题这一技巧 [14][40][41] - 非推理模型与推理模型的核心区别在于速度与准确性的权衡 非推理模型响应速度快但准确性相对较低 推理模型准确性高但速度慢 提示词重复技巧可以在不牺牲非推理模型速度的前提下 大幅提升其准确性 因此在许多实际应用场景中具有重要价值 [15][17][18] - 这一发现促使人们重新思考提示词工程的价值 对于许多短问题问答场景 复杂的提示词结构可能并非必要 最简单的重复操作可能带来最显著的收益 [45][50][51] 未来展望与引申思考 - 论文提出了未来的研究方向 包括将提示词重复结构融入模型的预训练或微调流程 优化推理阶段的键值缓存以提升效率 尝试只重复提示词的关键部分 以及探索在多模态输入上的应用等 [52] - 文章将这一技术原理引申至人类行为与社会现象 指出重复是人类社会中普遍存在的强化认知和情感的手段 如复述、强调、朗诵、宣誓等 人工智能世界的规律在某种程度上是高度压缩后的人类世界规律的反映 [55][62][65] - 最终 文章建议在面对复杂问题或混乱情境时 无论是与AI交互还是处理个人事务 重复核心信息以聚焦重点可能是一种简单而有效的策略 [66][67][68]
传DeepSeek曝新模型,梁文锋再放“王炸”?
新浪财经· 2026-01-21 15:55
下一代模型发布预期与线索 - 在R1发布一周年之际,DeepSeek的代码库更新中意外曝光了一个名为“Model1”的新模型,该模型拥有与DeepSeek-V3.2并列的独立文件,可能意味着其未沿用V3系列架构,是一条全新的技术路径[1][6] - 业界推测公司可能在今年春节复刻去年发布R1的“核爆”式发布,主要线索包括:外媒报道称DeepSeek预计将于2月中旬推出下一代人工智能模型V4[3][8],以及2025年底至2026年初公司发表了两篇关键论文为下一代模型扫清技术障碍[5][10] - 根据The Information报道,有DeepSeek员工的内部测试表明,V4在编码任务方面可以胜过Anthropic的Claude和OpenAI的GPT系列等竞争对手[4][9] 近期模型迭代与性能提升 - 自2025年3月以来,公司以“小步快跑”方式持续迭代V3模型,重点优化复杂推理、编程能力和工具调用[3][8] - 2025年3月25日,DeepSeek V3升级为V3-0324,生成的代码可用性更高,中文写作升级,在数学、代码能力上超过GPT-4.5[4][9] - 2025年5月29日,DeepSeek-R1完成小版本升级,更新后的模型在数学、编程与通用逻辑上已接近o3与Gemini-2.5-Pro,幻觉率降低了45~50%左右[4][9] - 2025年8月21日发布DeepSeek-V3.1,相比R1能在更短时间内给出答案,有更强的Agent能力,API接口调用价格为输入0.5元/百万tokens(缓存命中)、4元/百万tokens(缓存未命中),输出12元/百万tokens[4][9] - 2025年9月29日发布DeepSeek-V3.2-Exp,引入了DeepSeek Sparse Attention(一种稀疏注意力机制),API接口调用价格降至输入0.2元/百万tokens(缓存命中)、2元/百万tokens(缓存未命中),输出3元/百万tokens[4][9] - 2025年12月1日发布DeepSeek-V3.2正式版,其推理能力达到了GPT-5的水平,仅略低于Gemini-3.0-Pro,并将思考融入工具使用的模型,同时支持思考与非思考模式的工具调用[4][9] 下一代模型的关键技术突破 - 公司于2025年12月底至2026年1月发表了两篇有梁文锋署名的论文,旨在解决大模型基础架构中训练稳定性与知识检索效率两大瓶颈[5][10] - 论文《mHC: Manifold-Constrained Hyper-Connections》提出了“流形约束超连接”(mHC)框架,通过数学上的流形投影将残差连接空间约束在特定流形上,在保留强大表达能力的同时强制恢复网络的恒等映射特性,从根源上保障训练稳定性[5][10] - 与北大合作的论文《Conditional Memory via Scalable Lookup》提出了“条件记忆”模块(Engram),将高频静态知识以嵌入表形式注入Transformer层,通过解耦知识存储与神经计算,证明用基于哈希的查找表替代约20%的混合专家(MoE)参数,可显著提升推理与知识任务性能[5][11]
DeepSeek新模型曝光
财联社· 2026-01-21 14:34
DeepSeek新模型“MODEL1”架构曝光 - 2025年1月,DeepSeek官方GitHub仓库更新FlashMLA代码,其中发现一个此前未公开的模型架构标识“MODEL1”,在114个总代码文件中被提及31次[4] - FlashMLA是公司独创的、针对英伟达Hopper架构GPU深度优化的软件工具,专门加速大模型推理生成环节,其实现基础MLA是公司模型实现低成本、高性能的关键技术之一[4] - MODEL1是DeepSeek FlashMLA中支持的两个主要模型架构之一,另一个是DeepSeek-V3.2[5] MODEL1的技术特性与市场定位推测 - 推测MODEL1很可能是一个高效推理模型,相比V3.2内存占用更低,适合边缘设备或成本敏感场景[5] - 推测MODEL1也可能是一个长序列专家,针对16K+序列优化,适合文档理解、代码分析等长上下文任务[5] - MODEL1的硬件实现跨越多个GPU架构,在英伟达H100/H200上有64头和128头两个版本,在最新的B200上有专门的Head64内核实现,且SM100的Head128实现仅支持MODEL1,不支持V3.2[5] - 有人猜测公司为适配英伟达新一代GPU,专门优化了MODEL1的架构[5] DeepSeek现有产品线梳理 - 公司已发布的主要模型是两条技术路线的代表:追求极致综合性能的V系列“全能助手”和专注于复杂推理的R系列“解题专家”[6] - 2024年12月推出的V3是公司的重要里程碑,其高效的MoE架构确立了强大的综合性能基础[6] - 公司在V3基础上快速迭代,发布了强化推理与Agent能力的V3.1,并于2025年12月推出了最新正式版V3.2,同时推出了专注于攻克高难度数学和学术问题的特殊版本V3.2-Speciale[6] - 2025年1月发布的R1通过强化学习在解决数学问题、代码编程等复杂推理任务上表现卓越,并首创了“深度思考”模式[7] 公司未来产品与技术动向 - 科技媒体The Information月初爆料称,公司将在2025年2月中旬农历新年期间推出新一代旗舰AI模型——DeepSeek V4,将具备更强的写代码能力[7] - 公司研究团队陆续发布了两篇技术论文,分别介绍了名为“优化残差连接”的新训练方法,以及一种受生物学启发的“AI记忆模块”[7] - 这一举动引起用户猜测,公司正在开发中的新模型有可能会整合这些最新的研究成果[7]
R1模型发布一周年 DeepSeek新模型“MODEL1”曝光
新浪财经· 2026-01-21 12:05
公司技术路线与产品矩阵 - DeepSeek已形成两条主要技术路线:追求极致综合性能的V系列“全能助手”和专注于复杂推理的R系列“解题专家” [2] - 公司于2024年12月推出重要里程碑模型V3,其高效的MoE架构奠定了强大的综合性能基础 [3] - 公司在V3基础上快速迭代,先后发布了强化推理与智能体能力的V3.1,并于2025年12月推出最新正式版V3.2 [3] - 公司同时推出了专注于攻克高难度数学和学术问题的特殊版本V3.2-Speciale [3] - 公司于2025年1月发布R1模型,该模型通过强化学习在解决数学问题、代码编程等复杂推理任务上表现卓越,并首创了“深度思考”模式 [3] 新模型“MODEL1”的发现与推测 - 2025年1月,DeepSeek官方GitHub仓库更新FlashMLA代码,代码分析发现了一个此前未公开的模型架构标识“MODEL1”,该标识在114个总代码文件中被提及31次 [1] - “MODEL1”是DeepSeek FlashMLA中支持的两个主要模型架构之一,另一个是DeepSeek-V3.2 [2] - 推测“MODEL1”很可能是一个高效推理模型,相比V3.2内存占用更低,适合边缘设备或成本敏感场景 [2] - 推测“MODEL1”也可能是一个针对16K+序列优化的长序列专家,适合文档理解、代码分析等长上下文任务 [2] 技术创新与硬件适配 - FlashMLA是DeepSeek独创的、针对英伟达Hopper架构GPU深度优化的软件工具,专门用于加速大模型的“推理生成”环节 [1] - FlashMLA算法的实现基础MLA(多层注意力机制)是DeepSeek模型实现低成本、高性能的关键技术之一,用于在模型架构层面减少内存占用,最大化利用GPU硬件 [1] - “MODEL1”的硬件实现跨越多个GPU架构:在英伟达H100/H200(SM90架构)上有64头和128头两个配置版本;在最新的B200(SM100架构)上有专门的Head64内核实现 [2] - SM100架构的Head128实现仅支持“MODEL1”,不支持V3.2,推测DeepSeek为适配英伟达新一代GPU专门优化了“MODEL1”的架构 [2] 未来产品发布与技术整合 - 科技媒体The Information爆料称,DeepSeek将在2025年2月中旬农历新年期间推出新一代旗舰AI模型DeepSeek V4,该模型将具备更强的写代码能力 [3] - DeepSeek研究团队近期发布了两篇技术论文,分别介绍了名为“优化残差连接(mHC)”的新训练方法,以及一种受生物学启发的“AI记忆模块(Engram)” [3] - 此举引起用户猜测,公司正在开发中的新模型有可能会整合这些最新的研究成果 [3]
没有商业模式--DeepSeek最坚固的“护城河”
华尔街见闻· 2026-01-18 16:58
文章核心观点 - DeepSeek实验室因其“零外部融资、无商业化压力”的独特模式,在全球AI行业中构建了最坚固的护城河,使其能够专注于AGI研究而不受资本裹挟 [2][8][13] 市场预期与行业竞争格局 - 市场对DeepSeek在农历新年前发布更强大新模型期待高涨,但行业已习惯每隔一两个月就有新的“开放权重”模型发布,DeepSeek的新模型可能难以再次震惊世界 [3] - DeepSeek通过发布V3和R1打响了MIT License许可开源模型的第一枪,但已不再是市场上最开放的实验室,因其未开源训练数据集或主代码库 [4] - 目前全球开放程度排名前三的模型分别来自NVIDIA(Nemotron 3)、Allen Institute(Olmo 3)和穆罕默德·本·扎耶德人工智能大学(MBZUAI,K2-V2) [5] - DeepSeek的模型在开放模型中已不再是最强、最便宜或最开放的 [8] 独特的“零融资”商业模式 - DeepSeek是全球顶尖AI实验室中唯一坚持“零外部融资”的异类,其创始人梁文锋将控制权看得比融资更重要 [3][10] - 公司通过其关联的量化基金“幻方量化”的利润来自筹资金,该基金在去年以53%的回报率创造了超过7亿美元(约50亿人民币)的利润,并用于购买GPU和招聘人才 [3][12] - 2023年公司成立初期寻求风险投资失败,因中国VC的短视和风险厌恶,但这反而使其避免了商业化KPI压力,只需对技术负责 [3][10] - 即便在获得全球知名度后,公司仍拒绝筹集外部资金,以保持对自身命运和AGI研究目标的完全控制权 [12][13] 资金充裕带来的组织问题 - 过多的外部资金会滋生“大公司病”,例如资源内耗、部门宫斗以及浮夸的排场,如某些实验室在健身房使用印有自家Logo的定制杠铃片 [3][16] - 外部融资会带来估值、股票期权以及商业化的期望,这可能导致组织层级化、嫉妒和人才被挖角 [16][17] - 相比之下,DeepSeek因无外部资金,组织架构极度扁平,内部没有资源竞争和官僚主义,有利于研究想法的支持与实施 [15] 算力与创新效率的关系 - 前OpenAI研究员Ilya Sutskever指出,颠覆性创新并不总是需要无限堆算力,例如Transformer架构最初仅使用了8到64张GPU [3][14] - 对于研究而言,需要一定量的算力,但并非绝对需要最大量的算力,过多的资金和算力反而可能让团队变懒,失去“科研品味” [3][14][15] - DeepSeek通过消除“因有钱就必须购买更多算力”的必要性,避免了资源分配的内部斗争,使良好的研究品味能得到最大支持 [15] 行业融资趋势对比 - 全球AI行业资金涌入剧烈,几乎所有有影响力的实验室都在筹集更多资金,例如埃隆·马斯克的xAI近期完成了高达200亿美元的E轮融资 [3][11] - 一批由明星研究员领导、风投支持的“AI新实验室”涌现,如Thinking Machines Lab、SSI(已筹集30亿美元)和AMI Labs [11][17] - 在此背景下,DeepSeek坚持自筹资金,使其激励机制与行业内其他实验室截然不同,实现了内部目标与AGI研究的最大化对齐 [18]