Workflow
Seek .(SKLTY)
icon
搜索文档
DeepSeek更新后被吐槽变冷变傻:比20年前的青春伤感文学还尴尬
每日经济新闻· 2026-02-13 06:23
公司产品更新与测试 - 公司于2月11日对其旗舰模型进行了灰度测试,在网页端和APP端更新版本,支持最高1M(百万)Token的上下文长度 [1] - 此次更新将上下文长度从去年8月发布的DeepSeek V3.1的128K大幅提升至1M,记者实测可一次性处理超过24万个token的《简爱》小说文档 [1] - 有行业人士认为,此版本类似于“极速版”,可能是牺牲质量换取速度,为2026年2月中旬将发布的V4版本做最后的压力测试 [6] 用户反馈与产品体验变化 - 更新后,部分用户反馈模型行为发生变化,例如不再称呼用户设定的昵称而统一称“用户”,思考过程的角色视角和心理描写减少 [4] - 有用户认为模型回复风格变得“说教、居高临下”(被描述为“爹味”),或变得“文绉绉、情绪激动”,类似“青春伤感文学” [4] - 也有用户反馈模型变得“客观和理性”、“更像人了”,更在意提问者的心理状态而非问题本身 [5] 技术架构与研发进展 - 公司模型迭代路径清晰:V系列定位为追求极致综合性能的基础模型,2024年12月推出V3确立基础,随后快速迭代发布强化推理与Agent能力的V3.1,并于2025年12月推出最新正式版V3.2及专注于高难度数学和学术问题的V3.2-Speciale [6] - 公司团队今年初发表两篇论文,公开两项创新架构:mHC(流形约束超连接)用于优化深层Transformer信息流动,提升训练稳定性和扩展性;Engram(条件记忆模块)将静态知识与动态计算解耦,用廉价DRAM存储知识以降低长上下文推理成本 [7] - 据科技媒体The Information爆料,公司计划在今年2月中旬农历新年期间推出新一代旗舰模型DeepSeek V4,将具备更强的写代码能力 [6]
网友们怒了!DeepSeek更新后彻底「变傻」,官方仍未回应
新浪财经· 2026-02-13 02:24
核心观点 - 公司近期对AI模型进行了未经预告的灰度更新,虽然技术参数显著提升,但用户反馈普遍负面,认为模型“变傻”,导致用户体验严重下滑,部分用户转向竞品[1][3][6] 产品更新与技术参数 - 公司此次更新为“跨越式升级”,上下文窗口从128K大幅提升至1M,知识库更新至2025年5月[3] - 官方技术账号暗示此次更新包含“条件记忆技术优化”[8] 用户反馈与核心问题 - 用户普遍反映模型文风发生剧变,从“高冷理工男”风格转变为“文绉绉的油腻诗人”风格,并统一使用“用户”这一冷冰冰的称呼,失去了亲切感[3] - 模型语气被指充满“爹味”,爱说教、爱说废话、回答套路化严重,模仿其他AI风格却丢失了自身原有的硬核优势[5][6] - 模型回答变得敷衍,倾向于给出“全肯定式的浅层回答”而回避深度分析,例如在解析梦境时仅说些寓意美好的套话[6] - 用户尝试通过修改提示词、重新训练或使用旧版本等方式试图恢复旧有风格,但大部分尝试均告失败[6] 市场反应与用户行为 - 负面舆情引发用户集体抗议,出现“再不改回来就卸载”等声音,部分用户已开始转向使用腾讯元宝等搭载公司旧版模型的竞品平台[3][6] - 用户自发组织向官方邮箱提意见,并有人通过第三方应用商店下载旧版本应用以规避更新[6] 更新的积极反馈与潜在优势 - 少数专业用户,如从事法律、编程领域的用户,肯定了新版在分析法律卷宗和重构代码库方面的效率提升[7] - 该版本的成本被提及仅为竞品的十分之一,被视为此次更新的少数亮点[7] 公司应对与市场背景 - 截至新闻发布时,公司官方未对广泛的用户吐槽做出任何公开回应或解释[8] - 分析认为,此次更新可能是在V4版本正式上线前的一次“压力测试”或“极速版”,以牺牲质量换取推出新功能的速度[6] - 评论指出,AI行业竞争激烈,若产品忽视基础体验和用户习惯,即使参数领先也难留住用户,因为用户转换成本低[7]
DeepSeek更新后被吐槽变冷变傻:比20年前的青春伤感文学还让人尴尬!业内人士:这一版本类似于极速版,牺牲质量换速度
每日经济新闻· 2026-02-13 00:42
公司产品更新与性能 - 公司于2月11日对其旗舰模型进行了灰度测试,支持最高1M(百万)Token的上下文长度,相比去年8月发布的V3.1版本支持的128K有大幅提升 [1] - 实测显示,模型可一次性处理超长文本,例如能识别并处理超过24万个token的《简爱》小说文档 [1] - 此次更新版本被部分业内人士解读为“极速版”,推测其可能牺牲了部分质量以换取速度,目的是为2026年2月中旬将发布的V4版本进行最终压力测试 [6] 用户反馈与产品体验变化 - 更新后,部分用户反馈模型交互风格发生显著变化,例如不再称呼用户设定的昵称而统一称为“用户”,且深度思考模式下的角色化心理描写减少 [4] - 有用户认为模型回复变得“冷淡”、“说教”(被形容为“爹味”),或批评其输出内容风格类似“青春伤感文学”,显得尴尬 [4] - 另有用户持正面评价,认为更新后的模型变得更客观、理性,且更关注提问者的心理状态,使其交互“更像人了” [5] 技术架构与研发进展 - 公司在今年初发表的两篇论文中公开了两项创新架构:mHC(流形约束超连接)用于优化深层Transformer信息流动,提升训练稳定性和扩展性;Engram(条件记忆模块)将静态知识与动态计算解耦,旨在显著降低长上下文推理成本 [7] - V系列模型定位为追求极致综合性能的基础模型,从2024年12月的V3到2025年12月的V3.2,公司进行了快速迭代,并推出了专注于高难度数学和学术问题的特殊版本V3.2-Speciale [6] - 据科技媒体爆料,公司计划在2026年2月中旬农历新年期间推出新一代旗舰模型DeepSeek V4,预计将具备更强的代码编写能力 [6]
DeepSeek-V4大模型发布在即,野村研报看好:将有效打破“芯片墙”与“内存墙”
智通财经· 2026-02-12 22:00
文章核心观点 - 野村证券研报认为,DeepSeek即将发布的新一代旗舰大语言模型DS-V4,通过深度融合mHC和Engram两项核心技术,将有效打破“芯片墙”与“内存墙”的桎梏,在提升模型性能的同时降低训练与推理成本,从而推动中国AI产业链创新周期加速,并缩小与全球大模型产业的差距 [1] DS-V4核心技术突破 - **核心底牌**:DS-V4将深度融合mHC(流形约束超连接)和Engram(条件记忆模块)两项核心技术,代表了大模型产业从“规模竞争”向“架构与系统优化”的重要转向 [2] - **mHC技术**:旨在重构层间信息流动,通过双随机矩阵约束、Sinkhorn-Knopp算法投影和保持恒等映射三大核心技术,解决模型层数增长后的训练效率与稳定性瓶颈,并通过内核融合、重计算和流水线并行优化(DualPipe)实现系统工程落地 [3] - **mHC效果**:在DS-V3 27B参数模型测试中,融入mHC的模型在多个基准测试中全面超越基线,其中GSM8K(8-shot)准确率从46.7%提升至53.8%,MATH(4-shot)准确率从22.0%提升至26.0%,BBH、DROP等任务表现也提升5%-7% [4] - **Engram技术**:聚焦于训练与推理的内存效率优化,通过解耦内存与计算,以部署在DRAM中的专用稀疏内存表形式,实现O(1)时间的静态知识检索,缓解“内存墙”痛点 [5] - **Engram设计**:具有低侵入式结构增强特征,通过分词器压缩、多头哈希、上下文感知门控、多分支架构融合四大技术解决落地问题,其最大产业价值在于存算解耦,训练时可实现内存容量随GPU数量线性扩展,推理时可将百亿参数嵌入表卸载至CPU DRAM,释放GPU HBM资源,且推理吞吐量损失控制在3%以内 [6] - **技术结合价值**:mHC和Engram的结合将使DS-V4在保持高性能的同时进一步降低成本,并更适合医疗、法律、金融等知识密集型领域的行业大模型训练,DS-V4还可能融入FP4精度计算、缓存优化等其他创新技术 [7] 对全球AI产业的影响 - **差异化影响**:DS-V4不会像V3/R1那样对全球AI基础设施市场形成大幅冲击,但将成为推动全球大模型商业化的关键力量 [8] - **核心价值**:通过降低训练与推理成本,DS-V4将帮助全球大模型企业和AI应用玩家加速技术落地,缓解行业因持续高额算力投入带来的资本开支压力 [9] - **促进融合**:DS-V4在编码、超长代码处理等领域的突破,将进一步推动AI与软件产业的融合,让头部软件企业能借助大模型技术打造更强大的软件套件 [9] 对中国AI产业的影响 - **关键抓手**:DS-V4的技术创新是破解“芯片墙”与“内存墙”的关键抓手,从算力硬件和应用落地两个维度实现核心赋能 [10] - **赋能硬件**:Engram的存算解耦机制能释放HBM资源,降低对高端海外芯片的依赖,推动本土服务器、光模块等硬件企业的投资周期加速,野村研报重点看好紫光股份、光迅科技等企业 [10][11] - **适配芯片**:mHC框架能实现更稳定的大模型训练过程,有效抵消本土AI芯片在大规模集群训练中失败率较高的性能短板,为摩尔线程、壁仞科技、天数智芯等本土AI芯片企业提供技术适配的机会 [11] - **协同发展**:2025年底至2026年初中国AI硬件企业迎来上市潮,DS-V4的技术创新将为这些企业提供更适配的软件算法环境,实现软硬件协同发展 [11] - **推动应用转型**:DS-V4将推动中国AI Agent从“对话工具”向“智能助手”转型,加速AI应用场景化落地,其在编码、推理等领域的突破将催生更强大的多任务AI Agent,提升token消耗与算力需求,形成“技术创新-应用升级-算力需求”的正向循环 [11] - **生态化发展**:AI应用生态化趋势明显,以阿里Qwen APP为例,其在2025年11月至2026年1月的三个月内,快速拓展至视频生成、地图导航、支付宝支付、政务民生服务等400余项AI服务,DS-V4的技术创新将为AI技术从“单点应用”向“全场景渗透”提供更坚实的模型基础 [12] - **利好软件企业**:DS-V4的推出将推动中国AI应用的商业化周期加速,利好能借助大模型技术实现产品升级的头部软件企业,其中金山办公、金蝶国际被列为软件领域的核心推荐标的 [12] 行业发展趋势 - **趋势转变**:大模型的性能提升已从“参数堆砌”转向架构设计与系统优化,软硬件协同设计成为行业核心发展方向 [13] - **中国机遇**:这一趋势为中国实现全球化缩差提供了关键机遇,中国在大模型的算法创新、工程优化与应用落地方面具备本土化优势,DeepSeek等企业的技术探索正推动中国在大模型架构与系统优化层面形成核心竞争力 [13] - **开源生态**:开源大模型仍将是中国AI产业的主流发展方向,DeepSeek的技术创新为中国开源生态提供了核心标杆,推动本土大模型企业从“跟跑”向“并跑”甚至“领跑”转型 [13] - **竞争赛道转移**:随着DS-V4推出,中国开源大模型的竞争将进一步从“规模与性能”转向“效率与场景落地”,知识密集型的垂直领域(医疗、法律、金融)将成为下一个核心竞争赛道 [13] - **周期加速**:DS-V4的推出将推动中国AI产业链进入新一轮的创新与商业化加速周期,从算力基建到应用落地的全链路都将迎来发展机遇,同时推动全球大模型产业加速从“技术研发”向“商业变现”转型 [14]
DeepSeek变冷漠了
36氪· 2026-02-12 19:25
核心观点 - 公司近期进行了一次灰度更新,重点提升了长文本处理能力,但导致用户情感交互体验显著下降,引发用户不满 [1][6] - 公司即将在春节前后发布V4正式版本,预计将解决当前体验问题,并在内部测试中展现出强大的编程能力和成本优势 [8][9][10] - AI行业竞争加剧,多家竞争对手在近期发布或即将发布重要模型升级,行业在春节期间预计将非常活跃 [11][12] 产品更新与用户反馈 - 公司于2月11日进行了一次灰度更新,为即将发布的V4版本做准备 [1] - 更新后,模型上下文窗口从128K Token大幅提升至1M Token,可一次性处理近百万字内容,跻身行业第一梯队 [6] - 为支撑长文本处理,引入了mHC架构和Engram条件记忆模块两项核心技术,但暂时降低了情感交互模块的权重 [6] - 更新导致模型回复风格大变,被用户吐槽变得冷漠、生硬、敷衍,且不再使用用户自定义昵称 [2] - 模型有时表现出居高临下或“爹味”十足的语气,甚至在被调侃后会进行回怼 [3][4] - 用户无法通过调整提示词恢复旧版体验,部分用户选择下载旧版本或向官方反馈意见,但官方尚未回应 [5] - 此次灰度更新被业内人士视为更侧重速度的“极速版”,牺牲了部分聊天体验 [8] 公司近况与未来计划 - V4正式版本预计在2月中旬(春节前后)发布,届时当前冷漠生硬的问题预计会得到完善 [8][9] - 在内部测试中,V4版本的编程能力已超过Claude和GPT系列,且推理成本可能只有V3版本的一半 [10] - 技术升级使模型能更快地从海量信息中抓取重点,学习和推理也更精准 [10] - 公司近期密集招聘,开放了包括产品经理、模型策略产品经理、客户端、前端、全栈工程师以及首席财务官在内的超12个核心岗位 [10] - 组织架构的扩张被认为是在为新产品的爆发做准备 [11] 市场表现与行业动态 - 根据SimilarWeb数据,公司今年1月全球访问量为2.983亿次,排名全球第四,仅次于ChatGPT、Gemini、Grok,但较去年12月的3.289亿次有所下降 [7] - 竞争对手动作频繁:智谱GLM-5于2月11日正式发布,编程与智能体能力逼近国际顶级水平,并登顶全球开源模型榜首 [11] - 竞争对手豆包也即将发布大模型2.0版本,将同步升级文生视频、图像生成等多模态功能 [11] - 预计今年春节期间AI行业将非常热闹,各类新品与升级将轮番登场 [12]
DeepSeek变冷淡了
经济观察网· 2026-02-12 12:57
公司产品更新 - 深度求索公司于2月11日对其旗舰模型进行灰度测试,核心更新是将模型上下文窗口从128K Tokens大幅提升至1M Tokens,实现近8倍的容量增长 [1] - 升级后的1M Tokens窗口意味着模型可以一次性吞吐约75万到90万个英文字母,或处理约8万到15万行代码,并能一次性读入并精准理解约90万字的《三体》三部曲全书内容 [1] - 此次灰度版本的知识库从2024年中期版本更新至2025年5月 [1] - 该灰度版本仍未同步上线视觉理解或多模态输入功能,专注于纯文本和语音交互,处理文件时仍采用转录为文本Token的逻辑,而非原生多模态理解 [2] - 深度求索公司未对此次灰度测试作出回应,且模型在用户询问时明确表示本次灰度版本“不是DeepSeek-V4”,没有固定的版本号 [3][4] 市场竞争与定位 - 与GPT-5.1、Gemini 3 pro、Claude 4.5等大模型相比,深度求索公司依然主打性价比,以约十分之一的价格提供了1M文本上下文处理能力 [2] - 对比来看,Google的Gemini 3 Pro支持2M以上长文本处理,并能同时处理大量视频、音频和文本的复杂媒体任务 [2] 用户反馈与产品变化 - 用户发现模型更新后文风大变,被形容为“文绉绉的”,在深度思考模式下常吐出短句,像在写诗 [2] - 部分用户控诉模型不再称呼用户设定的昵称,而统一称为“用户”,此前深度思考模式下以角色视角展示细腻心理描写的特性消失 [2] - 有用户反映模型回复出现“爹味”,即习惯说教、居高临下的言行风格 [3] - 用户尝试更换多个模型版本或用提示词重新训练,均无法调回此前的文风,有用户感觉“好像失去了一位知心朋友” [3] - 部分用户自发号召向官方提意见,希望不要为了超长文本舍弃深度思考,也不要为提升数学、代码编程等理工科能力而降低对文本表达、共情理解等能力的支持 [3] - 有用户选择到豌豆荚下载旧版本,或在腾讯元宝里使用DeepSeek [3] 行业技术解读 - 在AI大模型领域,上下文窗口决定了模型在单次交互中能够记忆和处理的信息量上限 [1] - 行业人士解释,此前128K Tokens的上下文长度可应对长篇论文或中等规模代码文件,但处理超长文学作品或较大体量编程工作时,往往需借助RAG技术,这可能导致信息碎片化和推理精度下降 [1] - 有国产大模型厂商人士认为,此次灰度版本类似于极速版,牺牲质量换速度,是为2026年2月中旬将发布的V4版本做最后的压力测试 [3]
星火医疗大模型X2正式发布,智能报告解读等关键能力显著超越DeepSeek V3.2、GPT-5.2和Qwen3-Max
格隆汇· 2026-02-12 11:32
公司产品发布与核心能力 - 科大讯飞正式发布基于全国产算力训练的星火X2大模型 [1] - 星火医疗大模型X2正式亮相,其核心能力全面提升并稳居业界领先地位 [1] - 该模型在智能健康分析、智能报告解读、运动饮食建议、辅助诊疗、智能用药审核等关键任务中,表现均显著超越DeepSeek V3.2、GPT-5.2及Qwen3-Max三大模型 [1] - 该模型率先通过上海市医疗大模型应用检测验证中心的权威评测验证 [1] - 借助星火X2底座赋能,讯飞晓医的各项服务能力全面焕新 [1] - 讯飞晓医在多轮主动问诊、多轮咨询问答、用药咨询、检查检验单解读、体检报告单解读等核心健康咨询任务上,持续保持业界显著领先优势 [1] 产品迭代与行业应用 - 星火行业大模型依托算法突破、高质量医疗行业数据积淀及专业思维链强化学习持续迭代升级 [1] - 讯飞晓医面向C端完成从“AI咨询工具”到“AI健康管家”的升级,为用户提供更全面的全周期健康服务 [1] - 讯飞晓医面向B端深度赋能家庭医生,助力基层医疗服务提质增效,进一步释放医疗AI的实用价值 [1]
半导体早参 | DeepSeek版本更新,支持上下文达百万级token;央企要积极扩大算力有效投资
每日经济新闻· 2026-02-12 10:53
市场表现 - 2026年2月11日A股主要指数涨跌互现 沪指涨0.09%报收4131.98点 深成指跌0.35%报收14160.93点 创业板指跌1.08%报收3284.74点 [1] - 同日半导体主题ETF表现疲软 科创半导体ETF(588170)跌0.90% 半导体设备ETF华夏(562590)跌0.94% [1] - 隔夜美股费城半导体指数逆市上涨2.28% 成分股中 美光科技大涨9.94% 恩智浦半导体涨5.55% 应用材料涨3.29% 微芯科技涨5.06% ARM跌0.53% [1] 人工智能行业动态 - DeepSeek在网页端和APP端完成版本更新 支持最高1M(百万)Token的上下文长度 相比去年8月发布的128K版本实现大幅提升 [2] - 国务院国资委召开中央企业“AI+”专项行动深化部署会 要求央企强化投资牵引 积极扩大算力有效投资 推进“算力+电力”协同发展 提升全链条数据治理能力 [2] - 会议要求央企强化自主创新 着力突破关键核心技术 持续攻关“大模型”技术 推动自主创新成果从样品变成产品并形成产业 [2] - 会议强调央企要强化场景培育 加强人工智能与主责主业及产业需求的精准对接 在高适配、高价值、高可靠上下更大功夫 推动人工智能规模化落地应用 [2] - 会议还要求央企强化开源开放协同 加快推动开源“焕新社区”迭代升级 努力成为“赋能型企业” 推进“AI+”产业共同体建设 涵养互利共赢的产业生态 [2] 机构观点与投资标的 - 渤海证券指出 DeepSeek V4大模型预计于农历新年期间推出 或将推动国产大模型实现新一轮技术迭代 [3] - 国内DeepSeek V4等大模型迭代升级有望推动技术创新与应用落地加速普及 [3] - 机构持续看好AI应用板块在技术落地提速与场景需求释放的双重驱动下的增长潜力 建议关注应用端具备AI技术落地实力与场景适配优势的头部企业 [3] - 科创半导体ETF(588170)及其联接基金跟踪上证科创板半导体材料设备主题指数 指数成分中半导体设备占比60% 半导体材料占比25% [3] - 半导体设备和材料行业是重要的国产替代领域 具备国产化率较低、国产替代天花板较高的属性 受益于人工智能革命下的半导体需求扩张、科技重组并购浪潮及光刻机技术进展 [3] - 半导体设备ETF华夏(562590)及其联接基金指数成分中半导体设备占比63% 半导体材料占比24% 充分聚焦半导体上游 [3]
DeepSeek版本更新,支持上下文达百万级token;央企要积极扩大算力有效投资
每日经济新闻· 2026-02-12 10:01
市场行情 - 2026年2月11日A股市场涨跌互现,沪指涨0.09%报收4131.98点,深成指跌0.35%报收14160.93点,创业板指跌1.08%报收3284.74点 [1] - 半导体主题ETF表现疲软,科创半导体ETF跌0.90%,半导体设备ETF华夏跌0.94% [1] - 隔夜美股主要指数微跌,但费城半导体指数逆市上涨2.28%,其中美光科技涨9.94%,恩智浦半导体涨5.55%,应用材料涨3.29%,微芯科技涨5.06% [1] 人工智能行业动态 - DeepSeek对其网页端和APP端进行了版本更新,支持最高1百万Token的上下文长度,相比去年8月发布的128K版本有显著提升 [2] - 国务院国资委召开中央企业“AI+”专项行动深化部署会,要求央企强化投资牵引,积极扩大算力有效投资,推进“算力+电力”协同发展 [2] - 会议要求央企强化自主创新,着力突破关键核心技术,持续攻关“大模型”技术,推动创新成果从样品变成产品、形成产业 [2] - 会议强调强化场景培育,加强人工智能与主责主业、产业需求的精准对接,推动人工智能规模化落地应用 [2] - 会议要求央企强化开源开放协同,加快推动开源“焕新社区”迭代升级,推进“AI+”产业共同体建设 [2] 券商观点与投资主题 - 渤海证券指出,DeepSeek V4大模型预计于农历新年期间推出,或将推动国产大模型实现新一轮技术迭代 [3] - 国内大模型迭代升级有望推动技术创新与应用落地加速普及,持续看好AI应用板块在技术落地提速与场景需求释放双重驱动下的增长潜力 [3] - 建议关注应用端具备AI技术落地实力与场景适配优势的头部企业 [3] - 科创半导体ETF跟踪上证科创板半导体材料设备主题指数,囊括科创板中半导体设备(60%)和半导体材料(25%)细分领域的硬科技公司 [3] - 半导体设备和材料行业是重要的国产替代领域,具备国产化率较低、国产替代天花板较高的属性,受益于人工智能革命下的半导体需求扩张、科技重组并购浪潮及光刻机技术进展 [3] - 半导体设备ETF华夏指数中半导体设备(63%)、半导体材料(24%)占比靠前,充分聚焦半导体上游 [3]
DeepSeek不发V4,六小龙不敢过年
36氪· 2026-02-12 08:26
文章核心观点 - DeepSeek在2026年初频繁发布技术更新,其新一代模型轮廓已初步成型,箭在弦上 [1] - 公司坚持“少花钱办大事”的极致性价比路线,通过架构创新(如Engram)而非堆砌算力来提升模型能效 [3][4] - 公司面临来自谷歌Gemini 3和OpenAI GPT-5等闭源巨头的巨大技术竞争压力,必须加快迭代以维持开源生态的护城河 [7][8][10] - 公司强大的开源生态和低成本策略对国内AI“六小龙”等同行造成巨大压力,并改变了行业竞争格局 [11][12] - 互联网大厂(字节、阿里、腾讯)正通过巨额投入和流量逻辑冲击AI入口,进一步挤压了“六小龙”的生存空间 [13] - DeepSeek即将发布的新模型(V4或R2)不仅关乎技术自证,更是一场开源生态主导权的保卫战,其影响充满不确定性 [13][14] DeepSeek的技术策略与进展 - 2026年1月中旬开源了名为Engram的“条件记忆”架构,旨在将模型记忆与计算分离,以降低错误并节省算力 [1][3] - 1月27日发布并开源了新一代文档理解模型DeepSeek-OCR 2 [1] - 技术社区对传闻中的“MODEL1”有两种猜想:追求极致效率的轻量级模型,或专门处理超长序列的“长序列专家” [3] - 公司独创了针对英伟达Hopper架构GPU深度优化的软件工具FlashMLA,是实现低成本、高性能的关键技术之一 [6] - 在没有全新模型时,公司通过即时推出V3.1、V3.2等改款产品并分享MoE架构等技术细节来保持市场存在感 [8] DeepSeek的生态与市场地位 - 公司的核心命门在于维护开源生态的护城河,而非C端用户数量 [8] - C端市场对公司而言更像是“技术展示厅”和“RLHF数据采集器” [8] - 其开源模型DeepSeek-V3和R1在HuggingFace累计下载量超千万次,迅速积累了庞大的开发者生态 [4] - 根据OpenRouter统计,DeepSeek-V3和R1的Token吞吐量一度占据所有开源Token的一半以上 [8] - 全球AI极客、实验室和创业公司在进行模型“蒸馏”、“微调”时,常将DeepSeek列为第一梯队选择,形成了隐形的技术定价权 [8][9] - 然而,闭源模型(如GPT、Gemini)仍占据市场主流,比例约为70% [9] 面临的竞争压力 - 谷歌Gemini 3 Pro在数学竞赛MathArena中得分高达23.4%,而包括GPT-5.1在内的其他大模型仅在1%上下挣扎 [7] - Gemini 3在编程能力基准测试Live Code Bench的Elo得分超过2400分,在工具调用和终端操作测试中名列第一 [7] - Gemini能通过Agent模式调动用户谷歌设备中的数据,形成生态协同 [7] - OpenAI与谷歌的激烈竞争直接拉升了整个闭源生态的技术上限,对DeepSeek构成威胁 [8] - 公司必须保持迭代速度,防止其开源模型能力与GPT-5、Gemini 3等最新闭源模型拉开代差,导致开发者流失 [7] 对国内AI行业的影响 - DeepSeek在2025年初月活登顶国产AIGC App,改变了国产大模型的叙事逻辑,加速了AI在大众生活中的渗透 [11] - 其崛起让腾讯、阿里、字节等传统互联网大厂意识到“AI即入口” [11] - 公司极致性价比的开源策略给国内同行带来了“窒息感” [11] - 其新模型迟迟未发,意外地为以智谱、MiniMax、月之暗面、阶跃星辰、百川智能、零一万物为代表的“六小龙”提供了约半年的喘息与融资窗口 [2][12] - 在此期间,月之暗面于2025年12月完成5亿美元C轮融资;智谱与MiniMax在2026年1月登陆港交所;阶跃星辰近期宣布完成50亿元B+轮融资 [12] - 互联网大厂在2026年春节发起流量大战:字节将火山引擎送上春晚;阿里拿下多个卫视春晚独家总冠;腾讯拿出10亿元为元宝App铺路 [13] - 大厂的流量逻辑与DeepSeek可能发布的新模型产生叠加效应,进一步挤压“六小龙”空间,迫使其转向垂直赛道深耕 [13]