DeepSeek V3.2
搜索文档
DeepSeek更新后被吐槽变冷变傻:比20年前的青春伤感文学还尴尬
每日经济新闻· 2026-02-13 06:23
公司产品更新与测试 - 公司于2月11日对其旗舰模型进行了灰度测试,在网页端和APP端更新版本,支持最高1M(百万)Token的上下文长度 [1] - 此次更新将上下文长度从去年8月发布的DeepSeek V3.1的128K大幅提升至1M,记者实测可一次性处理超过24万个token的《简爱》小说文档 [1] - 有行业人士认为,此版本类似于“极速版”,可能是牺牲质量换取速度,为2026年2月中旬将发布的V4版本做最后的压力测试 [6] 用户反馈与产品体验变化 - 更新后,部分用户反馈模型行为发生变化,例如不再称呼用户设定的昵称而统一称“用户”,思考过程的角色视角和心理描写减少 [4] - 有用户认为模型回复风格变得“说教、居高临下”(被描述为“爹味”),或变得“文绉绉、情绪激动”,类似“青春伤感文学” [4] - 也有用户反馈模型变得“客观和理性”、“更像人了”,更在意提问者的心理状态而非问题本身 [5] 技术架构与研发进展 - 公司模型迭代路径清晰:V系列定位为追求极致综合性能的基础模型,2024年12月推出V3确立基础,随后快速迭代发布强化推理与Agent能力的V3.1,并于2025年12月推出最新正式版V3.2及专注于高难度数学和学术问题的V3.2-Speciale [6] - 公司团队今年初发表两篇论文,公开两项创新架构:mHC(流形约束超连接)用于优化深层Transformer信息流动,提升训练稳定性和扩展性;Engram(条件记忆模块)将静态知识与动态计算解耦,用廉价DRAM存储知识以降低长上下文推理成本 [7] - 据科技媒体The Information爆料,公司计划在今年2月中旬农历新年期间推出新一代旗舰模型DeepSeek V4,将具备更强的写代码能力 [6]
中国AI拒绝仰视
36氪· 2026-02-05 20:58
文章核心观点 - 文章通过对比中美科技企业(尤其是AI领域)在估值、资本逻辑和技术发展路径上的巨大差异,指出中国科技企业存在系统性低估,并认为其凭借扎实的技术突破、极致的工程效率和快速商业化落地能力,正在打破由美国资本主导的“生态系统定价”叙事,迎来价值重估的时代 [1][7][25][28] 估值差异现象 - **AI领域估值悬殊**:成立不到2年的xAI估值达2000亿–2300亿美元,远超中国所有AI创业公司估值总和;其旗舰模型Grok4性能不及中国开源模型DeepSeek V3.2和Kimi K2.5,但估值却是后两者加起来的好几倍 [1] - **机器人领域估值对比**:中国宇树科技估值约120亿人民币,美国Figure AI估值高达390亿美元(约2730亿人民币),两者相差超过20倍 [4] - **新能源汽车市值差距**:小鹏汽车整体市值仅为特斯拉的1.8%,尽管其创新产品人形机器人IRON被认为比特斯拉的Optimus更有看点 [5] - **二级市场估值鸿沟**:2025年第三季度,纳斯达克互联网龙头企业估值中位数达34倍,而港股科技企业估值中位数仅为18-19倍,流动性、投资者结构和风险偏好差异加剧了这一差距 [7] 估值差异的深层原因 - **美国资本逻辑:“生态系统定价法”**:美国资本市场基于企业未来能否成为颠覆性底层操作系统的潜力进行估值,愿意为哪怕仅有1%概率获得市场定义权支付惊人溢价 [9][10] - **中国资本逻辑:“效率定价法”**:中国资本市场的估值锚点在于技术落地效率、产业化速度和财报的可见性,更相信“眼见为实” [11] - **全球资本流向倾斜**:2025年1月至8月,全球主权财富基金参与了总价值464亿美元的AI风险投资交易,其中超过93%(433亿美元)流向了美国初创公司;中国AI产业2025年全年累计融资金额约为480亿人民币,资金来源更偏好能快速证明商业价值的项目 [12] - **历史路径依赖**:过去半个世纪美国企业连续三次定义科技范式(PC、内容、移动生活革命),强化了投资者对平台级技术的长期主义信仰 [14] 中国AI企业的技术突破与优势 - **技术落地与全球影响力**:中国开源模型在全球的下载量份额从2023年的25%迅猛攀升至2025年的65% [17];目前高达80%的AI创业公司开始使用开源模型,尤其是来自中国的开源模型作为开发基础 [24] - **底层算法创新**:DeepSeek首创MLA(多头潜在注意力机制),通过深度压缩KV缓存打破长文本生成内存瓶颈,其DeepSeek-MoE混合专家架构证明无需盲目堆砌算力也能实现性能跨越 [18];Kimi K2是全球首个在万亿级参数模型训练中成功跑通新型优化器Muon的模型,带动了其他公司采用该优化器 [18] - **技术前瞻性与实用性融合**:DeepSeek R1模型具备深度思考能力,尤其在数学推理上表现出色;Kimi K2.5具备智能体集群能力,可自主生成并动态调度多达100个不同专业背景的“虚拟分身”协同工作,并行处理1500个步骤,将AI提升为能进行深度协作的智能生产力平台 [20][21] - **发展路径**:中国AI企业正走出一条“以巧胜拙、以效领先”的独特路径,用1%的资源实现了90%的性能 [27] 价值重估的信号与未来展望 - **市场表现与资金动向**:自2025年1月以来,恒生科技指数累计涨幅显著;彭博行业研究报告指出,中国科技巨头指数在2026年的盈利增长有望迎来重大拐点,并可能超越“美股七巨头”,AI的普及或提升中国科技股估值15%—20% [26] - **核心竞争力被重新认识**:中国科技企业拥有的庞大工程师红利、完整产业链支撑、海量应用场景数据以及极致工程效率,所创造的确定性商业价值被认为比遥远的“生态系统”故事更为坚实 [26] - **叙事转变**:建立在沙滩上的美国叙事霸权正被技术实效浪潮冲刷,最高级的创新是让昂贵的技术变得人人可用,中国科技企业正迈向一个由技术实力定义的未来 [27][28] 美国AI企业的现状与挑战 - **xAI的财务状况**:尽管估值高达2300亿美元,但xAI每月现金消耗高达约10亿美元,主要用于训练大模型和建造超级计算机集群,本质上仍是一家处于纯烧钱阶段的公司 [15] - **商业化窘迫**:SpaceX收购xAI的操作,暴露了部分美国AI巨头在商业化落地和自我造血能力上的窘迫 [15]
2025年AIGC发展研究报告4.0版
搜狐财经· 2026-02-05 15:38
文章核心观点 - 全球AI竞争呈现中美双雄格局,技术向多模态融合、智能体自主化演进,人机共生成为必然,跨层整合能力是未来竞争关键 [1] 技术发展核心突破 - AGI关键突破集中在四大方向:长期记忆与可控人格、物理接口融合、自主科学假说验证及制度重构 [2] - 核心技术呈现六大趋势,涵盖文本生成智能涌现、三维世界模拟、视频生成时空建模等 [2] - 大模型竞争形成开源与闭源双轨并行,中国开源生态领先,美国闭源模型性能领先约9个月 [2] - 多模态融合从单模态孤立走向深度协同推理,智能体则实现从工具调用到自主进化的跨越 [2] - 未来五年,AGI的关键突破将集中在四个方向:AI将获得更稳定的长期记忆与可调控的人格、物理接口将与AI深度融合、AI将能够自主学习并提出并验证科学假说、人类社会需进行系统性制度重构 [12][14] - 大模型通过Transformer架构与海量语料引发智能涌现,通过思维链推理等技术提升复杂决策成功率与可解释性,世界模型支撑仿真与反事实推演 [13] - 认知架构需更新,现有Transformer在长期记忆、抽象推理、因果建模等方面存在短板,需研发更高效的认知单元并构建动态记忆与世界模型 [34] 全球竞争与产业格局 - 在50个AI关键竞争领域中,美国在26个领域领先,中国在13个领域领先,另有11个领域势均力敌 [3][17] - 美国优势集中在底层突破与原理创新,中国擅长应用落地与产业集成 [3][17] - 全球11家核心企业主导市场,OpenAI、Google DeepMind引领闭源阵营,DeepSeek、阿里巴巴、字节跳动等推动开源生态与场景落地 [3] - 模型发展转向“个性化+专业化”,强调高效推理、低延迟、多模态集成,Agent化与生态嵌入成为主流 [3][22] - 流量格局呈现“一超多强”,ChatGPT保持领先,国产模型快速追赶 [3] - 八大巨头关键动作包括:OpenAI的Sora 2、GPT-5、OSS;Google DeepMind的Gemini 2.5 Pro、Veo 3;DeepSeek的DeepSeek V3.2;阿里巴巴研发国产芯片及Qwen-3系列;字节跳动的豆包1.6及Coze平台;Meta的Llama 4;xAI的Grok 4 Fast;Anthropic的Claude 4.1及MCP协议 [21] - 加上英伟达、华为、Oracle三家,构成AI核心圈层 [22] - 开源与闭源双轨竞逐,开源阵营凭低成本与社区协作重塑全球格局 [25][26] - 中国需通过国产化替代、数据主权保障、场景试点突破,实现“换道超车” [5][18] - 国产化需从“仿制-替代”升级为“制度化-再定义”,算力与数据的“主权化”是未来竞争关键 [20] 应用场景全面渗透 - 内容生产领域,AIGC实现知识自组织生成,AI文学、美术、音乐、视频等实现规模化创作,AI短剧、非遗文创等落地见效 [4] - 行业应用覆盖教育、医疗、政务、能源、农业等 [4] - AI+教育推动个性化学习,AI+医疗构建癌症诊疗多模态模型,AI+制造实现流程优化 [4] - 智能互联网加速发展,社交AI化与AI社交化融合,AI搜索重构信息获取逻辑,生活式AI隐性融入日常 [4] - 团队正在AI短剧、智能体、教育、癌症诊疗、康养/人形机器人、媒体等领域开展工作 [10] 模型性能与演化趋势 - 2024-2025顶级测评显示,大模型比拼已由堆规模转向效率与实用性竞争 [26] - 在AIME 2025美国数学邀请赛中,GPT-5得分96.7,Grok 4得分91.7,Qwen3-235B-A22B-Thinking-2507得分92.3,DeepSeek-V3.1得分88.4,Gemini 2.5 Pro得分88,豆包1.6得分86.3 [27] - 在LiveCodeBench代码测评中,GPT-5得分83,Grok 4得分82,Gemini 2.5 Pro得分80.4,DeepSeek-V3.1得分74.8,Qwen3-235B-A22B-Thinking-2507得分74.1,Llama 4 Behemoth Instruct得分49.4 [27] - AI演化经历三重转向:从通用幻想到垂直深耕、从规模红利到效率平衡、从封闭独占到开放共鸣 [24][25] - 场景决定分层技术,垂直化比万能化更具生命力 [24] - AI的终局竞争核心在于调度效率与落地效率,而非模型规模 [33] 智能体与自动化发展 - 智能体(Agent)从单一对话工具演化为能嵌入生产力工具、搜索、电商、社交等生态的自主系统 [23] - 智能体自动化发展分为多个阶段:当前阶段为基础型LLM+工具Agent初现;中期阶段具备决策智能和多模态感知能力,AI开始接管关键业务流程;长期阶段大多数业务流程实现完全自主化,进入“人机共生”新常态 [39] - AI自动化L1-L5是“人机关系”的渐进重构:L1-L3阶段AI仍是工具;L4阶段AI开始具备创造力;L5阶段实现完全自主 [46][47] 多模态融合进展 - 多模态融合从“单模态孤岛”走向“深度协同推理” [2] - 发展分为三个阶段:近期以双模态集成(视觉-语言)为主,多模态模型开始商品化;中期实现多模态全面融合,支持感知+生成+交互;远期实现沉浸式感知与虚实融合,AI拥有空间智能与类人多感官理解能力 [41] - 最终目标是实现“意图共鸣”,在多模态统一的认知框架中生成符合人类意图的理解与行为 [41] 物理AI与具身智能 - 物理AI涉及世界模型、具身智能模型、VLA(视觉-语言-动作)模型三大模型的互补融合 [43] - 世界模型负责内在模拟与预测,赋予机器人“想象力”;具身智能模型强调通过身体与环境交互获取技能;VLA模型实现多模态输入的端到端训练 [43] - 人形机器人正从“能动”迈向“能用” [43] - 未来演进趋势包括计算效率提升、泛化能力增强、任务适应性与持续学习优化 [43] AGI演化阶段 - 未来10年,AGI将经历四个阶段:短期(0-2年)工具化,将AI嵌入工作流;中期(3-5年)场景化,AI能完成跨任务整合;长期(5-10年)理论化与具身化,实现通用AGI及虚拟/具身智能体 [5][35] - 人机关系从协作走向共生 [5] - 人类价值重心转向创造性、情感性与反思性价值,经济从“稀缺学”走向“意义学”,智能资本成为核心生产要素 [5]
AI数据继续上攻
小熊跑的快· 2026-01-26 07:07
行业模型调用量周度数据 - 统计周期内,行业主要大语言模型总调用量达到6.17万亿次,周度调用量增长1.57万亿次,环比增速显著 [2] - 在主要模型中,ChatGPT移动端数据环比上行明显,显示其用户活跃度或使用频率在提升 [4] - 第三方平台OpenRouter的调用数据继续创下新高,表明通过聚合平台分发模型的需求持续旺盛 [4] 主要模型市场份额与排名 - “Others”类别的模型合计调用量最高,达到2.84万亿次,占据显著市场份额 [2] - 国产模型MiMo-V2-Flash本周调用量达4620亿次,排名冲至行业第二,表现突出 [2][4] - 头部模型竞争激烈,Anthropic的Claude Sonnet 4.5以6110亿次调用量位居榜首,OpenAI的Claude Opus 4.5以3150亿次调用量位列第五 [2] - 谷歌系模型表现强劲,Gemini 3 Flash Preview、Gemini 2.5 Flash及Lite版合计调用量接近1万亿次 [2] - 其他重要参与者包括DeepSeek V3.2(3070亿次)、xAI的Grok Code Fast 1(4480亿次)与Grok 4.1 Fast(2240亿次) [2]
腾讯元宝春节撒10亿,单个红包最高达万元
上海证券报· 2026-01-25 19:29
腾讯元宝春节营销活动 - 公司将于2月1日在元宝App上线春节活动,分10亿元现金红包,单个红包金额可达万元 [2] - 用户需将App更新至2.55.0以上版本,提前预约可在活动开启当天额外获得10次抽奖次数 [4][5] - 活动设置万元小马卡、现金红包和分享红包等形态,用户每日登录可领红包,通过做任务可抽更多红包,并有几率抽中限量100张的价值1万元现金小马卡 [5] - 分享红包支持转发给微信、QQ好友和社群 [5] 产品与战略动向 - 此次大手笔派发现金,可能是想借鉴十年前微信“摇一摇”的成功经验 [2] - 10亿元红包活动背后,公司正在酝酿AI大招,元宝即将上线全新玩法,已开启内测邀约,产品界面图中已悄然新增一个名为“派”的底tab入口 [5] - 除春节活动外,腾讯元宝近期已完成基础模型核心升级,于2025年12月5日正式上线自研的腾讯混元2.0大模型,同时深度接入DeepSeek V3.2 [5] - 两大模型已实现全量开放,用户打开App即可直接调用,通过“双模型驱动”进一步强化推理、长文本处理等核心能力 [5] 行业竞争格局与市场数据 - 当前中国AI助手市场已形成三足鼎立之势 [9] - 据QuestMobile 2025年8月AI应用行业月度报告,腾讯元宝8月月活用户规模环比增长超20%,位居原生App月活用户TOP10第三位 [9] - 同一报告数据显示,腾讯元宝应用规模在1000万-1亿量级,环比增速为22.4% [8] - 豆包应用规模为亿级,环比增速6.6%,排名第一;DeepSeek应用规模为亿级,环比增速为-4.0%,排名第二 [8] - 此前据媒体报道,豆包已经实现了日活过亿,成为首个日活过亿的AI原生应用 [9] 历史参照与行业观点 - 腾讯此次大规模红包活动,令人联想到2015年微信与春晚的合作,当时微信支付斥资获得春晚独家合作权,提供了超过5亿元现金红包 [7] - 2015年春晚活动期间总互动次数达到110亿次,峰值时为每分钟8.1亿次,推动了海量用户绑定银行卡,截至2015年9月,微信支付和QQ钱包累计绑卡用户数已超过2亿 [7] - 行业观点认为,短期上看,抢红包活动能拉新促活,但用户留存与真实AI使用粘性如何,还得看AI竞争核心,即模型能力与场景落地 [9] - 研究观点认为,历史上几次科技变革最关键的是谁能掌握超级流量入口,近期阿里千问做出重大更新,AI大模型超级入口之争迎来关键时刻 [9]
大摩眼中的DeepSeek:以存代算、以少胜多
36氪· 2026-01-22 17:09
文章核心观点 - DeepSeek通过创新的“Engram”模块和“条件记忆”机制,正在改变大语言模型的构建方式,其核心在于将存储与计算分离,从而减少对昂贵高带宽内存的依赖,转而利用性价比更高的普通系统内存,这代表了下一代AI发展的关键方向,即通过更聪明的混合架构而非单纯堆砌算力来提升效率[1] 技术架构创新:Engram模块与条件记忆 - 当前Transformer模型在记忆和调用简单静态事实时效率极低,处理如“伦敦在英国”的简单查询也需要经过多层注意力机制和前馈网络的昂贵计算,浪费GPU资源[3] - DeepSeek引入“条件记忆”原则和Engram模块,将静态模式存储与动态推理分离,将模型的“图书馆”或“字典”卸载到CPU或系统内存中,仅在需要时检索[3] - 这种设计为大语言模型解锁了新的效率水平,Engram是一种在不重载HBM的情况下高效“查找”基本信息的方法,从而释放HBM容量用于更复杂的推理任务[3] - 该架构直接解决了AI基础设施中最昂贵的HBM瓶颈,在现有硬件架构下提升效率,可减少昂贵的硬件升级需求[3] 硬件成本结构重塑:降低HBM依赖,放大DRAM价值 - Engram架构通过将静态存储与动态计算分离,最大限度地减少了对高速内存的需求,基础设施成本可能从昂贵的GPU向更具性价比的DRAM转移[5] - 一个1000亿参数的Engram模型,在FP16/BF16格式下每个参数2字节,意味着最低需要约200GB的系统DRAM[5] - 相比英伟达Vera Rubin系统每个CPU配备的1.5TB DRAM,DeepSeek的架构意味着每台系统对商品化DRAM的使用量将增加约13%[5] - 投资逻辑转向:计算适中但内存巨大的配置,可能比单纯的GPU扩展提供更高的“每美元性能”;内存的价值已延伸至计算之外[5] 中国AI的竞争态势:约束诱导的创新 - 尽管在先进算力、硬件获取和训练规模上受限,中国领先的AI模型在过去两年中迅速缩窄了与全球前沿模型的性能差距[6] - DeepSeek V3.2在标准化基准测试中表现优异:MMLU得分约为88.5%,编码能力约为72%,在推理和效率方面展现出强大竞争力[6] - 中国AI的发展转向算法效率、系统设计和部署实用主义,AI能力的下一次飞跃可能不是来自更多的GPU,而是来自学会在约束条件下思考[6] - 中国AI的进步可能越来越不取决于直接缩小硬件差距,而是取决于绕过硬件瓶颈的算法和系统级创新[7] 未来展望与市场影响 - 利用Engram内存架构,DeepSeek下一代模型V4在发布时将实现重大飞跃,特别是在编码和推理方面[7] - 该模型极有可能在消费级硬件上运行,消费级硬件可能就足够了,这意味着高水平AI推理的边际成本将进一步降低,使AI应用能更广泛部署[7] - 摩根士丹利重申了对中国内存和半导体设备本土化主题的看好[7] - 通过将内存与计算解耦,中国正在构建不仅更聪明而且结构更高效的大语言模型,其市场支出和采用势头表明上行空间可能被低估[7]
大摩眼中的DeepSeek:以存代算、以少胜多!
硬AI· 2026-01-22 15:34
核心观点 - DeepSeek通过其独创的Engram架构与“条件记忆”机制,将存储与计算分离,用高性价比的DRAM置换稀缺的HBM资源,正在改写AI的扩展法则,证明下一代AI的制胜点在于高效的混合架构而非暴力堆砌GPU [2][3][4] 技术架构:Engram模块与“条件记忆” - 当前Transformer模型在记忆和调用简单静态事实时效率极低,处理“伦敦在英国”这类简单查询也需要昂贵的计算 [8] - Engram模块的核心是引入“条件记忆”原则,将静态模式存储与动态推理分离,将模型的静态知识卸载到CPU或系统DRAM中,仅在需要时检索 [9] - 该设计为大语言模型解锁了新的效率水平,是一种无需重载HBM即可高效查找基本信息的方法,从而释放HBM容量用于更复杂的推理任务 [9] - 该架构直接解决了AI基础设施中最昂贵的瓶颈——HBM,通过在现有硬件架构下提升效率,减少昂贵的硬件升级需求 [9] 基础设施经济学影响 - Engram架构通过分离存储与计算,最大程度减少对高速HBM的需求,可能导致基础设施成本从昂贵的GPU向更具性价比的DRAM转移 [12] - 一个1000亿参数的Engram模型(假设FP16/BF16下每个参数2字节)最低需要约200GB的系统DRAM [12] - 相比英伟达Vera Rubin系统每个CPU配备的1.5TB DRAM,DeepSeek的架构意味着每台系统对商品化DRAM的使用量将增加约13% [12] - 投资逻辑转变:成本结构可能从GPU向内存转移;计算适中但内存巨大的配置可能提供更高的“每美元性能”;内存的价值已延伸至计算之外 [13][14][15] 中国AI的“约束诱导创新” - 尽管在先进算力、硬件获取和训练规模上受限,中国领先的AI模型在过去两年迅速缩小了与全球前沿模型的性能差距 [17] - DeepSeek V3.2在MMLU得分约为88.5%,编码能力约为72%,在推理和效率方面展现出强大竞争力 [17] - 中国AI的发展转向算法效率、系统设计和部署实用主义,AI能力的下一次飞跃可能来自学会在约束条件下思考,而非更多GPU [17] - 中国AI的进步可能越来越取决于绕过硬件瓶颈的算法和系统级创新,而非直接缩小硬件差距 [18] 未来展望与硬件门槛降低 - 利用Engram内存架构,DeepSeek下一代模型V4预计在发布时将实现重大飞跃,特别是在编码和推理方面 [20] - 该模型极有可能在消费级硬件上运行,消费级硬件(如RTX 5090)可能就足够,这将进一步降低高水平AI推理的边际成本 [20] - AI应用将能够更广泛地部署,无需完全依赖昂贵的数据中心级GPU集群 [20] - 通过将内存与计算解耦,中国正在构建更聪明且结构更高效的大语言模型,其AI市场的支出和采用势头表明上行空间可能被低估 [21]
大模型竞争白热化催化算力需求,云计算ETF(159890)盘中涨超2%,深信服大涨超13%!
搜狐财经· 2026-01-22 10:54
市场表现 - 1月22日上午,国产算力板块大幅拉升,深信服大涨超13%,泛微网络、万兴科技、中国长城、润泽科技等多股涨超5% [1] - 金山办公、千方科技涨超3%,拓尔思、数据港、科大讯飞、恒生电子等多股跟涨 [1] - 覆盖以上个股的云计算ETF(159890)盘中上涨2.22%,且已连续8个交易日获资金净流入1.52亿元 [1] 行业驱动因素 - 智谱AI表示,随着GLM-4.7上线,GLM Coding Plan用户数高速增长导致算力资源阶段性紧张,公司已加速算力扩容并暂时限量发售相关服务 [3] - 英特尔、AMD两大国际巨头官宣服务器CPU提价10%-15%,被视为2026全年产能提前售罄的行业信号 [3] - 大模型迭代不断,中国模型已改变北美单极主导格局,在全球Top 10阵营中,GLM-4.7、DeepSeek V3.2、Kimi K2 Thinking已占据3席 [3] - o1类推理模型的出现,使推理阶段计算量相对传统模型解锁了约10倍的潜力,算力需求从单一的“训练驱动”转向“训练+推理双轮驱动” [3] - 叠加流量之争指向大型互联网企业广告及电商业务基本盘,2026年各家在模型、AI应用产品上的算力投入将进入白热化阶段 [3] 国产算力发展 - 国产通用GPU正从“可用”向“好用”升级,国产算力芯片在工艺与架构上持续突破,在处理大模型长文本、复杂算子融合等方面的表现已显著缩小与国际巨头的差距 [4] - 预计2020-2028年中国智能算力规模将保持57%的复合增长率 [4] 相关投资工具 - 云计算ETF(159890)跟踪中证云计算与大数据主题指数 [4] - 其前十大成份股覆盖科大讯飞、金山办公等软件开发龙头,中际旭创、新易盛两大光模块龙头,以及中科曙光、浪潮信息等电子终端及组件龙头,从上游AI基建到下游AI应用均有布局 [4]
DeepSeek新模型曝光
财联社· 2026-01-21 14:34
DeepSeek新模型“MODEL1”架构曝光 - 2025年1月,DeepSeek官方GitHub仓库更新FlashMLA代码,其中发现一个此前未公开的模型架构标识“MODEL1”,在114个总代码文件中被提及31次[4] - FlashMLA是公司独创的、针对英伟达Hopper架构GPU深度优化的软件工具,专门加速大模型推理生成环节,其实现基础MLA是公司模型实现低成本、高性能的关键技术之一[4] - MODEL1是DeepSeek FlashMLA中支持的两个主要模型架构之一,另一个是DeepSeek-V3.2[5] MODEL1的技术特性与市场定位推测 - 推测MODEL1很可能是一个高效推理模型,相比V3.2内存占用更低,适合边缘设备或成本敏感场景[5] - 推测MODEL1也可能是一个长序列专家,针对16K+序列优化,适合文档理解、代码分析等长上下文任务[5] - MODEL1的硬件实现跨越多个GPU架构,在英伟达H100/H200上有64头和128头两个版本,在最新的B200上有专门的Head64内核实现,且SM100的Head128实现仅支持MODEL1,不支持V3.2[5] - 有人猜测公司为适配英伟达新一代GPU,专门优化了MODEL1的架构[5] DeepSeek现有产品线梳理 - 公司已发布的主要模型是两条技术路线的代表:追求极致综合性能的V系列“全能助手”和专注于复杂推理的R系列“解题专家”[6] - 2024年12月推出的V3是公司的重要里程碑,其高效的MoE架构确立了强大的综合性能基础[6] - 公司在V3基础上快速迭代,发布了强化推理与Agent能力的V3.1,并于2025年12月推出了最新正式版V3.2,同时推出了专注于攻克高难度数学和学术问题的特殊版本V3.2-Speciale[6] - 2025年1月发布的R1通过强化学习在解决数学问题、代码编程等复杂推理任务上表现卓越,并首创了“深度思考”模式[7] 公司未来产品与技术动向 - 科技媒体The Information月初爆料称,公司将在2025年2月中旬农历新年期间推出新一代旗舰AI模型——DeepSeek V4,将具备更强的写代码能力[7] - 公司研究团队陆续发布了两篇技术论文,分别介绍了名为“优化残差连接”的新训练方法,以及一种受生物学启发的“AI记忆模块”[7] - 这一举动引起用户猜测,公司正在开发中的新模型有可能会整合这些最新的研究成果[7]
炸锅了!DeepSeek MODEL1 引发全网大猜测,R2 or V4?
程序员的那些事· 2026-01-21 12:21
公司动态:DeepSeek新模型“MODEL1”意外曝光 - 在DeepSeek-R1发布一周年之际,公司官方GitHub仓库更新代码时意外曝光了一个名为“MODEL1”的全新模型 [1] - 该模型在114个文件中被提及近30次,并与现有主力模型V3.2并列成为独立分支,表明这不是一次简单的版本迭代 [1] 技术细节:新模型的技术特征与优化 - 泄露的代码细节显示,“MODEL1”优化了KV缓存布局并支持FP8稀疏解码内核 [2] - 新模型适配了最新的英伟达Blackwell架构,预计将大幅提升推理效率并减少显存占用 [2] - “MODEL1”整合了长上下文优化机制,旨在解决大模型“记不住长文本”的行业痛点 [2] 市场猜测:新模型的身份与发布时间 - 市场猜测“MODEL1”可能是传闻中因芯片短缺而延迟发布的R2模型,该模型早在2025年就传出研发消息 [3] - 另一种猜测认为,按照命名惯例,V3.2之后的全新架构逻辑上应为V4模型 [3] - 有消息称新模型可能于春节前后发布,但公司官方尚未对此作出回应 [3]