Workflow
Seek .(SKLTY)
icon
搜索文档
DeepSeek版本更新,支持上下文达百万级token;央企要积极扩大算力有效投资
每日经济新闻· 2026-02-12 10:01
市场行情 - 2026年2月11日A股市场涨跌互现,沪指涨0.09%报收4131.98点,深成指跌0.35%报收14160.93点,创业板指跌1.08%报收3284.74点 [1] - 半导体主题ETF表现疲软,科创半导体ETF跌0.90%,半导体设备ETF华夏跌0.94% [1] - 隔夜美股主要指数微跌,但费城半导体指数逆市上涨2.28%,其中美光科技涨9.94%,恩智浦半导体涨5.55%,应用材料涨3.29%,微芯科技涨5.06% [1] 人工智能行业动态 - DeepSeek对其网页端和APP端进行了版本更新,支持最高1百万Token的上下文长度,相比去年8月发布的128K版本有显著提升 [2] - 国务院国资委召开中央企业“AI+”专项行动深化部署会,要求央企强化投资牵引,积极扩大算力有效投资,推进“算力+电力”协同发展 [2] - 会议要求央企强化自主创新,着力突破关键核心技术,持续攻关“大模型”技术,推动创新成果从样品变成产品、形成产业 [2] - 会议强调强化场景培育,加强人工智能与主责主业、产业需求的精准对接,推动人工智能规模化落地应用 [2] - 会议要求央企强化开源开放协同,加快推动开源“焕新社区”迭代升级,推进“AI+”产业共同体建设 [2] 券商观点与投资主题 - 渤海证券指出,DeepSeek V4大模型预计于农历新年期间推出,或将推动国产大模型实现新一轮技术迭代 [3] - 国内大模型迭代升级有望推动技术创新与应用落地加速普及,持续看好AI应用板块在技术落地提速与场景需求释放双重驱动下的增长潜力 [3] - 建议关注应用端具备AI技术落地实力与场景适配优势的头部企业 [3] - 科创半导体ETF跟踪上证科创板半导体材料设备主题指数,囊括科创板中半导体设备(60%)和半导体材料(25%)细分领域的硬科技公司 [3] - 半导体设备和材料行业是重要的国产替代领域,具备国产化率较低、国产替代天花板较高的属性,受益于人工智能革命下的半导体需求扩张、科技重组并购浪潮及光刻机技术进展 [3] - 半导体设备ETF华夏指数中半导体设备(63%)、半导体材料(24%)占比靠前,充分聚焦半导体上游 [3]
DeepSeek不发V4,六小龙不敢过年
36氪· 2026-02-12 08:26
文章核心观点 - DeepSeek在2026年初频繁发布技术更新,其新一代模型轮廓已初步成型,箭在弦上 [1] - 公司坚持“少花钱办大事”的极致性价比路线,通过架构创新(如Engram)而非堆砌算力来提升模型能效 [3][4] - 公司面临来自谷歌Gemini 3和OpenAI GPT-5等闭源巨头的巨大技术竞争压力,必须加快迭代以维持开源生态的护城河 [7][8][10] - 公司强大的开源生态和低成本策略对国内AI“六小龙”等同行造成巨大压力,并改变了行业竞争格局 [11][12] - 互联网大厂(字节、阿里、腾讯)正通过巨额投入和流量逻辑冲击AI入口,进一步挤压了“六小龙”的生存空间 [13] - DeepSeek即将发布的新模型(V4或R2)不仅关乎技术自证,更是一场开源生态主导权的保卫战,其影响充满不确定性 [13][14] DeepSeek的技术策略与进展 - 2026年1月中旬开源了名为Engram的“条件记忆”架构,旨在将模型记忆与计算分离,以降低错误并节省算力 [1][3] - 1月27日发布并开源了新一代文档理解模型DeepSeek-OCR 2 [1] - 技术社区对传闻中的“MODEL1”有两种猜想:追求极致效率的轻量级模型,或专门处理超长序列的“长序列专家” [3] - 公司独创了针对英伟达Hopper架构GPU深度优化的软件工具FlashMLA,是实现低成本、高性能的关键技术之一 [6] - 在没有全新模型时,公司通过即时推出V3.1、V3.2等改款产品并分享MoE架构等技术细节来保持市场存在感 [8] DeepSeek的生态与市场地位 - 公司的核心命门在于维护开源生态的护城河,而非C端用户数量 [8] - C端市场对公司而言更像是“技术展示厅”和“RLHF数据采集器” [8] - 其开源模型DeepSeek-V3和R1在HuggingFace累计下载量超千万次,迅速积累了庞大的开发者生态 [4] - 根据OpenRouter统计,DeepSeek-V3和R1的Token吞吐量一度占据所有开源Token的一半以上 [8] - 全球AI极客、实验室和创业公司在进行模型“蒸馏”、“微调”时,常将DeepSeek列为第一梯队选择,形成了隐形的技术定价权 [8][9] - 然而,闭源模型(如GPT、Gemini)仍占据市场主流,比例约为70% [9] 面临的竞争压力 - 谷歌Gemini 3 Pro在数学竞赛MathArena中得分高达23.4%,而包括GPT-5.1在内的其他大模型仅在1%上下挣扎 [7] - Gemini 3在编程能力基准测试Live Code Bench的Elo得分超过2400分,在工具调用和终端操作测试中名列第一 [7] - Gemini能通过Agent模式调动用户谷歌设备中的数据,形成生态协同 [7] - OpenAI与谷歌的激烈竞争直接拉升了整个闭源生态的技术上限,对DeepSeek构成威胁 [8] - 公司必须保持迭代速度,防止其开源模型能力与GPT-5、Gemini 3等最新闭源模型拉开代差,导致开发者流失 [7] 对国内AI行业的影响 - DeepSeek在2025年初月活登顶国产AIGC App,改变了国产大模型的叙事逻辑,加速了AI在大众生活中的渗透 [11] - 其崛起让腾讯、阿里、字节等传统互联网大厂意识到“AI即入口” [11] - 公司极致性价比的开源策略给国内同行带来了“窒息感” [11] - 其新模型迟迟未发,意外地为以智谱、MiniMax、月之暗面、阶跃星辰、百川智能、零一万物为代表的“六小龙”提供了约半年的喘息与融资窗口 [2][12] - 在此期间,月之暗面于2025年12月完成5亿美元C轮融资;智谱与MiniMax在2026年1月登陆港交所;阶跃星辰近期宣布完成50亿元B+轮融资 [12] - 互联网大厂在2026年春节发起流量大战:字节将火山引擎送上春晚;阿里拿下多个卫视春晚独家总冠;腾讯拿出10亿元为元宝App铺路 [13] - 大厂的流量逻辑与DeepSeek可能发布的新模型产生叠加效应,进一步挤压“六小龙”空间,迫使其转向垂直赛道深耕 [13]
国务院国资委推动央企扩大算力有效投资 DeepSeek模型更新
新浪财经· 2026-02-12 07:57
政府政策与产业导向 - 国务院总理李强强调要全面推进人工智能科技创新、产业发展和赋能应用,以培育壮大新质生产力,推动高质量发展 [1] - 国务院国资委要求中央企业积极扩大算力有效投资,推进“算力+电力”协同发展,并强化自主创新以攻关“大模型”技术,推动人工智能规模化落地应用 [1] 人工智能与算力基础设施 - Meta计划斥资超过100亿美元在印第安纳州建设一个占地400万平方英尺的数据中心园区,预计2027年底或2028年初投入运营,将创造300个长期工作岗位并投入超1.2亿美元改善当地基础设施 [3] - 国务院国资委推动中央企业提升全链条数据治理能力,夯实人工智能产业基础底座,并加快推动开源“焕新社区”迭代升级,推进“AI+”产业共同体建设 [1] 大模型技术进展 - DeepSeek更新后支持最高1M(百万)Token的上下文长度,可一次性处理超长文本 [2] - 智谱发布新一代旗舰模型GLM-5,在Coding与Agent能力上取得开源SOTA表现,真实编程场景体感逼近Claude Opus 4.5 [2] 公司财务与运营 - 网易2025年全年营业利润为358亿元人民币,同比增长21%;全年总营收1126亿元,其中在线游戏净收入达896亿元,同比增长11%;年研发投入达177亿元 [6] - 中际旭创澄清其光模块产品由公司直接按CSP客户需求定制开发并交付,商业模式未变,不存在CSP客户绕过公司向光芯片厂下单再转单的情形 [7] 公司资本运作与投资 - 上海燧原科技股份有限公司(云端AI芯片设计)科创板IPO审核状态变更为“已问询” [5] - 新锐股份拟以不超过7亿元人民币收购PCB刀具公司慧联电子70%股权,并以不超过2800万元收购WINWIN公司70%股权以解决同业竞争及发展海外市场 [8] - 中微半导拟将IPO募投项目节余资金1亿元用于新“IPM产线项目”,并在四川资阳设立全资子公司实施该项目 [10] - 欧科亿持股5%以上股东乐清德汇拟通过集中竞价减持不超过158万股(占总股本1%) [9] 前沿科技与标准制定 - 我国完成首次载人飞船返回舱海上搜索回收任务,为后续空间站及载人登月任务积累经验 [2] - 《电动汽车用固态电池第1部分:术语和分类》国标预计于2026年7月正式发布,将明确液态、混合固液及固态电池的定义 [4] - 美国西北大学科学家开发出先进的人类脊髓损伤类器官模型,可用于测试新型再生疗法 [12] - 国际研究团队首次利用“量子电容”技术成功读取拓扑量子比特中的信息,相关成果发表于《自然》杂志 [13]
来了!DeepSeek新模型 | 附体验入口
新浪财经· 2026-02-11 21:22
模型核心能力升级 - 上下文长度大幅提升至100万token,相比之前的128K提升了约10倍,可处理如《三体》三部曲般海量的文本内容 [6][9][11] - 知识库截止日期更新至2025年5月,相较于之前的2024年7月有显著更新,可能基于全新训练的基座模型 [6][9][14] - 文件处理能力支持上传并读取图片、PDF、Word、Excel、PPT、TXT等多种格式文件中的文字信息 [6] 技术性能与风格优化 - 前端与代码能力大幅提升,据开发者实测,其性能可媲美Gemini 3 Pro与K2.5等顶尖竞品 [10][12] - 语言风格更加热情、细腻和真实,旨在减少“幻觉”并提供更真诚的交流体验 [6][10][13] - 模型为纯文本模型,支持语音输入,但暂不支持多模态视觉理解 [6][14][15] 产品与市场定位 - 此次更新为DeepSeek最新版模型,是DeepSeek-V3或DeepSeek-R1之后的迭代版本 [6] - 产品目前完全免费,且公司声明没有收费计划 [6]
DeepSeek更新新模型,支持最高1M百万Token上下文长度
新浪财经· 2026-02-11 19:35
产品更新与功能发布 - DeepSeek在网页端和App端进行了版本更新,支持最高1M百万Token的上下文长度 [1][2] - 截至目前该版本仍未开放多模态能力 [1][2] - 相关媒体援引知情人士消息称,DeepSeek春节更可能推出针对V3系列模型的小幅更新 [1][2] 下一代模型规划与进展 - DeepSeek下一代旗舰模型预计将是一款万亿参数级别的基础模型 [1][2] - 因模型规模大幅跃升,训练速度明显放缓,导致发布进程有所延后 [1][2] 公司沟通与市场反馈 - 截至发稿,DeepSeek暂未回应新浪科技关于版本更新的相关问题 [2][3]
DeepSeek疑似已更新:上下文暴增至100万,知识库
观察者网· 2026-02-11 19:24
模型能力更新 - 公司疑似已更新至新版模型,手机端DeepSeek的“自我介绍”内容发生悄然变化 [1] - 更新后模型上下文处理能力达到1M(一百万tokens),可一次性处理《三体》三部曲体量的书籍 [1] - 模型知识截止时间更新至2025年5月 [1] 性能显著提升 - 与2025年12月1日发布的DeepSeek V3.2相比,当前实装模型的上下文能力从128K提升至1M,暴涨了8倍 [3] - 模型知识库“新鲜度”提升约10个月,从截止至2024年8月更新至2025年5月 [3] - 知识更新意味着模型对2024年下半年至2025年初的重要事件、技术进展和行业动态具备了认知基础 [3] 功能与发布状态 - 目前该模型依然不支持多模态功能 [3] - 此次更新疑似为静默升级,公司官方尚未进行任何正式发布和回应 [3]
DeepSeek新模型来了?
华尔街见闻· 2026-02-11 19:21
DeepSeek V4模型技术升级与市场影响 - 公司正在推进新版本模型的灰度测试 这可能是V4正式亮相前的终极灰度版[1] - 新版本模型上下文长度从128K扩展至1M 接近提升10倍 知识库更新至2025年5月[1] - 新版本在复杂任务处理能力上已对齐Gemini 3 Pro及K2.5等主流闭源模型[2] - 内部初步测试显示 V4在编程任务中的表现已超越Anthropic Claude及OpenAI GPT系列同代模型[2] V4模型核心技术架构创新 - V4预计将引入mHC与Engram两项创新技术 从算法与工程层面突破算力芯片与内存瓶颈[2] - mHC全称为“流形约束超连接” 旨在解决Transformer模型在层数极深时信息流动的瓶颈和训练不稳定的问题[3][4] - Engram是一个“条件记忆”模块 设计理念是将“记忆”与“计算”解耦 静态知识被专门存储在可置于廉价DRAM的稀疏内存表中[6] - mHC技术通过改善训练稳定性和收敛效率 对冲国产芯片在互联带宽与计算密度上的代际差距[8] - Engram架构致力于重构内存调度机制 在HBM供应受限的背景下 以更高效的存取策略突破显存容量与带宽制约[8] V4模型对行业成本与竞争格局的影响 - 此次发布的关键意义在于进一步压缩训练与推理成本 为全球大语言模型及AI应用企业缓解资本开支压力提供可行路径[2] - 成本端的优化将有效激发下游应用需求 进而催生新一轮AI基础设施建设周期[8] - 在2024年底 DeepSeek的两个模型曾占据OpenRouter上开源模型Token使用量的一半以上[9] - 到2025年下半年 随着更多玩家加入 其市场份额已显著下降 市场从“一家独大”走向了“群雄割据”[11] 对下游应用与软件行业的潜在机遇 - 更强大、更高效的V4将催生更强大的AI智能体 AI智能体正从“对话工具”转型为能处理复杂任务的“AI助手”[12] - 能执行多任务的智能体需要更频繁地与底层大模型交互 将消耗更多Token 进而推高算力需求[12] - 模型效能的提升为领先的软件公司创造了价值 需要关注那些能率先利用新一代大模型能力打造出颠覆性AI原生应用或智能体的软件公司[12]
DeepSeek更新新模型 可一次性处理超长文本
新浪财经· 2026-02-11 19:13
产品更新与性能提升 - DeepSeek在网页端和APP端进行了版本更新,将支持的上下文长度提升至最高1M(百万)Token [1] - 此次更新相比去年8月发布的DeepSeekV3.1版本支持的128K上下文长度,实现了大幅跃升 [1] - 实测表明,模型可一次性处理超长文本,例如能成功识别并处理超过24万个token的《简爱》小说文档内容 [1][2] 未来产品路线图 - 此次更新被认为是针对V3系列模型的一次小幅更新 [1][2] - DeepSeek的下一代旗舰模型预计将是一款万亿参数级别的基础模型,是公司未来的重点产品 [1][2] - 由于模型规模大幅跃升,训练速度明显放缓,导致该旗舰模型的发布进程有所延后 [1][2]
DeepSeek突然测试新模型,春节大招要来了?
凤凰网· 2026-02-11 18:52
核心产品更新 - 公司对核心大模型进行了关键更新,并已开启网页及App端的灰度测试 [2] - 模型的核心上下文窗口从原有的128K大幅提升至1M(百万Token)级别 [2] - 模型的知识库截止时间已更新至2025年5月,在非联网状态下可准确输出2025年4月的新闻事件 [2] - 此次升级未包含多模态视觉理解能力,模型仍聚焦于纯文本与语音交互路径 [2][5] 性能与能力对标 - 1M上下文窗口使模型能在单次处理中完整吞吐《三体》三部曲体量的长文本 [2] - 该长上下文能力直接对标GPT-5及Gemini 3 Pro等海外旗舰产品 [2] - 新模型的语言风格被评价为“热情而细腻”,前端响应质感被认为“可媲美Claude 3.5 Sonnet” [5] 公司战略与研发动向 - 公司在保持极致推理性能的同时,对C端交互体验进行了重点优化 [5] - 公司近期进行了大规模招聘,放出了多个技术核心岗位,包括负责LLM预训练、对齐、代码数学、骨干网络及多模态等前沿探索方向的深度学习研究员 [5] - 招聘岗位还包括深度学习研发工程师、大模型全栈工程师、全栈开发工程师及核心系统研发工程师等,校招、社招、实习均开放 [5] - 此次灰度发布的版本尚未被官方正式命名,业内猜测其可能对应网传的“DeepSeek V4”或强化版V3.2系列 [5]
DeepSeek突然测试新模型,上下文已到百万级
凤凰网· 2026-02-11 18:37
核心产品更新 - 公司对DeepSeek大模型开启灰度测试,核心上下文窗口从原有的128K大幅提升至1M(百万Token)级别 [1] - 模型知识库截止时间已更新至2025年5月,在非联网状态下能准确输出2025年4月的新闻事件 [1] - 1M上下文窗口使模型能在单次处理中完整吞吐《三体》三部曲体量的长文本,能力直接对标GPT-5及Gemini 3 Pro等海外旗舰产品 [1] - 本次升级未包含多模态视觉理解能力,模型仍聚焦于纯文本与语音交互路径 [1] 用户体验与性能 - 新模型的语言风格被评价为明显趋向“热情而细腻” [1] - 模型前端响应质感被早期体验者评价为“可媲美Claude 3.5 Sonnet” [1] - 此次升级被视为公司在保持极致推理性能的同时,对C端交互体验的一次精准补课 [1] 公司发展动态 - 公司近期曾大量招聘,放出了多个技术核心岗位,包括深度学习研究员、深度学习研发工程师、大模型全栈工程师、全栈开发工程师、核心系统研发工程师等 [2] - 招聘岗位涉及LLM的多个前沿探索方向,如预训练、对齐、代码/数学、骨干网络、多模态等 [2] - 招聘范围覆盖校招、社招、实习,另有产品、设计、数据等岗位开放 [2] 行业对标与版本猜测 - 此次灰度发布的版本能力直接对标海外旗舰产品如GPT-5及Gemini 3 Pro的长上下文能力 [1] - 业内普遍猜测,该灰度测试版本可能对应此前网传的“DeepSeek V4”或强化版V3.2系列 [2]