Seek . - 财报，业绩电话会，研报，新闻

Seek .(SKLTY)

搜索文档

36氪· 2025-12-03 11:57

产品发布与版本概述 - DeepSeek V3.2版本于12月1日晚正式上线并向所有用户开放，同时在各开源社区上传了本地部署模型供所有用户使用[1] - 该版本共有两个版本：在官方网站免费使用的DeepSeek V3.2版和仅支持API服务访问的DeepSeek V3.2-Speciale版，后者拥有更强的推理能力，主要用于探索模型能力的推理上限[2] - V3.2-Speciale版会主动进入"长思考加强"模式，并结合DeepSeek-Math-V2的定理证明能力，使其拥有更强的指令跟随、数学证明和逻辑验证能力[2] 性能表现与基准测试 - DeepSeek V3.2的推理能力基本与OpenAI的GPT-5相近，但成本远低于GPT-5[1] - V3.2-Speciale在官方测试中的推理基准测试成绩直接媲美最新的Gemini-3.0-Pro[2] - 在IMO 2025、CMO 2025、ICPC World Finals 2025及IOI 2025等四项赛事决赛试题测试中均获得金牌成绩，在ICPC和IOI测试中达到人类选手第二及第十名水平[4] - 横向对比中，DeepSeek V3.2-Speciale的赛事成绩全部超越了GPT-5 High[4] - 在具体基准测试中，V3.2-Speciale在AIME 2025得分为96.0(23k)，HMMT Feb 2025得分为99.2(27k)，IMOAnswerBench得分为84.5(45k)，LiveCodeBench得分为88.7(27k)，CodeForces得分为2701(77k)[5] 技术创新与成本优势 - 主要技术突破是引入DeepSeek Sparse Attention稀疏注意力机制，通过双版本设计满足不同场景下的推理需求[5] - DSA机制从根本上解决AI大模型在注意力方面的效率问题，通过有选择地计算部分关键元素之间的关联，显著降低所需计算数据[6] - 在DSA机制加持下，128K序列推理成本降低60%以上，推理速度提升约3.5倍，内存占用减少70%，同时模型性能没有明显下降[12] - 在H800集群测试中，序列长度达128K时，预填充阶段每百万token成本从0.7美元降到0.2美元，解码阶段从2.4美元降到0.8美元[12] - DeepSeek V3.2可能成为同级别AI大模型中长文本推理成本最低的模型[12] 功能升级与应用能力 - DeepSeek V3.2允许AI大模型在思考模式下调用工具，调用及使用工具的过程无需训练，使其拥有更强大的通用性能[13] - 作为开源模型可更好兼容使用者自制的工具[13] - 模型具备自主决策使用工具的能力，能够分步骤使用搜索和数学工具解决问题，并进行多轮答案验证[16][19][21] - 新功能使模型可通过拆解问题、逐个提问并针对问题使用不同工具来给出更好的解决方案，最后整合所有回答[21] 行业影响与市场定位 - DeepSeek V3.2在多个权威基准中对标GPT-5、Gemini 3.0 Pro，但推理成本只有行业主流模型三分之一甚至更低[22] - 模型以完全开源方式发布，终结了"开源模型永远落后闭源模型8个月"的行业争论[22] - DSA带来的成本革命对AI大模型商业化造成显著影响，成本下降60%不仅关系运营成本，还包括前期部署成本，使小型企业都可借助DeepSeek训练出更强模型[22] - 长文本交互价格足够低后，高级AI应用将不再局限于企业级市场，能更好推广到消费级市场使用，可能极大加速"AI工具取代传统软件"的趋势[23]

DeepSeek V3.2-Speciale

DeepSeek V3.2-Speciale

DeepSeek-Math-V2

如果你非得用DeepSeek看病，建议这么看（附详细提问模版）

36氪· 2025-12-03 11:23

AI在医疗领域的应用定位 - 当前AI不能替代专业医生进行诊断和治疗，因其无法执行医学专家所需的全面检查、个性化问诊和复杂决策 [2][23] - 生成式AI普遍存在“幻觉”问题，可能输出看似合理但不准确的信息，在医疗应用中存在潜在风险 [3] - 国家法规明确规定人工智能软件不得替代医师本人提供诊疗服务，且严禁使用AI自动生成处方 [23][24] AI作为医疗助手的具体应用场景 - 智能门诊分诊：输入病史后AI可推荐挂号科室，帮助患者精准就医 [4] - 智能就医咨询：提供就诊流程、注意事项（如空腹要求）等准备工作指导 [4] - 医疗知识科普：确诊后解释疾病信息、医学名词和健康管理方法 [4] - 用药指导辅助：咨询药物副作用、相互作用等用药安全问题 [4] 优化AI医疗咨询效果的方法 - 提供完整病史模板需包含性别年龄、症状细节、过敏史、女性月经情况等核心信息 [8][9] - 选填病史包括既往病史、生活习惯、家族史等可显著提高诊断准确性，例如腹痛患者补充“末次月经40天前”需排查宫外孕 [11][13] - 上传近期检验检查结果及历史报告对比，可为判断疾病进展提供辅助依据 [15][16] AI医疗咨询的局限性及使用规范 - 紧急症状如胸痛、呼吸困难等需直接拨打急救电话，不应先咨询AI [17] - AI给出的治疗建议或方案调整需经医生确认后方可执行，尤其涉及处方药使用时 [21][23] - 当AI建议与医生诊断冲突时，应优先参考医生的专业判断和权威医疗指南 [19][23] 行业发展现状与前景 - 全国近百家医院已完成DeepSeek本地化部署，应用于临床辅助诊疗、医院管理等多个环节 [23] - AI在解释医学名词、推荐科室等基础信息提供方面准确性较高，具有重要参考价值 [23] - 行业认为AI目前主要起参考辅助作用，其“仅供参考”的提示体现了对医疗安全性的高度重视 [24]

DeepSeek杀出一条血路：国产大模型突围不靠运气

36氪· 2025-12-03 11:21

技术突破与架构创新 - 公司发布DeepSeek-V3.2和Speciale两款模型，推理性能对标GPT-5，在数学、逻辑和多轮工具调用中表现强势，成功刷新国内开源模型在推理能力上的最高纪录[1][2] - 突破核心在于引入稀疏注意力机制（DSA），通过“闪电索引器”快速预判关键token对，将核心注意力机制的计算复杂度从平方级降至近线性，在128K超长上下文中保持稳定计算负担[2][3] - 采用“密集预热—稀疏过渡”的双阶段训练策略，实现架构渐变式演进，在Fiction.liveBench、AA-LCR等长文本任务测试中信息召回、上下文一致性和压缩表达能力得分显著上升[3] Agent能力与战略转向 - 公司将“Agent能力”与“推理能力”并列为核心指标，视Agent为模型能力释放与产业落地的桥梁，而非附属模块[6] - 为打造Agent训练体系，合成了超过1800个智能体环境，设计了约85,000条高复杂度任务提示，通过自研的GRPO策略进行强化学习闭环训练[7][8] - 引入“Thinking in Tool-Use”工具使用范式，将执行链条改为交错逻辑，并设计上下文管理策略，使推理轨迹在工具调用过程中被完整保留，实现“状态延续机制”[4][8] 后训练策略与效率提升 - 采用“后训练三件套”策略：专家蒸馏、多轨强化学习、工具思维机制融合，通过六类专家模型生成高质量训练样本反哺主模型[10][11] - 后训练阶段算力投入占比超过预训练预算的10%，强化学习过程通过任务环境自带反馈机制与rubric自动评分，形成闭环学习路径[11] - 设计冷启动系统提示和上下文状态管理，显著降低token冗余，提升“单位token的智能密度”，实现在资源受限前提下提升模型效能[12] 行业竞争格局与路径选择 - 在规模红利见顶后，行业竞争焦点从“参数多少”回归到“思维组织力”与“能效比”[5] - 公司对Agent的理解从“任务执行插件”上升至“模型操作系统”组成部分，试图主导“交错式思维+工具使用”的统一范式，争夺平台话语权[9] - 与闭源阵营追求“更大、更快、更强”的路径不同，公司代表了一种“更轻、更稳、更聪明”的新路径，以更强的推理组织力和更高效训练范式重构开源模型竞争秩序[13]

Artificial Intelligence

Artificial Intelligence

DeepSeek-V3.2

DeepSeek发布新模型！创业板50ETF（159949）涨0.48%，机构持续看好AI产业链投资机会

新浪财经· 2025-12-03 10:33

创业板50ETF（159949）实时交易数据 - 截至12月3日10:20，创业板50ETF（159949）上涨0.48%，报1.467元，成交额4.22亿元，换手率1.66% [1][6] - 该ETF日内最高价1.478元，最低价1.461元，振幅1.16%，均价1.470元 [2][7] - 近5日净流入27,465万元，近20个交易日累计成交金额323.05亿元，日均成交金额16.15亿元 [2][7] - 今年以来222个交易日累计成交金额3,205.79亿元，日均成交金额14.44亿元 [2][7] 创业板50ETF（159949）历史表现与基本资料 - 该ETF 5日涨幅1.38%，20日跌幅2.52%，60日涨幅9.81%，120日涨幅52.65%，250日涨幅50.62% [2][7] - 52周价格区间为0.76元至1.60元，当前净值1.4591元，升贴水率0.54% [2][7] - 跟踪创业板50指数（代码399673），市盈率47.58，市净率5.89，市销率5.21，股息率0.96% [2][7] - 日均偏离度1年为0.01%，跟踪误差1年为0.58%，最小申赎单位份额为1,000,000 [2][7] 创业板50ETF（159949）持仓结构 - 前十大重仓股包括宁德时代、中际旭创、东方财富、新易盛、阳光电源、胜宏科技、汇川技术、迈瑞医疗、亿纬锂能、同花顺等龙头企业 [3][8] - 前十大重仓股合计占基金净值比例69.35%，其中宁德时代持仓占比24.25% [4][9] 行业与市场动态 - 12月1日DeepSeek发布DeepSeek-V3.2和DeepSeek-V3.2-Speciale模型，在推理类Benchmark测试中达到GPT-5水平，略低于Gemini-3.0-Pro [4][9] - 长城证券研报认为AI应用落地将倒逼算力基础设施加快建设，看好AIDC产业链的光模块、PCB、主设备商及铜缆等环节 [5][10] - 模组行业需求从传统数传模组向智能模组及算力模组转变，成为边缘算力重要环节 [5][10]

2025-12-03 10:12

**行业与公司** * 行业涉及人工智能与大模型领域重点包括强化学习合成数据稀疏化技术注意力机制优化等方向[1] * 核心公司包括 Deepseek DeepMind OpenAI 以及提及的谷歌阿里等大型科技公司[1][7][9] **Deepseek V3 2 模型的核心技术特点与改进** * 架构上引入 DSA 机制取代 MLA 机制通过位置编码计算索引选取关键注意力参数优化推理效率尤其在复杂任务中减少冗长思维链的计算负担[1][3] * 后训练阶段的 C9 版本投入约10%的预训练计算量显著提升模型在复杂任务（如代码调试）中的强化学习能力达到全球领先水平[1][3][5] * 采用高效的上下文管理策略智能处理用户频繁开启新任务多轮对话及模糊输入有效降低推理成本[1][3] * 使用大量人类专家编写并增量训练生成的高难度合成数据比例较之前增加一倍以上对后续强化学习阶段至关重要[1][3][4][6] * DSA 机制结合筛选和缓存技术将 KV 缓存量降至50%以下筛选机制可减少90%的 KV 缓存占比[18] * 在稠密阶段冻结部分参数仅用少量参数（例如7 000亿参数模型中用20亿参数）进行初步规律提取再进行稀疏训练提高效率[18] **强化学习技术的最新发展与影响** * DeepMind 的新框架结合 Rubik‘s 规则提示机制使系统能边思考边执行并根据环境反馈调整策略提高了强化学习效率[8][9] * 该框架促使大型科技公司加速探索多模态视频和图像领域的应用推动2025年相关模型发展[1][9] * 强化学习所需算力受数据条目数量数据采样系数（简单任务为2-4倍高难度任务可达128倍）思维链输入输出长度等因素影响浮动范围可达50倍[13][14] * 预计到2026或2027年强化学习所需算力将接近预训练算力的一半国内模型该比重可能达到20%至30%[15] **合成数据的作用与优势** * 合成数据比例大幅增加其效果与难度系数密切相关高难度高质量的合成数据极大提升了模型在强化学习阶段的性能[6] * 在缺乏真实数据的极罕见长尾场景（如汽车高速碰撞）中合成数据尤为重要可通过智能体思维生成新个体和模拟环境来提升模型性能[16] **开源与闭源模型的趋势变化** * Deepseek 完成了全面的后训练过程并将结果开源支持 Agent 调用能力使得开源模型在功能上可与闭源模型媲美可能引领开源项目新趋势[7] **稀疏化技术与未来模型价格趋势** * 稀疏化技术降低了训练算力要求并提升了训练上限激发开发更大参数模型的动力[2][19] * 预计到2026年模型价格将大幅下降可能降至现在的1/5 这将激发更多创业公司参与大模型开发[2][20] **预训练算力消耗现状与发展** * 全球主要厂商预训练算力需求显著提升美国一些领先企业算力达10^25到10^26 FLOPS 相比 DeepMind（10^24 FLOPS）增长50到100倍[7] * 预训练算力需求增速趋缓但通过基础设施效率提升（如TPU集群优化）大规模预训练依然有发展潜力[17] **下一代大模型发展方向** * 发展方向集中在全模态融合（文本图片视频音频）与物理世界数据交互以及具备更自适应推理机制更强人机交互和长时间记忆能力[22] * V4 模型将基于现有高版本推进重点验证和增强 Agent 功能[25] **大模型能力上限的迁移** * 后训练的潜力越来越大模型能力上限正从预训练向后训练迁移尤其在人文创意等没有固定答案的领域其能力逐渐被打开将吸引更多应用厂商[10][11] **垂直场景中的应用示例** * 以电商平台AI万能搜索为例通过多轮对话机制基于用户历史数据 prompt响应和反馈数据不断优化推荐结果满足个性化需求[12]

Artificial Intelligence

Artificial Intelligence

DeepSeek V3.2

DeepSeek上新两款模型，计算机ETF（159998）昨日成交额居同标的产品第一，机构：全球AI产业进入共振期

21世纪经济报道· 2025-12-03 09:24

市场表现 - 12月2日A股市场震荡调整，深成指和创业板指一度跌超1%，中证计算机主题指数下跌1.38% [1] - 计算机ETF（159998）当日成交额超6400万元，换手率2.58%均居同标的产品第一 [1] - 云计算ETF天弘（517390）年初至今份额增长近1.7亿元，年内份额增长率高达351.26%居同标的第一 [1] 行业动态与产品发布 - DeepSeek于12月1日发布两个正式版模型DeepSeek-V3.2和DeepSeek-V3.2-Speciale，强化Agent能力并更新官方网页端、App和API [2] - 国内首个光量子计算机制造工厂于11月24日在深圳南山区落成，总面积约5000平方米，进入小批量生产阶段 [2] 行业前景与增长预测 - AI落地方向包括软硬结合的端侧AI硬件、C端出海软件、B端企业服务与制造业信息化、G端大模型私有化部署 [1] - 太空算力产业奇点临近，算力竞争有望开辟新角逐场，全球AI产业进入共振期 [2] - 预计在新五年期间云计算将保持20%以上的增长，到2030年我国云计算市场规模有望突破3万亿元 [2]

Seek .(US:SKLTY)

Quantum Computing

Blockchain

Artificial Intelligence

Artificial Intelligence

Cloud Computing

Software

Computer Equipment

DeepSeek的小更新，暴打了OpenAI，追上了Gemini

36氪· 2025-12-03 08:58

模型发布与性能表现 - DeepSeek于2025年12月1日发布两款新模型DeepSeek V3.2和DeepSeek-V3.2-Speciale [1] - DeepSeek-V3.2与GPT-5性能相当，而高性能版DeepSeek-V3.2-Speciale与闭源模型天花板Gemini表现相当 [5] - 新模型在国际数学奥林匹克(IMO 2025)、中国数学奥林匹克(CMO 2025)等比赛中获得金牌 [5] - 在多项基准测试中，DeepSeek-V3.2-Speciale表现优异：AIME 2025得分96.0(23k)、HMMT Feb 2025得分99.2(27k)、CodeForces得分2701(77k) [6] - 这是公司今年第九次发布模型 [6] 技术创新与架构改进 - 公司将稀疏注意力(DSA)技术正式应用于主力模型，通过为模型添加"目录"机制优化长文本处理能力 [9][13] - 稀疏注意力技术使模型在处理长句子时推理成本保持稳定，而传统V3.1模型的推理成本随句子长度增加而显著上升 [14][16] - 公司重视开源模型的后训练工作，在预训练结束后投入超过总训练算力10%的资源进行强化学习训练 [17] - DeepSeek-V3.2-Speciale取消了思考长度限制，鼓励模型进行深度思考，实现与Gemini 3相当的性能 [19][20] 训练数据与Agent能力提升 - 模型后训练使用了24667个真实代码环境任务、50275个真实搜索任务、4417个合成通用agent场景、5908个真实代码解释任务 [22] - 公司优化了工具使用流程，在工具调用过程中保持思考过程连续性，仅当用户提出新问题时才重置推理链 [23] - 公司特别重视模型在智能体(Agent)方面的能力建设 [24] 效率与成本优势 - 虽然DeepSeek-V3.2-Speciale回答相同问题需要8077个Tokens，比Gemini的4972个Tokens高出约六成，但成本优势明显 [30][32] - DeepSeek处理问题成本为0.0032美元，而Gemini处理相同问题成本为0.06美元，DeepSeek成本优势达20倍 [33] - 公司通过算法创新而非单纯堆砌参数实现技术进步，包括V2的MoE、V3的多头潜在注意力(MLA)、Math V2的自验证机制等 [39]

Seek .(US:SKLTY)

稀疏注意力

强化学习协议

Artificial Intelligence

DeepSeek V3.2

DeepSeek-V3.2-Speciale

GPT-5

稀疏注意力

强化学习协议

Artificial Intelligence

DeepSeek V3.2

DeepSeek-V3.2-Speciale

GPT-5

DeepSeek-V3.2正式版及高计算版发布

新华网· 2025-12-02 20:14

公司动态 - 深度求索公司于12月1日晚间宣布发布两个正式版模型：DeepSeek-V3.2和高计算版本DeepSeek-V3.2-Speciale [1] - 公司推出的DeepSeek-V3.2模型在保持卓越推理能力和智能体性能的同时，实现了高计算效率的平衡 [1] - 深度求索公司全称为杭州深度求索人工智能基础技术研究有限公司，成立于2023年7月 [1] 行业与产品 - 深度求索公司专注于大语言模型及多模态AI技术研发 [1]

Seek .(US:SKLTY)

大语言模型

多模态AI技术

Artificial Intelligence

DeepSeek-V3.2

DeepSeek-V3.2-Speciale

大语言模型

多模态AI技术

Artificial Intelligence

DeepSeek-V3.2

DeepSeek-V3.2-Speciale

PriceSeek重点提醒：瓦楞纸现货价格上调50元

新浪财经· 2025-12-02 19:41

公司价格调整 - 广东松炀再生资源股份有限公司宣布自12月8日8:30起上调高强瓦楞纸价格50元/吨 [1][2][3] - 此次价格上调包含已下订单 [1][2][3] 行业市场影响 - 价格上调表明瓦楞纸市场需求强劲或成本压力增加 [1][3] - 此次调价对现货价格构成重大利好并可能带动市场整体价格上行 [1][3] - 价格上调反映出供应偏紧或下游包装行业需求提升 [1][3] 产品多空评分 - PriceSeek对瓦楞纸的多空评分为2 [1][3]

从开源最强到挑战全球最强：DeepSeek新模型给出了解法

观察者网· 2025-12-02 19:38

模型发布核心信息 - 12月1日，公司发布两个正式版模型：面向日常使用的DeepSeek-V3.2和面向极致探索的DeepSeek-V3.2-Speciale [1] - DeepSeek-V3.2是9月底实验版V3.2-Exp的正式版，平衡推理能力与输出长度，适合问答场景并强化了Agent能力，官方网页端、App和API均已更新 [1][4] - Speciale版本是V3.2的长思考增强版，结合了DeepSeek-Math-V2的定理证明能力，目标是将开源模型推理能力推向极致，目前仅以临时API服务形式开放 [1] 模型性能表现 - 在公开推理测试中，V3.2已达到GPT-5水平，仅略低于Google Gemini 3 Pro，相比Kimi-K2-Thinking输出长度大幅降低，减少计算开销与用户等待时间 [6] - Speciale在多个推理基准测试中超越Gemini 3 Pro，包括美国数学邀请赛（96.0分）、哈佛MIT数学竞赛（99.2分）和IMO（84.5分） [7] - 在编程与理工科博士生测试中，Speciale仍略逊于Google顶级模型，如LiveCodeBench（88.7分）和GPQA Diamond（85.7分）低于Gemini 3 Pro的90.7分和91.9分 [7] 技术架构创新 - 公司设计了DSA（DeepSeek稀疏注意力）机制应对长文本计算量爆炸，该机制像图书管理员通过“闪电索引器”只检索关键信息，大幅降低计算复杂度 [8] - V3.2的核心亮点是“Thinking in Tool-Use”（思考型工具调用），这是AI Agent领域的“Interleaved Thinking”（交错思维链）技术的重要背书 [8][9] - 该技术将冗长、重度依赖工具的任务转化为稳定的“计划→行动→反思”循环，通过复用假设与部分结论减少多轮任务中的“状态漂移”与重复性错误 [9] 战略方向与行业定位 - 公司将“Agent能力”提升到与“推理能力”同等重要的战略位置，试图通过Agent能力将模型从“聊天机器人”进化为真正的“数字劳动力” [13] - 从经济维度看，企业真正愿意付费的是“降本增效的行动”而非“更优美的回答”，Agent使LLM从“对话式AI”进化为“动作式AI”以产生商业闭环 [13] - 公司思路已从工具转变为基础设施提供商，大模型正演变成调度工具的通用操作系统，模型是内核，Agent是用户态程序，插件则是工具 [14] 行业竞争格局 - 过去一年开源大模型生态集体爆发，阿里云Qwen系列、月之暗面Kimi、智谱GLM和MiniMax M系列均取得超越当时顶级闭源模型的成果 [1] - Google Gemini 3.0 Pro的发布重新定义了“全球最强”，其强劲性能让开源和闭源的差距瞬间又变成了一道新的天花板 [2] - 开源模型存在三个关键缺陷：对标准注意力机制的过度依赖、后训练阶段计算投入不足、Agent领域泛化能力和指令遵循能力存在明显差距 [15] 未来发展路径 - 公司计划通过增加预训练计算量填补知识空白，并优化模型推理链的“智能密度”提高效率，让模型学会“少说话、多办事” [16] - 研究员Zhibin Gou表示，训练后的瓶颈需通过优化方法和数据解决，而非仅等待更好的基础模型，持续扩大模型规模、数据量、上下文和强化学习 [17] - 公司用实打实的模型证明Scaling没死只是换了战场，当行业讨论Scaling Law是否撞墙时，公司想证明持续扩展的可能性 [19]

Artificial Intelligence

Artificial Intelligence

Previous Next