Workflow
DeepSeek V3.1
icon
搜索文档
DeepSeek更新后被吐槽变冷变傻:比20年前的青春伤感文学还尴尬
每日经济新闻· 2026-02-13 06:23
公司产品更新与测试 - 公司于2月11日对其旗舰模型进行了灰度测试,在网页端和APP端更新版本,支持最高1M(百万)Token的上下文长度 [1] - 此次更新将上下文长度从去年8月发布的DeepSeek V3.1的128K大幅提升至1M,记者实测可一次性处理超过24万个token的《简爱》小说文档 [1] - 有行业人士认为,此版本类似于“极速版”,可能是牺牲质量换取速度,为2026年2月中旬将发布的V4版本做最后的压力测试 [6] 用户反馈与产品体验变化 - 更新后,部分用户反馈模型行为发生变化,例如不再称呼用户设定的昵称而统一称“用户”,思考过程的角色视角和心理描写减少 [4] - 有用户认为模型回复风格变得“说教、居高临下”(被描述为“爹味”),或变得“文绉绉、情绪激动”,类似“青春伤感文学” [4] - 也有用户反馈模型变得“客观和理性”、“更像人了”,更在意提问者的心理状态而非问题本身 [5] 技术架构与研发进展 - 公司模型迭代路径清晰:V系列定位为追求极致综合性能的基础模型,2024年12月推出V3确立基础,随后快速迭代发布强化推理与Agent能力的V3.1,并于2025年12月推出最新正式版V3.2及专注于高难度数学和学术问题的V3.2-Speciale [6] - 公司团队今年初发表两篇论文,公开两项创新架构:mHC(流形约束超连接)用于优化深层Transformer信息流动,提升训练稳定性和扩展性;Engram(条件记忆模块)将静态知识与动态计算解耦,用廉价DRAM存储知识以降低长上下文推理成本 [7] - 据科技媒体The Information爆料,公司计划在今年2月中旬农历新年期间推出新一代旗舰模型DeepSeek V4,将具备更强的写代码能力 [6]
DeepSeek新模型曝光
财联社· 2026-01-21 14:34
DeepSeek新模型“MODEL1”架构曝光 - 2025年1月,DeepSeek官方GitHub仓库更新FlashMLA代码,其中发现一个此前未公开的模型架构标识“MODEL1”,在114个总代码文件中被提及31次[4] - FlashMLA是公司独创的、针对英伟达Hopper架构GPU深度优化的软件工具,专门加速大模型推理生成环节,其实现基础MLA是公司模型实现低成本、高性能的关键技术之一[4] - MODEL1是DeepSeek FlashMLA中支持的两个主要模型架构之一,另一个是DeepSeek-V3.2[5] MODEL1的技术特性与市场定位推测 - 推测MODEL1很可能是一个高效推理模型,相比V3.2内存占用更低,适合边缘设备或成本敏感场景[5] - 推测MODEL1也可能是一个长序列专家,针对16K+序列优化,适合文档理解、代码分析等长上下文任务[5] - MODEL1的硬件实现跨越多个GPU架构,在英伟达H100/H200上有64头和128头两个版本,在最新的B200上有专门的Head64内核实现,且SM100的Head128实现仅支持MODEL1,不支持V3.2[5] - 有人猜测公司为适配英伟达新一代GPU,专门优化了MODEL1的架构[5] DeepSeek现有产品线梳理 - 公司已发布的主要模型是两条技术路线的代表:追求极致综合性能的V系列“全能助手”和专注于复杂推理的R系列“解题专家”[6] - 2024年12月推出的V3是公司的重要里程碑,其高效的MoE架构确立了强大的综合性能基础[6] - 公司在V3基础上快速迭代,发布了强化推理与Agent能力的V3.1,并于2025年12月推出了最新正式版V3.2,同时推出了专注于攻克高难度数学和学术问题的特殊版本V3.2-Speciale[6] - 2025年1月发布的R1通过强化学习在解决数学问题、代码编程等复杂推理任务上表现卓越,并首创了“深度思考”模式[7] 公司未来产品与技术动向 - 科技媒体The Information月初爆料称,公司将在2025年2月中旬农历新年期间推出新一代旗舰AI模型——DeepSeek V4,将具备更强的写代码能力[7] - 公司研究团队陆续发布了两篇技术论文,分别介绍了名为“优化残差连接”的新训练方法,以及一种受生物学启发的“AI记忆模块”[7] - 这一举动引起用户猜测,公司正在开发中的新模型有可能会整合这些最新的研究成果[7]
R1模型发布一周年 DeepSeek新模型“MODEL1”曝光
新浪财经· 2026-01-21 12:05
公司技术路线与产品矩阵 - DeepSeek已形成两条主要技术路线:追求极致综合性能的V系列“全能助手”和专注于复杂推理的R系列“解题专家” [2] - 公司于2024年12月推出重要里程碑模型V3,其高效的MoE架构奠定了强大的综合性能基础 [3] - 公司在V3基础上快速迭代,先后发布了强化推理与智能体能力的V3.1,并于2025年12月推出最新正式版V3.2 [3] - 公司同时推出了专注于攻克高难度数学和学术问题的特殊版本V3.2-Speciale [3] - 公司于2025年1月发布R1模型,该模型通过强化学习在解决数学问题、代码编程等复杂推理任务上表现卓越,并首创了“深度思考”模式 [3] 新模型“MODEL1”的发现与推测 - 2025年1月,DeepSeek官方GitHub仓库更新FlashMLA代码,代码分析发现了一个此前未公开的模型架构标识“MODEL1”,该标识在114个总代码文件中被提及31次 [1] - “MODEL1”是DeepSeek FlashMLA中支持的两个主要模型架构之一,另一个是DeepSeek-V3.2 [2] - 推测“MODEL1”很可能是一个高效推理模型,相比V3.2内存占用更低,适合边缘设备或成本敏感场景 [2] - 推测“MODEL1”也可能是一个针对16K+序列优化的长序列专家,适合文档理解、代码分析等长上下文任务 [2] 技术创新与硬件适配 - FlashMLA是DeepSeek独创的、针对英伟达Hopper架构GPU深度优化的软件工具,专门用于加速大模型的“推理生成”环节 [1] - FlashMLA算法的实现基础MLA(多层注意力机制)是DeepSeek模型实现低成本、高性能的关键技术之一,用于在模型架构层面减少内存占用,最大化利用GPU硬件 [1] - “MODEL1”的硬件实现跨越多个GPU架构:在英伟达H100/H200(SM90架构)上有64头和128头两个配置版本;在最新的B200(SM100架构)上有专门的Head64内核实现 [2] - SM100架构的Head128实现仅支持“MODEL1”,不支持V3.2,推测DeepSeek为适配英伟达新一代GPU专门优化了“MODEL1”的架构 [2] 未来产品发布与技术整合 - 科技媒体The Information爆料称,DeepSeek将在2025年2月中旬农历新年期间推出新一代旗舰AI模型DeepSeek V4,该模型将具备更强的写代码能力 [3] - DeepSeek研究团队近期发布了两篇技术论文,分别介绍了名为“优化残差连接(mHC)”的新训练方法,以及一种受生物学启发的“AI记忆模块(Engram)” [3] - 此举引起用户猜测,公司正在开发中的新模型有可能会整合这些最新的研究成果 [3]
AI大模型分野:从技术狂热到商业价值回归
新浪财经· 2025-12-25 20:40
2025年中国大模型市场综述 - 2025年中国大模型市场经历深刻“价值回归”,技术突破边际效应减弱,竞争焦点转向真实需求、可持续商业模式与产业深度,被总结为“全球化AI应用的创业之年” [2] - 市场格局从“科技巨头”与“AI六小虎”的二元叙事,加速转向更复杂、多维的竞合新阶段 [3][12] DeepSeek的发展与影响 - 2025年1月27日,DeepSeek登顶美国苹果商店免费应用下载榜首,成为全球现象级产品 [3][11] - 上半年凭借V3与R1模型持续扩张,国内外多家云服务商、数据中心等基础设施厂商宣布接入部署 [3][12] - 进入下半年后声量回落,8月推出的V3.1及后续V3.2版本市场反响平淡,未能重现年初热度 [4][13] - 分析认为其仍是开源领域应用最广的模型之一,长期团队愿景和技术探索值得期待,背后有私募巨头幻方量化支持 [4][13] 中美大模型竞争格局 - 美国市场以Google为代表的公司未来可能占据更领先位置,OpenAI地位受到明显挑战 [5][14] - 中国市场阿里与字节跳动表现非常突出,腾讯年末挖来OpenAI前研究员体现大厂强势进攻 [5][14] - 对于创业公司而言,在大模型领域实现突破的难度越来越大,竞争焦点将转向应用层 [5][14] “AI六小虎”战略分化 - **零一万物**:停止万亿参数以上超大模型训练,聚焦商业化,其ToB解决方案已在政务、金融、工业、办公、销售等领域落地,2025年实现数倍于2024年的营收增长,并成功推动多个国际项目落地 [5][6][14][15] - **百川智能**:停止超大模型训练,更加聚焦医疗赛道,对金融业务进行优化调整以集中资源 [5][6][14][15] - **阶跃星辰**:坚守大模型训练,将智能终端Agent作为关键发力点,在汽车、手机、具身智能、IoT等端侧场景全面合作,国内超过60%头部国产手机厂商已与其深度合作 [2][6][15] - **智谱AI**:坚守大模型训练并重视商业化,其模型已赋能全球12000家企业客户、逾8000万台终端用户设备及超4500万名开发者 [6][7][16] - **MiniMax**:坚守大模型训练并重视商业化,截至2025年9月30日,其AI原生产品累计用户数达2.12亿以上,开放平台个人开发者和企业用户达13.2万 [7][16] - **月之暗面**:仍执着于技术探索,商业化相对薄弱,但已任命原投资人张予彤为总裁,负责整体战略与商业化,转向市场与资本双轮驱动 [2][7][16] 资本市场动向 - 一级市场投资转向谨慎,中美投资人几乎不再下注底层模型公司,更愿意投资AI应用、消费者应用、AI基础设施及企业应用 [7][8][17] - 资本话题从融资转向上市,智谱和MiniMax已通过港交所聆讯,将成为国内最早上市的独立大模型厂商 [8][18] - 市场预测智谱和MiniMax短期内将吸引大量关注,但长期表现取决于MaaS收入是否持续高增长及亏损是否明显收窄 [8][18] - 有消息称月之暗面或于2026年启动IPO,但其核心挑战在于缺乏规模化营收及持续盈利能力的证明 [8][18] 技术与未来展望 - 2026年可能成为“AI新物种”诞生元年,每个行业都可能出现具备全闭环能力的AI新物种,AI驱动的“全闭环化”将渗透各产业形成行业颠覆者 [9][18] - 技术层面,现有Transformer架构可能无法支撑下一代Agent,未来架构极有可能向“Non-LinearRNN”(非线性循环神经网络)演进 [9][19]
AI大模型分野:从技术狂热到商业价值回归|2025中国经济年报
华夏时报· 2025-12-25 16:16
2025年中国大模型市场核心观点 - 2025年中国大模型市场经历“价值回归”,技术突破边际效应减弱,竞争焦点转向真实需求、可持续商业模式与产业深度,进入“生存进化”阶段 [2] - 市场格局从“巨头”与“小虎”的二元叙事,加速转向更复杂、更具张力与不确定性的多维竞合新阶段 [3] - 基础模型领域竞争激烈且“烧钱”,创业公司实现突破的难度越来越大,随着技术进入平台期,未来模型底座发生突变的可能性较小,竞争焦点将转向应用层 [5] - 一级市场对大模型领域的投资更加谨慎,投资人几乎不再下注更多更贵的底层模型公司,资本正转向AI应用、消费者应用、AI基础设施及企业应用 [7][8] - 2026年将是“AI新物种”的诞生元年,AI驱动的“全闭环化”将渗透至各个产业,形成行业颠覆者 [9] 市场格局与主要参与者动态 - **DeepSeek**:2025年初登顶美国苹果商店免费应用下载榜首,对原有大模型市场格局形成显著冲击 [3];下半年声量回落,V3.1和V3.2更新市场反响平淡 [4];在开源领域仍是目前应用面最广的模型之一,背后有幻方量化支持 [4] - **“AI六小虎”分化**: - **零一万物**:停止万亿以上超大参数巨模型训练,聚焦行业应用和商业化 [5];2025年商业化取得显著突破,ToB解决方案在政务、金融、工业等领域落地,实现数倍于2024年的营收增长,并成功推动多个国际项目落地 [6] - **百川智能**:停止超大模型训练,更加聚焦医疗赛道,对金融业务进行优化调整以集中资源 [5][6] - **阶跃星辰**:坚守大模型训练,将智能终端Agent作为技术落地关键发力点 [2];2025年其Agent在汽车、手机、具身智能、IoT等端侧场景与合作伙伴全面合作,国内超过60%头部国产手机厂商已与其深度合作 [6];研究认为未来架构可能向“Non-LinearRNN”演进以支撑下一代Agent [10] - **智谱AI**:坚守大模型训练并重视商业化,作为商业化佼佼者成功闯关二级市场 [2];其大模型已赋能全球12000家企业客户、逾8000万台终端用户设备及超4500万名开发者 [7] - **MiniMax**:坚守大模型训练并重视商业化,作为商业化佼佼者成功闯关二级市场 [2];截至2025年9月30日,其AI原生产品累计用户数达2.12亿以上,开放平台个人开发者和企业用户达13.2万 [7] - **月之暗面**:开始重视商业化,任命原投资人张予彤为总裁,负责公司整体战略与商业化,从技术驱动迈向市场与资本双轮驱动 [2][6];近期有消息称或于2026年启动IPO [9] - **科技巨头**:在中国市场,阿里与字节跳动表现非常突出,腾讯挖来OpenAI前研究员姚顺雨也体现大厂的强势进攻 [5] 商业化与资本市场进展 - 多家公司商业化落地取得进展:零一万物在多个领域实现ToB解决方案落地并实现数倍营收增长 [6];阶跃星辰在手机、汽车等终端场景与头部厂商深度合作 [6];智谱AI与MiniMax通过赋能大量企业客户和开发者实现商业化 [7] - 资本市场话题从融资转向上市:智谱和MiniMax已先后通过港交所聆讯,将成为国内最早上市的独立大模型厂商 [8];月之暗面被传或于2026年启动IPO [9] - 资本市场长期关注点:MaaS收入是否持续高增长,以及亏损是否明显收窄,公司需要证明有清晰的盈利路径 [8][9]
DeepSeek V3到V3.2的进化之路,一文看全
机器之心· 2025-12-08 12:27
DeepSeek模型系列技术演进 - 公司于2024年12月发布DeepSeek V3基础模型,随后推出基于相同架构的专用推理模型DeepSeek R1,使其成为最受欢迎的开放权重模型之一,成为OpenAI、Google、xAI和Anthropic等公司专有模型的有力替代方案[11] - 从DeepSeek V3到V3.2的演进过程中,公司模型策略从专用推理模型转向混合模型,V3.1和V3.2均为兼具通用聊天和推理能力的混合模型,而R1可能更多是作为研究项目或测试平台[25] - 公司于2025年9月发布实验性模型DeepSeek V3.2-Exp,旨在为更大规模的发布准备生态系统和推理基础设施,该模型引入了非标准的稀疏注意力变体,需要定制代码[17][18] - 2025年12月1日,公司发布新旗舰模型DeepSeek V3.2和DeepSeek V3.2-Speciale,与当前专有旗舰模型相比表现非常出色[5][103] 核心架构创新:注意力机制与效率提升 - DeepSeek V3基础模型采用了混合专家模型和多头潜在注意力架构,MLA通过在将键和值张量存储到KV缓存前将其压缩到低维空间来节省内存,虽然增加了一次额外的矩阵乘法,但显著减少了内存使用[29][31][32] - DeepSeek V3.2-Exp及V3.2的主要架构创新是DeepSeek稀疏注意力,该机制由Lightning Indexer和Token选择器组成,基于学习到的相关性分数选择性地关注部分过去的Token,而非所有Token或固定局部窗口[49][50][54][58][59] - DSA将注意力机制的计算复杂度从二次的O(L²)降低到了线性的O(Lk),其中L是序列长度,k是选定Token的数量,在减少性能衰减的同时实现了效率提升[66][67][68] - DeepSeek V3.2使用了与DeepSeek V3.2-Exp完全相同的架构,集成了MLA和DSA机制,主要动机是提高整体模型性能的同时,将计算效率视为巨大驱动因素[107][110] 训练方法演进:从RLVR到自我验证 - DeepSeek R1专注于“带可验证奖励的强化学习”方法以提高推理能力,其核心思想是让模型从可以进行符号化或编程验证的响应中学习,例如数学和代码[37][38] - RLVR流程使用了GRPO算法,这是“近端策略优化”算法的一个简化变体,GRPO取消了评论家模型,而带GRPO的RLVR进一步移除了奖励模型,转而依赖来自符号工具的可验证奖励[40][42] - 为改善常规RLVR的缺点,公司在DeepSeekMath V2中引入了自我验证与自我修正技术,开发了基于LLM的验证器和元验证器来对证明生成器的输出进行评分和检查,使验证器证明分析的平均质量得分从0.85提高到了0.96[76][77][83][86][89][90] - 在推理期间,公司使用单一模型同时执行证明生成和验证,这比运行第二个LLM进行证明验证增加了更少的复杂性和计算需求,通过多达8次的自我修正迭代,模型的准确性得到提高且尚未饱和[98][99][102] DeepSeek V3.2的具体训练改进 - DeepSeek V3.2采用了类似于DeepSeek R1的RLVR程序,但更新了奖励机制,对于推理和智能体任务采用基于规则的结果奖励、长度惩罚和语言一致性奖励,对于通用任务则采用生成式奖励模型[115][116] - 对于数学领域,公司整合了来自DeepSeekMath-V2的数据集和奖励方法[117] - 在GRPO算法本身,公司进行了一系列稳定性更新,包括:零梯度信号过滤、主动采样、Token级损失、无KL损失、更高裁剪阈值、截断重要性采样、无标准差归一化、特定领域的KL强度、无偏KL估计、异策略序列掩码、保留MoE模型的路由、保留top-p/top-k的采样掩码以及保留原始GRPO优势归一化[119][120][122] - DeepSeek V3.2-Speciale是V3.2的扩展思维变体,其在RL阶段仅在推理数据上进行训练,并减少了长度惩罚以允许模型输出更长的响应,这种推理扩展形式以生成长度增加为代价获得更好的结果[123][124] 模型性能表现 - DeepSeek V3.2在多项基准测试中与专有旗舰模型相比表现非常出色,在数学基准测试中获得了金牌级的表现,同时在训练时也考虑到了工具的使用,在其他任务上也表现良好[103][107] - 扩展思维变体DeepSeek V3.2-Speciale在多个基准测试中实现了更高的准确性,例如在AIME 2025基准上达到96.0,在HMMT Feb 2025基准上达到99.2,但同时也生成了更多的Token[127]
信创模盒ModelHub XC|上线两个月模型适配破千 铸就国产AI算力与应用融合新基座
格隆汇· 2025-11-27 11:12
平台发展里程碑 - 公司于2025年9月22日正式上线「信创模盒」ModelHub XC平台、信创社区及模型适配增值服务,旨在解决模型与底层芯片架构不兼容的行业核心痛点 [1][2] - 平台上线两个月后,已完成适配并认证的模型数量突破1000个,比原计划提前了4个月,标志着国产信创AI生态在模型覆盖广度上取得显著进展 [1][11] - 2025年10月17日,公司在国产芯片曦望S2上完成风洞计算大模型的完整适配与深度优化,实现单张图处理时间约1.5秒,性能比肩国际主流高端GPU [4] - 2025年11月1日,公司完成创新模型DeepSeek-OCR在昇腾、沐曦等信创算力卡上的适配测试,模型输出效果与NVIDIA平台完全一致,推理性能差距控制在30%以内 [6] - 2025年11月17日,公司在昇腾910B4芯片上完成高效Agent模型MiniMax-M2的适配,该模型为顶尖开源Agent模型,总参数量2300亿 [7] - 2025年11月25日,平台在摩尔线程芯片上实现108个模型的规模化适配,广泛覆盖文本生成、视觉理解、多模态问答等多种任务类型 [9] 平台核心能力与技术优势 - 平台以"EngineX引擎+批量适配"为核心,通过基础算法架构的深度适配实现模型在国产芯片上的"即插即用",极大缩短部署周期 [12] - EngineX体系对Transformer架构提供底层支持,并对GGML/MoE架构进行深度优化,实现了复杂模型在信创环境下的高效、稳定推理 [6][7] - 平台模型生态丰富多元,覆盖从通用大语言模型(如DeepSeek V3.1)、垂直领域专业模型(如风洞计算大模型)到前沿创新模型(如gpt-oss-20B,MiniMax-M2)的多元化品类 [1] - 平台广泛支持华为昇腾、壁仞科技、天数智芯、昆仑芯、摩尔线程、沐曦、曦望等主流国产算力芯片 [2][12] - 每个模型均标注可运行的芯片型号,支持用户快速匹配模型与算力,提供清晰的适配标签 [12] - 平台提供「信创模型适配增值服务」,由数百人工程师团队支撑,确保指定模型在国产环境中的成功适配与稳定运行 [12] 行业发展与未来规划 - 平台解决了AI产业发展的新矛盾:部署的模型与底层芯片架构互不兼容,采购的硬件缺乏充分适配的模型生态,这种"算力—模型"的二元割裂正成为制约AI规模化落地的隐形天花板 [1] - 平台为国产AI软硬件协同发展提供了坚实基础,将持续为产业智能化转型提供更为坚实与丰富的模型基座 [1] - 平台已按原计划提前4个月达成"千模适配"里程碑,未来将加速向"万模互联"迈进,计划一年之内冲刺十万模型 [14] - 公司将持续扩展模型规模与芯片支持范围,保持快速更新节奏,构建更完整、更高效的国产AI基础设施 [14]
Kimi杨植麟称“训练成本很难量化”,仍将坚持开源策略
第一财经· 2025-11-11 20:04
公司战略与产品发布 - 月之暗面Kimi公司近半年持续投入开源模型研发与更新,并于11月6日发布最新开源思考模型Kimi K2 Thinking [3][6] - 公司未来很长一段时间内将坚持开源策略,重点推进Kimi K2 Thinking模型的应用与优化 [6][8] - 公司在优先发展文本模型的前提下兼顾多模态模型推进,避开与OpenAI等头部厂商在AI浏览器等具体赛道的直接竞争 [8] - 公司尝试通过架构创新、开源策略与成本控制建立差异化优势 [8] 模型训练成本与性能 - 有消息称Kimi K2 Thinking模型的训练成本为460万美元,低于DeepSeek V3模型的560万美元和OpenAI GPT-3的数十亿美元 [3][6] - 公司CEO杨植麟回应称460万美元并非官方数字,由于大部分投入花在研究与实验上,训练成本很难量化 [4][6] - 针对模型推理长度过长、榜单成绩与实际体验不符的质疑,公司表示现阶段优先考虑绝对性能,token效率将在后续改善 [4][7] - 榜单高分与实测的脱节问题预计在模型通用能力补齐后被逐渐消解 [4][7] 行业竞争与市场表现 - 最新一周OpenRouter模型调用榜单前二十名中,中国开源模型产品占据五席,包括MiniMax M2、DeepSeek V3、GLM4.6、DeepSeek V3.1、DeepSeek V3.2 Exp [4][7] - Kimi模型因OpenRouter平台接口问题,目前只能以API形式被使用 [4][7] 技术资源与基础设施 - 公司团队使用携带InfiniBand网络互连技术的H800 GPU芯片支持持续的模型更新与庞大训练量 [4][7] - 公司承认所使用的GPU性能比不上美国的高端卡,数量也处于劣势,但强调每张卡都被用到了极致 [4][7]
Kimi杨植麟称“训练成本很难量化”,仍将坚持开源策略
第一财经· 2025-11-11 18:35
公司战略与产品进展 - 公司近期发布最新版本开源思考模型Kimi K2 Thinking [1] - 公司CEO回应称模型训练成本460万美元并非官方数字 因大部分投入花在研究与实验上导致成本难以量化 [1] - 针对模型推理长度过长及榜单成绩与实际体验不符的质疑 公司表示现阶段优先考虑绝对性能 token效率与榜单脱节问题将在后续改善 [1] - 公司未来很长一段时间内仍将坚持开源策略 重点推进Kimi K2 Thinking模型的应用与优化 [4] - 公司在优先发展文本模型的前提下兼顾多模态模型推进 尝试通过架构创新 开源策略与成本控制建立差异化优势 [4] 行业竞争格局 - 中国开源大模型在国际市场调用量显著 OpenRouter榜单前二十名中中国开源模型占据五席 包括MiniMax M2 DeepSeek V3 GLM4.6等 [2] - 公司产品因OpenRouter平台接口问题 目前仅能以API形式被使用 [2] - 行业头部模型训练数据量庞大 榜单显示Grok Code Fast 1训练token达1.36T 而Claude Sonnet 4.5为649B tokens [4] 技术资源与基础设施 - 公司团队使用携带InfiniBand技术的H800 GPU进行模型训练 尽管其性能比不上美国高端卡且数量处于劣势 但每张卡均被极致利用 [2]
2026年投资峰会速递:AI产业新范式
华泰证券· 2025-11-10 20:07
行业投资评级 - 科技行业评级为“增持”(维持)[7] - 计算机行业评级为“增持”(维持)[7] 核心观点 - AI产业正经历从模型、训练到应用的全方位范式革新,行业演进加速 [2] - Scaling Law 2.0时代下,合成数据与Mid Training范式重塑模型演进路径,算力扩张仍是核心增长引擎 [2][3] - AI应用商业化步入规模化阶段,Agent能力与交易闭环融合带动产业落地加速 [2][6] 模型层:算力与数据驱动演进 - 算力扩张是行业核心增长引擎,2010-2024年代表性模型训练算力年均增长4-5倍,头部模型达9倍水平 [3][13] - 合成数据持续扩大训练资源池,典型开源模型训练数据常见于10-15万亿tokens,头部厂商通过新方法持续扩容,例如阿里Qwen系列从18万亿tokens提升至36万亿tokens [3][12] - 预计前沿模型单次完整训练成本或在2027年达到十亿美元量级 [3][13] 训练层:Mid Training范式突破 - Mid Training成为Scaling Law 2.0重要标志,通过将强化学习前移至中间环节,实现算力对数据的自我生成与最优分配 [4][16] - 该范式在多智能体辩论等机制下生成数据量远超人工标注,并通过动态权重分配提升强化学习训练质量与数据利用率 [4][16] - Mid Training的应用有望突破传统Scaling Law下的性能边界,打开模型能力上限 [4][16] 智能体层:架构标准化趋势 - GPT-5以统一架构实现快思与深思的自适应协同,并通过实时路由器按任务复杂度动态分配算力资源 [5][19] - 该“统一系统”范式代表行业向“多模型一体化、动态资源分配”方向演进,DeepSeek V3.1与Grok 4 Fast等产品快速跟进验证此趋势 [5][19] - 该架构有望显著提升智能体在复杂场景中的响应效率与稳定性 [5] 应用层:商业化规模化加速 - 头部厂商战略重心从模型能力转向商业化生态构建,OpenAI推出Agentic Commerce Protocol,使AI Agent具备直接交易能力,实现从“推荐”到“结算”的全链路闭环 [6][22] - 全球AI应用正经历产品化(2023)→商业化试点(2024)→规模化落地(2025)三阶段演进 [6][25] - 海外厂商已进入规模化放量初期,国内厂商受益于DeepSeek-R1等模型突破,应用节奏显著加快,部分AI应用(如深度研究、企业问数)已具备大规模商业化能力 [6][26] - Agent与交易协议的深度结合、ROI体系的持续明晰,正推动AI应用产业价值释放进入加速期 [6]