Workflow
TileLang
icon
搜索文档
西部证券晨会纪要-20251016
西部证券· 2025-10-16 10:49
食品饮料行业 - 华润饮料 (02460.HK) - 报告预计公司2025-2027年收入分别为112亿元、125亿元、134亿元,归母净利润分别为13亿元、16亿元、18亿元,对应市盈率分别为19倍、15倍、14倍 [1][8] - 2023年包装饮用水市场规模达2150亿元,同比增长4.47%,占软饮市场23.65%,2018-2023年市场规模复合年均增长率为7.10% [6] - 2023年包装水市场前五大公司零售额集中度为58.6%,华润饮料在纯净水市场以32.7%的市占率成为龙头 [6] - 2025年上半年公司包装饮用水产品营收为52.51亿元,饮料产品营收为9.55亿元,包装水占比85% [7] - 公司拥有15家自有工厂及35家合作生产伙伴,实现半径300-500公里内一线及新一线城市全覆盖 [7] - 投资逻辑包括全国化扩张与渠道精耕驱动短期增长、行业向头部集中带来长期红利、自有产能占比提升及规模效应释放盈利潜力 [8] 农林牧渔行业 - 中宠股份 (002891.SZ) - 公司2025年第三季度实现营收14.28亿元,同比增长15.86%,扣非归母净利润1.24亿元,同比增长18.9% [17] - 2025年前三季度累计营收38.60亿元,同比增长21.05%,归母净利润3.33亿元,同比增长18.21% [17] - 预计公司2025-2027年营收分别为55.01亿元、65.86亿元、79.67亿元,同比增长23.2%、19.7%、21.0% [4][19] - 预计2025-2027年归母净利润分别为4.80亿元、5.99亿元、7.35亿元,同比增长21.9%、24.8%、22.7% [4][19] - 2025年第三季度自主品牌线上GMV合计同比增长29.3%,其中顽皮品牌增长30.0%,领先品牌增长47.5% [18] - 2025年第三季度毛利率为29.11%,同比提升2.23个百分点,扣非净利率同比提升0.22个百分点 [19] 机械设备行业 - 英维克 (002837.SZ) - 2025年前三季度公司实现营收40.3亿元,同比增长40.2%,归母净利润4亿元,同比增长13.1% [21] - 第三季度单季收入14.5亿元,同比增长25.3%,归母净利润1.8亿元,同比增长8.4% [21] - 第三季度毛利率为29.4%,环比提升3.43个百分点,净利率为12.5%,环比提升2.05个百分点 [22] - 前三季度毛利率为27.3%,同比下降4.41个百分点,净利率为10.3%,同比下降2个百分点,四项费用率为15.5%,同比下降3.4个百分点 [22] - 第三季度末存货达12.3亿元,较期初增长3.5亿元,合同负债3.3亿元,较期初增加1亿元 [21] - 公司与谷歌、英伟达、Meta、英特尔等客户在液冷产品上合作,与谷歌的2MW CDU产品在OCP2025上发布 [22] - 预计公司2025-2027年归母净利润分别为6.4亿元、10亿元、14.6亿元,对应市盈率分别为119倍、76倍、52倍 [23] 建筑装饰行业 - 中铝国际 (601068.SH) - 2025年上半年公司设计咨询、EPC工程总承包及施工、装备制造收入占比分别为6.19%、75.78%、18.03% [25] - 2025年上半年境内、境外收入占比分别为79.21%、20.79% [25] - 2024年公司工业领域新签合同额282.8亿元,同比增长43%,非工业领域新签25.5亿元,同比下降87% [26] - 2024年境外新签合同额61.0亿元,同比增长65%,境外营收41.3亿元,同比增长22% [26] - 2025年上半年境外新签合同额31.9亿元,同比增长284%,境外营收20.2亿元,同比增长7% [26] - 2024年毛利率为12.21%,同比提升3.45个百分点,2025年上半年毛利率为10.84%,同比提升1.26个百分点 [27] - 预计公司2025-2027年归母净利润分别为2.31亿元、2.60亿元、2.82亿元 [27] 电子行业 - 鹏鼎控股 (002938.SZ) - 2025年上半年公司实现营业收入163.75亿元,同比增长24.75%,归母净利润12.33亿元,同比增长57.22% [29] - 2025年上半年销售毛利率为19.07%,同比提升1.10个百分点,销售净利率为7.49%,同比提升1.52个百分点 [29] - 2025年上半年通讯用板业务收入102.68亿元,同比增长17.62%,消费电子及计算机用板业务收入51.74亿元,同比增长31.63% [29] - 2025年上半年汽车及服务器用板业务收入8.05亿元,同比增长87.42% [29] - 预计公司2025-2027年收入分别为400.53亿元、462.26亿元、533.24亿元,归母净利润分别为44.73亿元、54.58亿元、64.02亿元 [30] 计算机行业 - 人工智能与算力 - TileLang由北京大学团队开发并于2025年1月开源,是一种专为AI算子设计、采用分块技术优化内存和自动调度的程序语言 [34] - TileLang旨在解决不同AI芯片高性能计算平台接口不兼容的问题,降低生成式AI模型代码迁移成本 [34] - 报告建议关注AI推理芯片公司如寒武纪、海光信息,以及算力服务器公司如浪潮信息、中科曙光、华勤技术、神州数码 [35][36] 宏观数据 - 2025年9月金融与通胀 - 9月新增贷款1.29万亿元,低于去年同期1.59万亿元,贷款同比增长6.6%,增速较上月下降0.2个百分点 [11] - 9月新增社会融资规模3.53万亿元,低于去年同期约3.76万亿元,存量社融同比增长8.7%,比上月下降0.1个百分点 [11] - 9月财政存款环比减少8400亿元,同比增速回落至7.3% [11] - 9月M2同比增长8.4%,较上月回落0.4个百分点,M1同比增长7.2%,较7月增速加快1.2个百分点 [12] - 9月居民消费价格指数同比下降0.3%,跌幅较8月收窄,环比上涨0.1% [14] - 9月核心居民消费价格指数同比增长1.0%,持续回升 [14] - 9月工业生产者出厂价格指数环比持平,同比下降2.3%,跌幅继续收窄 [14] 市场指数表现 - 2025年10月16日上证指数收盘3,912.21点,上涨1.22%,深证成指收盘13,118.75点,上涨1.73% [5] - 沪深300指数收盘4,606.29点,上涨1.48%,创业板指收盘3,025.87点,上涨2.36% [5] - 道琼斯指数收盘46,253.31点,下跌0.04%,标普500指数收盘6,671.06点,上涨0.40%,纳斯达克指数收盘22,670.08点,上涨0.66% [5] - 10月14日北证50指数收盘1,484.19点,下跌0.22%,成交金额206.8亿元 [38]
瑞银:中国算力加速发展推动AI进程 看好阿里巴巴 及百度
智通财经· 2025-10-15 21:33
中国AI本土算力发展驱动力 - 国家政策支持和主要科技公司及本土供应商的研发投入推动本土算力不断发展 [1] - 本土算力发展可能将继续推动中国AI及大模型发展 [1] 技术层面进展与优化 - 中国互联网公司内部研发及本地GPU供应商持续投入下,芯片层面差距正迅速改善 [2] - 通过超节点规模扩展弥补单颗GPU性能落差,如阿里巴巴磐久128超节点及华为升腾384超节点大幅提升单机柜GPU数量,实现更高机柜级运算能力 [2] - AI模型开发者正针对国产GPU优化算法,例如DeepSeek的v3.2模型采用国产GPU程序语言TileLang以更好适应华为升腾及寒武纪等本土算法生态系统 [2] - 大部分互联网企业正在加速ASIC发展以优化内部工作量及提高性价比,百度已开发三代昆仑芯片,阿里巴巴亦开始部署自研芯片 [2] 国产AI芯片现状评估 - 目前国产前沿GPU运算能力已与英伟达Ampere匹敌,下一代产品瞄准Hopper,但整体仍较Blackwell系列落后一代 [3] - 部分国产芯片制造商已建立自己的软件堆栈或通过翻译工具添加CUDA兼容性以提高工程师迁移效率,但生态系统碎片化限制了规模 [3] - 中国在先进制程技术和高频宽存储器生产方面的能力仍处于早期阶段 [3] 瑞银看好的相关公司 - 看好阿里巴巴及百度,因相信其自主研发芯片将持续有进展以巩固AI价值链地位,且会持续投资AI [1] - 看好科大讯飞在将国产硬件与大模型发展相结合方面取得的领先进展 [3] - 偏好地平线机器人、北方华创和中微公司 [3]
人工智能系列报告(九)、算力系列报告(二):TileLang:中国的CUDA和Triton
西部证券· 2025-10-15 14:09
行业投资评级 - 行业评级为“超配”,前次评级亦为“超配”,评级变动为“维持” [7] 报告核心观点 - 报告认为,由北京大学团队开发并于2025年1月开源的TileLang,有望解决国产AI芯片与英伟达CUDA平台之间以及国产芯片各平台之间的接口兼容性问题 [3] - TileLang通过其编译器自动完成优化,能有效提升国产AI芯片的性能,有望降低互联网大厂在生成式AI模型代码迁移时的成本,加速国产AI芯片的技术落地和商业化 [3][36] 高性能计算是生成式AI的技术基础 - GPU因其大量内核而具备卓越的并行计算能力,非常适合处理生成式AI中的矩阵计算任务 [12] - 英伟达的CUDA平台将GPU的并行计算能力转化为处理AI计算任务的能力,经过近二十年发展,引入了NVLink、混合精度训练(FP16)并支持Tensor Core,使矩阵计算速度得到数量级提升,构成了英伟达在高性能计算和AI计算领域的主要壁垒 [1][14][18] - 尽管成熟,CUDA编程仍需大量手动优化,且跨平台代码迁移成本高 [2] - Triton由Philippe Tillet于2019年提出,能自动化处理底层细节,降低GPU编程门槛,提升AI开发效率,并于2021年由OpenAI开源 [2][19] - Triton能跳过cuBLAS等闭源CUDA库直接生成PTX代码,代码更简洁且能自动进行多种优化,在多种场景下性能达到甚至超越CUDA优化库 [22] TileLang有望成为国产AI芯片的CUDA和Triton - 国产AI芯片厂商的高性能计算平台在框架兼容性、工具链完善度及开发者社区规模上,与英伟达CUDA平台存在差距 [2][28] - 国产AI芯片硬件架构互不兼容,各厂商平台无法通用,增加了开发者的适配成本和开发成本,不利于大规模推广 [2][28] - 英伟达自CUDA 11.6(2024年)起禁止使用转换层将CUDA功能引入第三方AI芯片平台,增加了向国产芯片的迁移成本 [24] - TileLang与Triton类似,是专为AI算子开发设计的程序语言,通过将高性能计算中的“分块技术”(Tile)作为关键,实现内存优化和自动调度 [3][32] - TileLang将优化工作与内核数据流解耦,由编译器自动推导优化策略,显著降低代码复杂度,例如将FlashAttention算子实现从500多行减少至80行,并保持性能持平 [32] - DeepSeek团队在DeepSeek-V3.2-Exp模型开发中正式使用TileLang进行原型开发,并将其作为精度基准 [35] - 截至2025年10月13日,TileLang在GitHub上已获得3.5k星标,并吸引华为昇腾、沐曦股份等国产芯片厂商进行适配 [36] 建议关注 - AI推理芯片:寒武纪、海光信息 [4][37] - 算力服务器:浪潮信息、中科曙光、华勤技术、神州数码 [5][37]
人工智能专题:后R1时代,DeepSeek发展的三大阶段
中原证券· 2025-10-14 16:40
行业投资评级 - 计算机行业评级为“强于大市”(维持)[1] 核心观点 - 报告将DeepSeek在R1发布后的发展划分为三个主要阶段,认为其通过持续的技术迭代、成本优化以及与国产芯片的深度协同,正推动国产AI产业从“单点突破”迈向“系统协同”[7][34] 阶段一:性能提升 - DeepSeek于2025年3月推出V3-0324,于2025年5月推出R1-0528,这些模型以基础模型DeepSeek-V3-Base为基座,通过后训练实现模型能力提升,弥补了与头部模型的差距[7][11] - 此阶段重点在于提升模型基础性能[7] 阶段二:混合推理架构与国产芯片协同优化 - 2025年8月以后,DeepSeek推出V3.1和V3.1-Terminus,基座模型DeepSeek-V3.1-Base在V3-Base基础上做了大规模外扩训练,Agent能力和思考效率得到较大提升[7][12] - V3.1采用UE8M0 FP8缩放格式训练,针对下一代国产芯片设计,推动了FP8技术的规模化应用,并提升了市场对H20等支持FP8格式芯片的需求[7][27] - UE8M0 FP8格式通过减少数据存储和传输损耗,能最大限度利用硬件计算能力,弥补国产芯片在HBM高速内存带宽方面的不足,实现国产大模型与芯片的协同设计优化[7][28] 阶段三:提效降价与国产适配加速 - 2025年9月发布的V3.2-Exp基于V3.1-Terminus构建,引入新的注意力机制DSA,在保持模型性能稳定的同时,大幅提升了训练推理效率并带来模型降价[7][31] - V3.2-Exp的API调用价格显著下降:输入缓存命中时价格为R1的20%(0.2元/百万Tokens),输入缓存未命中时为R1的50%(2元/百万Tokens),输出价格为R1的19%(3元/百万Tokens)[33] - 模型成本的下降意味着更好的性价比和可推广性,将促进应用端更多功能的落地[7][33] - 在V3.2-Exp发布当天,国产芯片华为昇腾和寒武纪同步宣布完成对其的零日适配,标志着国产AI产业系统协同的又一里程碑[7][34] - DeepSeek开源了TileLang和CUDA两个版本的算子,TileLang作为一种新兴AI编程语言,可以实现对不同硬件平台的支撑,极大改善了国产芯片面临的CUDA生态壁垒问题[7][34][39]
全球科技(计算机)行业周报:DeepSeek-V3.2-Exp发布,训练推理提效,API同步降价-20251012
华安证券· 2025-10-12 20:02
行业投资评级 - 行业评级:增持 [1] 核心观点 - DeepSeek-V3.2-Exp模型于9月29日正式发布,该实验性版本在V3.1-Terminus基础上引入DeepSeek Spare Attention稀疏注意力机制,旨在优化长文本训练和推理效率 [3][12] - 技术层面,DSA首次实现细粒度稀疏注意力机制,在几乎不影响模型输出的前提下大幅提升长文本训练和推理效率,且在各领域公开评测集表现与V3.1-Terminus基本持平 [4][13] - 模型开源TileLang与CUDA两种算子,TileLang由北大团队研发,专为简化高难度GPU算子开发设计,支持英伟达CUDA和华为昇腾等国产芯片 [4][13] - API调用价格随模型服务成本降低而下调,新价格为输入0.2元/百万tokens(缓存命中)或2元/百万tokens(缓存未命中),输出3元/百万tokens,开发者调用成本降低50%以上 [5][14] - 模型发布推动中国算力生态协同创新,华为昇腾和寒武纪第一时间宣布完成适配,表明国产AI算力生态进入模型与芯片协同设计阶段 [5][14] 市场行情回顾 - 本周(10.9-10.10)计算机行业指数下跌1.83%,跑输上证综指2.20个百分点,跑赢创业板指2.03个百分点,跑输沪深300指数1.3个百分点 [16] - 年初至今计算机行业指数上涨25.69% [16] - 本周计算机行业指数在申万31个行业指数中排名第28,在TMT四大行业中位列第2 [16] - 个股方面,中望软件、海航科技、品茗股份本周涨幅居前,分别上涨16.19%、14.39%和14.04% [21][23] 科技软件行业新闻 - 算力:英伟达与OpenAI签订协议,英伟达将向OpenAI投资最高1000亿美元,用于构建至少10吉瓦的AI数据中心,配备数百万块英伟达GPU,首阶段系统目标于2026年下半年上线 [25] - 低空经济:2025辽宁省航空产业发展大会低空经济融合创新专题会议在沈阳举行,低空经济被视为培育新质生产力的战略新赛道和区域经济转型升级的新增长引擎 [26] - 汽车智能化:10月10日发布四项自动驾驶地方标准,涉及智能网联汽车封闭试验场地测试和车路云一体化路侧基础设施,为L4级乘用车和无人配送车测试提供技术框架 [28][29] - 网络安全:兰州市13家信息企业入选第三届甘肃省网络安全应急技术支撑单位,有效期为2025年9月5日至2027年9月4日 [29] - 数据要素:人民数据携手沈阳法库发布"低空经济数据要素服务平台",提供数据汇集、资产化、场景打造和智库支撑等全生命周期服务 [31] - 人工智能:同济大学两项成果登上《科学》期刊,其中一项阐述中国人工智能监管制度对促进开源AI发展和风险防控的作用,国际科学界关注中国参与共建AI全球治理体系 [32] 科技软件相关公司动态 - 恒生电子2022年股票期权激励计划第二个行权期在2025年第三季度行权股票数量为2,966,730股 [34] - 中安科2023年股票期权与限制性股票激励计划第二个行权期在2025年第三季度行权期权数量为712,541股,占可行权总数的37.11% [34] - 东软集团2024年股票期权激励计划第一个行权期在2025年第三季度行权股票数量为3,388,356股,占本期可行权数量的30.25% [34] - 中润光学调整2025年半年度利润分配方案,现金分红总额由880万元调整为887.74万元 [34] - 电科数字第二期股票期权激励计划在2025年第三季度行权数量为200,241股,占可行权总量的10.31% [34] - 御银股份实施2025年半年度权益分派,向全体股东每10股派发现金红利0.02元(含税) [36] - 四维图新回购注销813,000股限制性股票,占总股本0.0343% [36] - 捷安高科向10名激励对象授予39.6万股预留限制性股票,授予价格为7.21元/股 [36] - 中科金财2023年限制性股票激励计划第二个解除限售期解除限售股份数量为1,237,656股,占总股本0.364% [36]
信创ETF(159537)涨近6%,DeepSeek-V3.2-Ex发布,国产云厂商day0适配
每日经济新闻· 2025-10-09 11:28
DeepSeek-V3.2-Exp模型发布 - 公司于9月29日正式发布实验性版本DeepSeek-V3.2-Exp模型,作为迈向新一代架构的中间步骤[1] - 新模型在V3.1-Terminus基础上引入DeepSeek Sparse Attention稀疏注意力机制,针对长文本训练和推理效率进行探索性优化和验证[1] - 公司在新模型研究过程中使用高级语言TileLang进行快速原型开发,以支持更深入探索[1] - TileLang是由北京大学计算机学院杨智副教授团队主导开发的开源AI算子编程语言,核心价值在于能将高级别数据流描述自动转换并优化为高效底层代码(如CUDA或AscendC)[1] - 华为云和寒武纪当日同时宣布Day 0适配DeepSeek-V3.2-Exp,最大可支持160K长序列上下文长度[1] 信创ETF及指数概况 - 信创ETF(159537)跟踪国证信创指数(CN5075),该指数从沪深市场选取涉及半导体、软件开发、计算机设备等信息技术领域上市公司证券作为指数样本[2] - 指数侧重反映信息技术创新主题整体表现,成分股平均市值较大,行业配置以半导体和软件开发为主[2] - 指数同时涵盖计算机设备及IT服务等领域,全面展现信创产业多元化发展格局[2]
DeepSeek与国产芯片的“双向奔赴”
21世纪经济报道· 2025-10-01 07:14
模型发布与技术更新 - 深度求索公司于9月29日晚间发布DeepSeek-V3.2-Exp模型,实验性引入DeepSeek Sparse Attention稀疏注意力机制,显著降低计算资源消耗并提升推理效率 [1] - 新模型发布后,公司同步更新官方App、网页端及小程序,并全面下调API价格,降幅在50%到75%不等 [1] - V3.2-Exp版本在V3.1-Terminus基础上引入稀疏注意力机制,针对长文本训练和推理效率进行探索性优化和验证 [7] 国产芯片生态协同 - 新模型发布后4分钟内,寒武纪率先宣布适配DeepSeek-V3.2-Exp,并开源大模型推理引擎vLLM-MLU源代码 [2] - 华为昇腾基于vLLM/SGLang等推理框架完成适配部署,实现DeepSeek-V3.2-Exp的0day支持,并向开发者开源所有推理代码和算子实现 [2] - 海光信息表示其DCU已实现对DeepSeek-V3.2-Exp的无缝适配和深度调优,新模型在海光DCU上展现出优异性能 [2] 行业标准与生态建设 - 深度求索公司通过发布DeepSeek-V3.1版本,明确模型将适配下一代“UE8M0”浮点格式的国产芯片,为国产芯片发展指明方向 [6] - 业内高管认为,应由DeepSeek定义国产芯片标准,让芯片厂商跟进,而非让模型去适配芯片,DeepSeek已成为国产开源模型的标杆 [2][5] - 中国本土AI行业对DeepSeek模型的高度共识,使深度求索公司敢于先行先试,组建国产芯片生态 [7] 技术创新与工具链 - DeepSeek-V3.2-Exp采用的稀疏注意力机制,疑似基于深度求索公司今年2月发表论文中的原创机制,公司CEO梁文锋位列作者名单 [7] - 模型在兼容CUDA基础上,使用专为AI算子开发设计的编程语言TileLang进行快速原型开发,该语言由北京大学团队主导开发并于2025年1月开源 [7][8] 云计算厂商的生态参与 - 腾讯云于9月16日宣布已全面适配主流国产芯片,并积极参与开源社区建设 [8] - 阿里云在云栖大会表示推动“一云多芯”战略,验证并深度适配多家国产AI芯片,将其纳入自身算力底座 [8] - 相比英伟达用二十年建立生态,DeepSeek用了不到一年时间飞速完成初步生态追赶 [8]
DeepSeek 与国产芯片开启“双向奔赴”
21世纪经济报道· 2025-09-30 20:13
模型发布与技术更新 - 深度求索公司于9月29日晚间发布DeepSeek-V3.2-Exp模型,实验性引入DeepSeek Sparse Attention稀疏注意力机制,显著降低计算资源消耗并提升推理效率 [1] - 得益于技术创新,公司官方App、网页端、小程序同步更新为新模型,并全面下调API价格,降幅在50%到75%不等 [1] - 新版本在V3.1-Terminus基础上引入稀疏注意力机制,针对长文本训练和推理效率进行探索性优化和验证,所采用机制疑似基于公司2025年2月发表论文中的原创机制 [5] 国产芯片生态协同 - V3.2-Exp版本发布后几乎零时差引发华为昇腾、寒武纪、海光等国产芯片厂商“认领”适配,标志着国产AI软硬件生态协同初具雏形 [1][2] - 寒武纪在模型发布后4分钟即宣布同步完成适配并开源大模型推理引擎vLLM-MLU源代码,华为昇腾表示基于vLLM/SGLang等框架完成0day支持并开源所有推理代码和算子实现,海光信息称其DCU实现无缝适配加深度调优 [2] - 深度求索已成为新的生态建设者,其模型获得国产推理模型大部分份额,成为国产开源模型标杆,由公司定义国产芯片标准或组建生态被视为更合适做法 [2][3] 技术路线与生态发展 - 公司模型在兼容CUDA基础上,使用专为AI算子开发设计的编程语言TileLang进行快速原型开发,该语言由北京大学团队主导开发并于2025年1月开源 [5][6] - 8月下旬发布的V3.1版本明确模型将适配下一代“UE8M0”浮点格式国产芯片,为国产芯片发展指明方向,尽管当时未有企业认领此格式 [4] - 中国本土AI行业对DeepSeek模型形成高度共识,腾讯云、阿里巴巴等云计算大厂积极适配国产芯片并参与开源社区建设,推动“一云多芯”战略 [6] - 相比英伟达用二十年建立生态,DeepSeek用了不到一年时间飞速完成初步生态追赶,业界认为2025年国产芯片发展迅速归功于DeepSeek的横空出世 [3][6]
华为昇腾、寒武纪宣布适配DeepSeek最新模型
21世纪经济报道· 2025-09-30 18:19
模型发布与核心技术创新 - 公司于9月29日正式发布DeepSeek-V3.2-Exp模型,该模型是在V3.1-Terminus基础上的探索性版本 [1] - 新模型首次引入自研的DeepSeek Sparse Attention稀疏注意力机制,旨在优化长文本的训练和推理效率 [1] - DSA机制能够自适应选择关键注意力头与局部上下文窗口,相比传统稠密注意力机制,在处理长文本时计算量呈指数级增长的问题得到解决,方案更高效且成本更低 [7][1] 性能表现与成本优势 - 通过引入DSA机制,V3.2-Exp实现了长文本训练和推理效率的大幅提升,同时在各项核心能力上与V3.1-Terminus保持基本持平 [7] - 得益于新模型服务成本大幅降低,DeepSeek API价格下调50%以上,显著降低了开发者的调用成本 [2][10] 开源策略与生态协同 - 公司将DeepSeek-V3.2-Exp模型在Huggingface和ModelScope平台上全面开源,相关论文也已同步公开 [5] - 新模型发布后,华为昇腾、寒武纪和海光信息第一时间宣布完成适配,显示出国产AI软硬件生态的协同发展 [11] - 公司开源了TileLang版本算子,该国产编程语言由北京大学团队开发,能将FlashAttention算子代码量从超500行减少至80行并保持性能,显著提升AI算子开发效率 [11][3] 版本状态与行业影响 - DeepSeek-V3.2-Exp定位为实验版本,公司认识到新模型仍需在更广泛用户真实场景中进行大规模测试 [4] - 公司为方便用户对比测试,为V3.1-Terminus临时保留额外API访问接口至10月15日,调用价格与V3.2-Exp一致 [4] - 华为计算宣布昇腾已实现DeepSeek-V3.2-Exp 0day支持,并面向开发者开源所有推理代码和算子实现,表明国产模型、编程语言与算力正深度协同共进 [12]
华为昇腾、寒武纪宣布适配DeepSeek最新模型
21世纪经济报道· 2025-09-30 18:13
模型发布与核心特性 - DeepSeek-V3.2-Exp模型于9月29日正式发布,是在V3.1-Terminus基础上的实验版本[1] - 新模型首次引入自研的DeepSeek Sparse Attention稀疏注意力机制,针对长文本训练和推理效率进行优化验证[1] - DSA机制能够自适应选择关键注意力头与局部上下文窗口,相比传统稠密注意力机制计算更高效、成本更低[1][3][4] 技术优势与性能表现 - 传统Transformer全连接注意力机制计算复杂度随文本长度呈指数级增长,DSA针对长文本处理的主要计算瓶颈实现细粒度稀疏注意力机制[2][4] - V3.2-Exp在长文本训练和推理效率上实现大幅提升,同时在与V3.1-Terminus的严格对齐比较中各项核心能力保持基本持平水准[4] - 模型已在Huggingface和ModelScope平台全面开源,相关论文同步公开[2] 成本优化与市场策略 - 得益于新模型服务成本大幅降低,DeepSeek API价格下调50%以上[1][5] - 为方便用户对比测试,DeepSeek为V3.1-Terminus临时保留额外API访问接口,开放至10月15日,调用价格与V3.2-Exp一致[2] - 公司认识到新模型仍需在更广泛用户真实场景中进行大规模测试,以排除某些场景下效果欠佳的可能[2] 生态合作与国产化进展 - DeepSeek V3.2-Exp发布后,华为昇腾、寒武纪和海光信息第一时间宣布完成适配,显示国产AI软硬件生态协同发展[6][7] - 公司开源新模型研究中设计的GPU算子,包括TileLang和CUDA两种版本,建议研究性实验使用基于TileLang版本方便调试和快速迭代[7] - TileLang是由北京大学团队主导开发的开源AI算子编程语言,专门为简化复杂GPU算子开发而设计,实现FlashAttention算子代码量从超500行减少至80行并保持性能持平[7] - 华为计算宣布昇腾已实现DeepSeek-V3.2-Exp 0day支持,并面向开发者开源所有推理代码和算子实现,表明国产模型、编程语言与算力深度协同共进[8][10]