GPU四小龙，春节不打盹儿

行业动态：国产大模型密集发布与国产GPU的紧密配合 - 春节前后是国产大模型发布的密集期，字节跳动、智谱、MiniMax等公司相继推出新模型[3] - 国产GPU企业（摩尔线程、沐曦股份、天数智芯）在智谱新模型发布当天就完成了适配，展现了紧密的配合趋势[3] - 人工智能技术日新月异，芯片与模型企业需快速响应，否则可能在AI浪潮中掉队[3] 国产GPU企业的适配策略与状态 - 芯片企业需让大模型在自家芯片上“跑起来”并达到预期性能，从开箱性能50%调至80%-90%需要时间[6] - 基于GPU通用架构的适配时间很短，一个人几个小时可完成的工作量，在NPU等专用架构上可能需要几十个人几天[6] - 为抢夺适配时间，国产芯片企业有时采取“人肉递送”硬盘的方式提前获取模型，相关人员需签署保密协议[8] - 企业技术团队在春节期间处于“随时待命”状态，以应对如DeepSeek等重磅模型的发布[4][9] 国产大模型的最新进展与影响 - 字节跳动视频生成模型Seedance 2.0的生成效果可模糊真实与虚拟边界，为AI漫剧、短剧规模化落地奠定基础[7] - 阿里巴巴图像生成模型Qwen-Image-2.0在部分文生图基准测试中能力仅次于谷歌和OpenAI[7] - MiniMax发布的MiniMax-M2.5在编程、工具调用等场景达行业头部水平，且成本极低，每秒输出100 token连续工作一小时仅需1美元[7] - DeepSeek-R1作为首个打破OpenAI推理垄断的开源模型，引爆了推理市场，提升了行业对国产算力利用空间的信心[11] 国产GPU的发展现状与市场机会 - 大模型训练环节更注重稳定性，客户初期更倾向于使用英伟达产品，国产卡的操作手册和稳定性需在实践中完善[11][12] - 推理环节对算力需求不如训练苛刻，且英伟达对华销售芯片功能受限，为国产GPU（如沐曦、摩尔线程、天数智芯）提供了替代机会[13] - 当推理业务达到满意效果时，其所需算力规模将超过训练需求，长期线上运行也能验证国产芯片稳定性[13] - 国产芯片在特定场景（如搜推广、自动驾驶、AI4S、图生视频）已可与国外厂商竞争，这需要软件优化与GPU体系结构创新的结合[13] 国产GPU企业的技术突破与产品迭代 - 摩尔线程在2025年实现了万卡规模以上集群、数千亿参数模型的端到端训练落地，这是其过去一年的最大突破[14] - 沐曦股份在2025年后软件栈性能泛化性得到很大提高，突破了自身心理极限和技术天花板[13] - 摩尔线程计划在2026年基于下一代“花港架构”推出两颗芯片，目标实现数量级（而非仅百分之几十）的能力提升[17] - 沐曦股份芯片迭代提速，基本做到每两年至少推出两颗芯片的速度[18] - 天数智芯在2026年1月发布了四代架构路线图，计划在2026年推出两代架构及多款产品[19] 产业链合作与市场前景 - 国产大模型与国产算力的配合已“渐入佳境”，Day 0（即发布当天）适配已成为常规状态[16] - 沐曦股份已与百度、腾讯、智谱、阶跃星辰等公司签署战略合作协议[16] - DeepSeek带动了私有化部署浪潮，促进了国产GPU在一体机上的推广，并使优刻得等云服务商获益[16] - 云计算客户在算力卡选型上有主动权，目前已有国企大客户开始指定在云服务中选用部分国产芯片[19] - 中国市场拥有比美国更广阔的AI落地场景（如完善工业体系、最大手机用户群），加上紧密的产业链配合，国产芯片迭代速度正在加快[17] - 行业认为国内GPU企业在制程层面尚待突破，但通过工程学攻克只是时间问题，目前正从效果和性能上与英伟达进行差异化竞争[21]