轻量化模型
搜索文档
国产算力崛起:内外双轮驱动下的自主生态突围
国投证券· 2026-03-04 18:43
行业投资评级 - 领先大市-A [6] 核心观点 - 内外需求共振,开启国产算力历史窗口 海外云厂商资本开支进入新一轮上行周期,牵引全球设备需求,为中国云计算投资提供周期性机遇 美国对华芯片管制不断升级,倒逼国内形成以“自主可控”为核心的政策与产业共识 中国自上而下全面布局,构建覆盖战略规划、基础设施与场景开放的完整政策体系 以DeepSeek-V2为代表的轻量化模型技术突破,大幅降低训练与推理算力负担,为国产芯片切入主流AI应用扫清关键性能门槛 [1] - 自主技术突破,夯实国产算力供给底座 硬件层面,国内通过Chiplet(芯粒)技术路径实现“制程混搭”,兼顾性能、良率与成本,支撑高端AI芯片规模化落地 国产AI芯片(如华为昇腾、寒武纪、海光信息)在GPGPU与ASIC双架构路线上持续迭代,单卡算力、内存带宽及能效比快速提升,并通过自研互联技术构建高效集群能力 软件生态通过兼容层适配、自主软件栈研发和开源开放模式三路并行破局 系统集成层面,“超节点”技术通过硬件重构、统一内存池及智能调度,实现算力效率与能源利用率的数量级提升 [2] - 国产算力生态价值兑现,迎接战略机遇 在外部压力与内生需求双轮驱动下,国产算力产业已从单点突破迈入以“自主技术体系、全栈生态能力、商业闭环验证”为特征的新阶段 产业链上下游协同效应日益凸显,国产算力正从“可用”加速转变为“好用”的主流方案 展望2026年,伴随国内云厂商资本开支进入上行通道、轻量化模型广泛应用以及国产算力生态持续成熟,国产算力基础设施有望在政务、金融、互联网及智能制造等关键行业实现规模化部署与价值兑现 [3] 行业需求与周期分析 - 海外云厂商资本开支呈“四年周期”,2026年AI芯片出货量有望维持高增长 北美云巨头资本开支在过去十年呈现“算力代际—IDC扩建—设备折旧”三重叠加周期,周期长度稳定在3–4年 2018年北美云厂商CapEx同比增长60%,2022年提升20%+,2024年迅速回升至55.1% 在此算力迭代周期牵引下,2026年仍有望维持AI芯片与相关算力设备的高出货节奏,为中国云计算投资带来阶段性共振机会 [11][12] - 国内云厂商投资周期与海外非同步,但预计2025–2026年将进入新一轮上行周期 过去两年,中国互联网大厂因外部环境制约和行业处于从传统云向AI云的结构性迁移期,投资节奏被迫扰动,周期性弱、结构性更强 从2025年开始,国内周期将逐步与海外重新同步 综合海外周期上行、国内对AI算力的迫切需求以及国产算力生态快速完善的背景,预计2025年起国内云厂商资本开支将迎来明显抬升,并在2026年延续高增态势 [15][16][17] 外部政策环境与国产算力崛起 - 美国对华芯片管制不断升级,形成全链条封锁,倒逼国产算力体系加速发展 自2018年以来,美国对华半导体与人工智能领域的出口管制从硬件封锁逐步扩展到设备、软件工具、云算力乃至AI模型训练行为本身 政策演进呈现“以收紧为主、以局部松动为辅”的波动式演进,2025年出现“有限放松”与“严格锁死”并存的新格局 外部压力促使中国在自主算力芯片、AI模型框架、国产EDA、先进封装等多个方向加速突破 [18][19][33] - 外部压力下,供应链可控性与成本可持续性成为企业核心诉求,政策与产业扶持加速本土替代 美国持续高频次、不确定性的限制,使依赖海外GPU和云算力成为重大风险,企业决策转向“供货稳定+成本可控+系统可预期” 美国的限制强化了国内政策的响应力度,国家层面加大对国产GPU、互联架构、AI框架及整机算力系统的投入 随着大厂将算力任务迁移到国产平台,国产算力生态进入“需求拉动—能力提升”的正循环,迭代速度加快 [34] 国内政策体系与产业布局 - 国家层面构建多层次、全链条的政策驱动体系,系统化推进国产算力发展 第一层级为国家战略引领,通过“东数西算”等国家级工程优化全国资源布局 第二层级为部委细则推进,制定具体行业路线图与时间表 第三层级为地方精准落地,形成因地制宜的产业集群与应用场景 第四层级为产业链协同攻坚,龙头企业牵头组建生态联盟,突破兼容性、稳定性与易用性瓶颈 [37] - “东数西算”工程为核心国家级专项,截至2024年6月底,八大枢纽节点直接投资超435亿元,机架总规模超195万架 [40] - 地方政策因地制宜,东部地区侧重构建生态与引领应用,中西部地区依托成本优势承接算力需求转移 例如,北京市计划到2025年全市智算供给规模达45 EFLOPS,发放“算力券”给予最高20%、单个企业最高3000万元的补贴 上海市计划到2027年智算规模达200EFLOPS,自主可控算力占比超70%,发放总额达10亿元的“算力券、模型券、语料券” 安徽省通过国家、省、市三级政策叠加,对企业智能算力使用的综合补贴最高可达75% [43][45][47] 轻量化模型技术突破与算力需求迁移 - 以DeepSeek-V2为代表的国产轻量化模型技术取得突破,为国产算力硬件创造历史性机遇 DeepSeek-V2通过稀疏混合专家架构(MoE)、高压缩注意力机制(MLA)及全栈工程协同等创新,在保持高性能的同时大幅降低算力需求 其总参数量2360亿,但每令牌仅激活约210亿参数,训练成本较同类密集模型降低42.5%,推理吞吐量提升至基线模型的5.76倍 [57][60][64] - 轻量化模型技术对国产训练与推理芯片产生差异化赋能 对训练芯片:将进入大模型训练赛道的初始算力门槛从“数万卡·月”级别显著下降,使国产芯片获得准入门票 训练任务评价标准更侧重集群通信效率、内存带宽利用率与软硬件协同优化,有利于国产算力体系围绕自主技术生态进行闭环创新 [65][68][69] 对推理芯片:将市场核心诉求从“单卡峰值算力”转向“性价比”与“能效比”,进入国产芯片的优势区 国产推理芯片能够与国产轻量化模型及框架进行深度协同优化,构建极具竞争力的总拥有成本壁垒 [74][75] - AI算力需求正从训练侧向推理侧迁移,构成国产算力崛起的历史性窗口 全球AI推理市场规模预计在2028年将达1500亿美元,年复合增长率超40%,远高于训练市场 预计中国人工智能服务器工作负载中推理占比将从2024年的65%提升至2028年的73% [76][77] 硬件与核心技术突破 - 在先进制程受限背景下,Chiplet(芯粒)技术成为破局关键,实现“制程混搭”与“化整为零” Chiplet技术将计算核心与I/O等模块解耦,有效扬长避短,兼顾了性能、良率与成本,支撑了高端AI芯片的规模化落地 [2] - 国产AI芯片在GPGPU与ASIC双架构路线上持续迭代,并构建高效集群能力 国产AI芯片如华为昇腾、寒武纪、海光信息等,单卡算力、内存带宽及能效比快速提升 通过MetaXLink、MLU-Link等自研互联技术构建了从千卡到万卡级的高效集群能力 [2] 软件生态与系统集成突破 - 软件生态破局三路并行:兼容适配、自主研发与开源开放 通过兼容层快速适配现有CUDA生态以降低迁移门槛 坚持研发自主软件栈以释放硬件潜力 以开源开放模式构建长期独立的生态体系 [2] - 系统集成层面,“超节点”技术实现算力效率与能源利用率的数量级提升 以华为CloudMatrix、昆仑芯超节点为代表的“超节点”技术,通过硬件重构、统一内存池及智能调度,为千亿参数大模型训练与高并发推理提供坚实的系统级底座 [2] 投资建议关注公司 - 报告建议关注包括寒武纪、海光信息、壁仞科技、沐曦股份、摩尔线程、华为(昇腾)、昆仑芯等在内的国产算力产业链公司 [7]
OpenAI持续布局轻量化,云知声(09678.HK)端侧小型语音模型领跑本土创新
中金在线· 2025-10-09 13:11
行业趋势 - 人工智能领域正朝着模型轻量化和高效化方向发展,旨在提升多模态交互能力并挖掘终端设备应用潜力 [1] - OpenAI推出GPT-5Pro及轻量语音模型GPT-realtime-mini,印证了全球性技术趋势,并将焦点引向具备即时响应与隐私保护能力的语音交互技术 [1] 公司技术实力 - 公司构建了通用大模型-行业大模型-端侧轻量化模型的全栈技术架构 [2] - 基于山海大模型蒸馏技术的0.5B参数端侧语音模型已稳定服务于吉利、智己等多家车企的量产车型 [2] - 该0.5B参数模型技术瘦身显著降低了对端侧设备推理硬件的要求,可在算力为30TOPS的8295平台上流畅运行,实测响应速度低至350ms [2] - 公司凭借高效推理、隐私保护及多场景适配的技术优势,获得2025AIEra企业创新大奖与X未来商业品牌奖双重认可 [2] - 公司医疗专用轻量化模型UniGPT-Med-U1在MedBench评测中位列第一,性能超越GPT-4等模型 [3] 商业表现 - 2025年上半年,以端侧语音模型为核心的大模型相关业务收入同比激增457%,突破1亿元人民币 [3] - 大模型相关业务收入占总营收比重提升至24.4% [3] - 公司端侧语音模型已形成车载、医疗、交通、政务四大落地矩阵,服务覆盖千万级终端设备 [3] 战略布局 - 公司采用独特的芯云一体战略布局 [1] - 公司技术路径体现为中国AI企业的创新逻辑,即以全栈技术能力为根基,通过大模型技术下沉和场景深度适配实现差异化竞争 [4] - 公司近日与南宁市人民政府共建东盟总部项目,将端侧语音模型融入东南亚交通枢纽与跨境医疗场景,进行全球化布局 [4]
仅0.27B参数,谷歌开源史上最小Gemma 3,手机能跑,25次对话耗电不到1%
36氪· 2025-08-15 18:15
产品发布与定位 - 谷歌推出史上最小的Gemma 3开源模型,拥有2.7亿个参数,是一款轻量级模型 [2] - 该模型底层设计以特定任务微调为目标,具备强大的指令跟踪和文本能力 [2] - 模型尺寸和性能使其非常适合离线、基于网页的创意任务,如驱动睡前故事生成器网页应用 [3] 核心性能与技术特点 - 模型架构轻量而强大,共有2.7亿个参数,其中嵌入参数有1.7亿个,Transformer模块参数有1亿个 [4] - 得益于256k个token的庞大词汇量,模型能够处理特定和稀有的token,是可在特定领域和语言中进一步微调的优质基础模型 [4] - 模型具备极致能效,INT4量化版本在Pixel 9 Pro SoC上进行25次对话仅消耗0.75%的电量,成为谷歌最节能的Gemma模型 [4] - 模型提供量化感知训练检查点,支持以INT4精度运行且性能损失极小,便于在手机等资源受限设备上部署 [4] 市场竞争力与表现 - 在指令执行能力测试中,Gemma 3 270M超越了尺寸更大的Qwen2.5 0.5B Instruct模型,并与Llama 3.2 1B模型能力比肩 [1] - 该模型适合需要高容量、定义明确任务、精打细算成本、快速迭代部署或有隐私保护需求的用户选择 [5] - 轻量化模型正在打破参数规模决定性能的固有认知,展现出小模型遵循指令的能力以及微调后的威力 [5] 行业趋势与战略意义 - 谷歌Gemma开源模型加速迭代,此次Gemma 3 270M的推出填补了其轻量模型版块 [5] - 从轻量而强大的模型入手,用户可以构建精简、快速且运行成本显著降低的生产系统 [5]
谷歌版小钢炮开源!0.27B大模型,4个注意力头,专为终端而生
量子位· 2025-08-15 14:44
模型发布与市场反应 - 谷歌开源Gemma 3 270M模型 参数规模为2.7亿 其中1.7亿为嵌入层参数 1亿为Transformer模块参数 [1][14] - 模型可直接在浏览器本地运行 无需联网 支持创意内容生成如睡前故事 [3] - 发布后引发市场关注 网友误以为参数规模为270B 实际仅为0.27B [4] 架构与性能特征 - 采用紧凑高效架构 仅包含4个注意力头 较Qwen 3 0.6B模型少12个注意力头 [7] - 词汇量达25.6万token 可处理特定领域罕见词汇 适合进一步微调 [15] - 支持INT4量化运行 在Pixel 9 Pro手机25轮对话仅消耗0.75%电量 能效表现突出 [17] - 提供量化感知训练检查点 INT4精度下性能损耗极微 适合资源受限设备部署 [19] 功能与应用场景 - 开箱即用精准遵循指令 微调后可释放文本分类和数据提取能力 [12][13] - 支持OCR应用 可将图片或PDF转换为结构化Markdown格式 [6] - 适用于情感分析、实体提取、查询路由、文本结构化、创意写作及合规检查等批量任务 [27] - 支持完全本地化运行 无需云端数据传输 保障用户隐私 [24] 开发与部署优势 - 微调仅需数分钟 支持快速迭代实验 数小时内可完成用例配置 [1][24] - 可通过Hugging Face、Ollama、Kaggle等平台获取模型 [25] - 支持使用Hugging Face、UnSloth或JAX工具进行个性化微调 [28] - 可部署于低成本基础设施或终端设备 大幅降低推理成本 [24][27] 行业合作与案例 - Adaptive ML与SK Telecom合作案例 使用Gemma 3 4B模型微调后 在多语言内容审核任务中超越更大规模专有模型 [20][21] - 轻量化模型策略适用于明确界定的任务 可释放更高效率 [23]
从感知能力提升到轻量化落地,具身这条路还要走很长一段时间~
自动驾驶之心· 2025-07-02 10:05
具身智能技术发展趋势 - 感知能力升级与多模态融合成为技术发展重点,触觉感知在灵巧手领域发力,力控技术提升操作精细度及反馈能力 [1] - 大模型驱动机器人认知能力提升,基于多模态数据增强感知、自主学习与决策规划能力,轻量化模型设计成为行业落地关键需求 [1] - 仿真环境与数据生态建设加速技术突破,通过物理世界模拟构建机器人认知,sim2real技术推动仿真与现实对齐 [1] 行业生态与资源整合 - 国内外200+具身公司与研究机构形成技术社区,覆盖斯坦福、清华等高校及智元机器人、优必选等头部企业 [6] - 社区整合40+开源项目、60+数据集及主流仿真平台,提供感知、交互、强化学习等全栈技术路线 [6][20][24][26] - 行业数据生态建设聚焦本体多样化,双足、轮式等形态数据需抽象共同特征以促进技术通用性 [2] 技术应用与研究方向 - 多模态大模型在理解与生成领域快速发展,覆盖图像、视频、音频等多模态数据交互 [38][40] - 机械臂抓取、双足/四足机器人等硬件方案技术成熟,开源项目助力系统快速搭建 [51][53][55] - 视觉-语言-动作(VLA)模型与Diffusion Policy成为前沿研究方向,推动机器人任务泛化能力 [43][45][47] 行业服务与支持体系 - 提供研报、书籍、零部件品牌等资源汇总,覆盖工业、医疗、物流等应用场景 [14][16][18] - 建立技术交流与人才对接平台,包含岗位推荐、直播分享及研究方向选择指导 [7][11][57][59]