存算一体化
搜索文档
当千亿参数撞上5毫米芯片
钛媒体APP· 2025-12-10 11:19
文章核心观点 - 全球AI技术发展重点正从追求云端大模型的参数规模,转向解决端侧AI的工程化难题,以实现高智商、低延迟、低功耗的智能应用[4][16] - 端侧AI面临“不可能三角”的物理极限挑战,行业通过“云-边-端”三级分层架构、算法模型压缩、芯片架构创新以及从通用走向专用等路径寻求突破[7][8][11][15] - 中国AI产业出现集体觉醒,不再盲目追求参数之“大”,而是转向追求应用落地之“实”,致力于将AI嵌入万物,实现真正的万物智能[16][18] 技术风向与行业共识 - 2025年技术风向逆转,工程界开始重点攻克“端侧AI”命题,目标是将大模型能力塞进面积数平方毫米、功耗仅几瓦的端侧芯片中[4] - 行业普遍共识是未来AI架构必须是“人格分裂”的“云-边-端”三级分层架构:云端处理复杂长尾问题,端侧负责高频、实时、隐私敏感任务[7] - 端侧AI面临“不可能三角”挑战:高智商、低延迟、低功耗三者难以兼得[7] - 端侧物理条件严苛,主流车载芯片、智能家居SoC或旗舰手机的NPU专用内存仅几GB甚至几百MB,而运行一个700亿参数模型仅加载权重就需约140GB显存[6] 算法层面的优化路径 - 行业主要通过三把“手术刀”对模型进行压缩与优化:知识蒸馏、极致量化、结构剪枝[8][10] - **知识蒸馏**:让云端超大模型(Teacher)将核心逻辑“传授”给端侧小模型(Student),使0.5B参数的小模型在特定垂直场景表现能逼近百亿参数通用模型[8] - **极致量化**:通过训练后量化或量化感知训练,将模型权重从FP16压缩至INT8甚至INT4,使模型体积压缩4倍以上,推理速度成倍提升[10] - **结构剪枝**:剔除神经网络中对输出影响微乎其微的冗余参数,从物理层面减少计算量[10] 芯片架构的创新突破 - 端侧大模型推理的主要瓶颈在于“访存”,传统冯·诺依曼架构下,超过80%的功耗消耗在数据搬运上,即“内存墙”危机[11] - 行业通过DSA领域专用架构来突破瓶颈,核心思路包括存算一体化、异构计算调度和算子硬化[13][14] - **存算一体化**:拉近存储与计算单元的物理距离,甚至在SRAM中直接计算,减少数据搬运开销[13] - **异构计算调度**:在SoC内精细分工,CPU负责流程控制,DSP负责信号处理,定制NPU负责繁重的矩阵乘法运算[14] - **算子硬化**:针对Transformer核心的Attention机制,在硅片上直接“刻死”加速电路,牺牲通用性以换取极高效率,实现毫秒级响应[14] - 云知声、地平线等硬科技企业通过上述架构创新,已将芯片出货量做到上亿颗[13] 应用策略的务实转变 - 行业路径从追求“通用”走向深耕“专用”,承认AI局限性,打造专精的垂直智能体[15] - 商汤医疗采用“平台化”策略,搭建模型生产平台,让医院基于自身高质量数据训练针对特定病种的专用模型,将AI变为“熟练技工”[15] - 云知声的产业路径是避开通用大模型红海,通过在医疗、家居等垂直领域深耕来打磨端侧技术与芯片,赚取数据反馈反哺基础研究[15] - 这种转变旨在让AI更务实,需要的算力更少,但在专业领域给出的建议更靠谱[15] 产业影响与未来展望 - 中国AI产业集体觉醒,转向追求应用落地的“实”[16] - 成千上万的工程师致力于将AI的价格打下来,体积缩下去,使其嵌入生活的每一块玻璃、每一颗芯片[17] - 真正的“万物智能”是让万物拥有一颗微小、聪明且独立的“芯”,不再依赖脆弱的网络连接[18] - 当一颗几十块钱的芯片能跑通拥有逻辑推理能力的大模型且不依赖网络时,智能时代的奇点才算真正到来[18]
人工智能算力基础设施赋能研究报告
中国信通院· 2025-12-09 16:01
报告行业投资评级 未提及 报告的核心观点 在人工智能落地进程中,以智算中心为代表的算力基础设施是重要基石,但目前利用负载差异大,赋能价值待提升;报告围绕需求场景、关键能力、落地生态阐述发展趋势,助力释放智算中心赋能效应,推动人工智能与实体经济深度融合 [5] 各部分总结 人工智能算力基础设施演进态势 - 技术创新:我国人工智能算力基础设施正系统性升级与架构演进,向集约高效、低碳共生、高速泛在的融合形态发展,呈现超大规模集群化、绿色低碳化与高速互联化特征 [12] - 布局优化:政策引导推动智算中心高质量发展,建设加快布局,总体规模增长,区域智能算力向统筹化和集约化部署 [16][17] - 产业升级:智能算力产业发展提质增速,产业链各环节深度融合,三大运营商和AI大厂积极布局智算领域 [18][19][20] 人工智能算力基础设施赋能的重要走势 - 需求场景:定位日益清晰,促使资源优化配置,实现从“以建促用”到“以用带建”转变 [25] - 关键能力:供给持续强化,服务向高层次、全栈化支持体系演进,提升服务效能 [26] - 落地生态:生态体系加速整合,协同机制完善,促进智算赋能价值规模化释放 [28] 人工智能算力基础设施需求场景 - 大模型预训练场景:万卡集群支撑基础大模型预训练,国内通信运营商和AI头部厂商积极建设万卡智算集群并研发基础通用大模型 [30][31][32] - 大模型微调场景:小体量智算中心可有效推进行业模型微调训练,国内多数智算中心着力支撑该场景 [34][36] - 大模型推理场景:云侧推理需求占据主导,不同推理应用场景对推理模型及智算中心需求不同,专用于推理的智算中心持续涌现 [37][39][40] 人工智能算力基础设施关键能力 - 基础支撑能力:训练场景关注集群算力有效性等,推理场景关注token吞吐率等,大模型预训练对绝对算力性能有强要求,模型推理对智算卡内存和通信带宽有强要求 [44][46][48] - 创新服务能力:训练场景关注云服务高效性等,推理场景关注智算资源池化调度能力等,模型训练要求智算中心提供全栈MaaS服务能力 [50][52][53] - 运营保障能力:训练和推理场景都关注算力调度灵活性等,均需推进智能算力灵活调度,追求高性价比,注重提升安全合规性 [55][56][57] 人工智能算力基础设施落地生态 - 智算与数据要素协同:推进与高价值数据协同,提升基础支撑能力,“算力+数据”双轮驱动构建智算生态 [60] - 智算与模型算法协同:推进与高水平模型算法协同,提升创新服务能力,“算力+模型”一体化模式满足智能应用需求 [63] - 智算与跨域智算协同:推进跨域智算互联协同,运营能力跃升,运营商智算中心长距互联实现实践突破 [66][67] - 智算与行业场景协同:推进与行业场景协同,生态持续演进升级,形成“以算促用、以用带算”良性发展机制 [68] - 智算与区域产业协同:推进与区域产业协同,实现多维度、全场景赋能,形成创新闭环和良好生态 [71] 发展展望 - 需求场景:更加多元、复杂且深度融合,政府、地方国投平台和运营方应分别做好引导员、连接器和跟踪者 [76][77] - 关键能力:更加集约、软性,行业组织应完善关键能力体系,运营方应针对性提升关键能力 [78][80] - 落地生态:更加聚合、协同,政府应引导与对接资源,运营方应主动对接外部要素主体 [81][83]
深夜,跳水!AI大变局;俄乌突发!直线下跌;新加坡,“转向”通义千问!人民币创新高
搜狐财经· 2025-11-26 08:15
宏观经济与政策 - 美联储主席遴选进入最后阶段,白宫国家经济委员会主任凯文·哈塞特被视为领跑者,美国10年期国债收益率自10月下旬以来首次跌破4%,交易员提高对未来一年降息的押注 [1] - 美国9月核心PPI同比增长2.6%,预期增长2.7%,9月PPI同比增长2.7%,符合预估 [1] - 央行开展1万亿元中期借贷便利(MLF)操作,期限为1年期,鉴于11月有9000亿元MLF到期,当月央行MLF净投放规模达1000亿元,为连续第九个月加量续作 [7] - 2025年1-10月,中国全行业对外直接投资10332.3亿元人民币,同比增长7% [9] 人工智能与半导体 - 谷歌正利用AI模型最新突破挑战英伟达,Meta与谷歌就2027年在其数据中心使用价值数十亿美元AI芯片TPU进行谈判,英伟达盘中一度跌近7%,谷歌一度大涨超3% [1] - 新加坡国家人工智能计划在其东南亚语言大模型项目中放弃Meta模型,转向阿里巴巴的通义千问Qwen开源架构 [2] - 受AI大模型应用爆发带动,全球投资者重拾对AI信心,存储芯片再度受到青睐,业内普遍认为其涨价空间很大且至少持续至明年年中 [4][5] - DIGITIMES报告指出,受AI需求强劲驱动,2025年全球晶圆代工营收预计达1994亿美元,同比增长超25%,2026年市场规模将再增长17%突破2300亿美元 [6] - 威刚董事表示AI需求涌入导致内存缺货进入20年来最严重局面,客户实际拿货量仅为下单量三成,预期DRAM与闪存2026上半年仍将全面缺货 [12] - 软件公司赛富时CEO将弃用OpenAI的ChatGPT,转而使用谷歌Gemini 3模型 [12] 金融市场与资金流向 - 11月25日,在岸人民币兑美元上涨0.25%报7.0866,离岸人民币兑美元上涨0.3%报7.0852,双双触及逾一年盘中新高 [2] - 11月25日,南向资金净买入约111.66亿港元,阿里巴巴-W、快手-W分别获净买入约56.16亿港元、5.71亿港元 [3] - 港交所披露,摩根大通在小鹏汽车-W H股持股比例从4.85%升至5.16%,在阿里巴巴-W H股持股比例从7.30%升至7.42% [3] 科技公司与产品动态 - 阿里巴巴2026财年第二季度云智能集团收入398.2亿元,同比增长34%,AI相关产品收入连续9个季度实现三位数同比增长 [4] - 阿里巴巴过去4个季度在AI+云基础设施的资本开支约1200亿元,不排除在已承诺的三年3800亿元投资外进行额外投资 [4][5] - 华为发布WATCH ULTIMATE DESIGN紫金款,售价24999元,Mate80系列起售价4699元 [4] - 蔚来2025年三季度交付87,071台同比增长40.8%,营收217.9亿元同比增长16.7%,综合毛利率13.9%创近三年新高 [14] - 小马智行第三季度营收2540万美元同比增长72%,将推出第四代自动驾驶卡车并计划于2026年开始首批次运营 [14] 行业趋势与数据 - 2025年10月,中国国内游戏市场收入为313.59亿元,环比增长5.66%,同比增长7.83%,中国自主研发游戏海外市场实际销售收入为17.99亿美元,环比增长10.96% [6] - 美团买药数据显示,11月以来甲乙流特效药订单量增长超1倍,玛巴洛沙韦片较上月增长超110%,磷酸奥司他韦颗粒增长超85%,检测试剂销量月环比增长超9倍 [3] - 第三季度全球数据中心GPU出货规模环比增幅达145%,PC GPU出货环比增长2.5%、同比增长4% [13] 企业合作与战略 - 卡尔动力发布无人货运全系列解决方案,其全球首款"运输机器人"计划2026年上半年开启示范运营,未来十年实现100万台上路运营 [5] - 华友钴业与亿纬锂能签订超高镍三元正极材料供应协议 [16] - 德明利拟募资不超32亿元用于固态硬盘、内存产品扩产项目 [17]
长鑫存储IPO辅导,重视上游设备材料产业链
2025-10-09 22:47
涉及的行业与公司 * 行业:DRAM存储芯片行业 半导体设备与材料行业[1] * 公司:长鑫存储(国内DRAM龙头企业)[2] 晶合集成(逻辑芯片代工厂)[13] * 产业链相关公司:北方华创 中微公司 拓荆科技 华海清科 精测电子(设备)[1][4][8][11] 安集科技 鼎龙股份 雅克科技 广钢气体(材料)[4][9] 精智达 芯源微 华峰测控(封测)[11] 华海诚科 上海新阳 联瑞新材(HBM材料)[12] 核心观点与论据 * **全球及中国DRAM市场需求上行**:传统需求复苏及人工智能等新兴应用驱动 预计全球DRAM市场年复合增速接近5% 中国市场占比超30% 增速预计达8%左右 主要驱动力来自消费电子和汽车产业[1][3] * **长鑫存储成长空间巨大**:公司在全球DRAM市场份额不足10% 但在国内市场其份额有望从当前不到10%提升至30%以上[1][5] * **长鑫存储产能快速扩张**:2024年底月产能约20万片 预计2025年底增至30万片 占全球总产能15.6%左右 同比增长50% 同期全球DRAM月产能从180万片增至190-200万片[1][6] * **长鑫存储产品结构升级**:加速向DDR5过渡 推出16GB DDR5产品(16纳米工艺) 预计2025年四季度DDR5出货份额从一季度的近1%提升至7%左右 LPDDR产品份额从0.5%提升至9% 整体出货市占率从年初的6%提升到年底8%[1][7] * **上游设备材料需求受益**:长鑫存储产能扩张及产品迭代将带动上游设备材料需求 关注北方华创 中微公司等半导体设备公司及3D DRAM带来的投资机会[1][8] 其他重要内容 * **长鑫存储IPO进程**:公司成立于2016年 第一大股东为合肥清辉集团(合肥国资委直接控股22.9%) 目前正在进行IPO辅导 预计上市进程将加速[2] * **2026年HBM产业链机会**:预计国产HBM产业链将实现0到1的产业化突破 带来结构性投资机会 晶圆端关注北方华创 中微等核心设备公司 封测端关注精智达和芯源微[4][10][11] * **HBM材料端新兴机会**:关注0到1阶段的新兴设备品类 如环氧塑封料(华海诚科)和电镀液(上海新阳)等[12] * **晶合集成发展潜力**:公司现有产能约14万片 预计年底扩产至16-17万片 28纳米高压产品预计2025年底小批量上市 2026年持续放量 受益于DRAM技术发展及逻辑芯片代工需求[13][14]
蓝箭电子(301348.SZ)以2000万元参投芯展速 其主营高性能企业级SSD产品业务
智通财经网· 2025-09-04 18:58
投资交易 - 公司以自有资金2000万元认缴芯展速新增注册资本333333.33元 [1] - 投资完成后公司直接持有芯展速5.55%股权 [1] - 其他投资方包括石溪资本、华登及芯创联 [1] 标的公司业务 - 芯展速为高性能企业级SSD产品研发企业 [1] - 产品主要应用于互联网、云服务、金融和电信客户的数据中心 [1] - 同时覆盖智能手机、PC、可穿戴设备等个人消费电子应用领域 [1] 行业前景 - 企业级存储领域受益于人工智能和云基础设施持续旺盛需求 [1] - 高性能企业级SSD为AI算力和存算一体化提供核心支持 [1] - 细分领域未来具备较强增长动力 [1] 战略协同 - 结合芯展速在存储主控芯片、模组及数据服务领域优势 [2] - 整合公司在封装测试领域的技术与制造能力 [2] - 实现资源协同和技术赋能以推进半导体存储领域技术创新 [2]
智驾芯片算法专家交流
2025-08-07 23:03
行业与公司 * 行业涉及自动驾驶芯片与算法领域 公司为华为及其汽车相关业务[1][2][3][4][5][6][7][8][9][10][11][12][13][14][15][16][17][18][19][20][21][22][23][24][25][26][27][28][29][30][31][32] 核心观点与论据 芯片硬件发展 * 华为新一代MDG1,000芯片提供500-800 TOPS算力版本 采用单芯片方案替代双芯片 解决特征层传输局限性 预计价格在一万多美元 低于双芯片方案的13000-14000美元[1][2][4] * 当前芯片为7纳米工艺 未来将精进至5纳米工艺 带宽从目前100 GB/s提升至200-280 GB/s NPU算力从200K DMUS升级到400K DMUS[2] * 车端芯片架构基于达芬奇架构 偏向整形运算(如INT8) 与云端服务器的浮点运算需求不同 成本差异显著(云端浮点计算卡需十几万美元)[5][6] * 华为未转向GPGPU方向 而是优化ASIC架构 推进存算一体化 提高数据吞吐效率[1][7] 算法架构演进 * 华为自动驾驶算法从IDS3.1/3.3的两段式结构向端云协同Vivo框架转变 通过云侧世界引擎模型生成训练数据 蒸馏出MOE多专家原生基模型 提高对复杂场景的泛化能力[1][13] * 当前多模态大语言模型参数量约1.几个B(十亿) 低于特斯拉(几十B)和理想(4B)[14] * 车端多模态大语言框架可实现100毫秒内出结果(相当于10帧) 全链路200毫秒 融合感知、后处理、预测、规划及控制 通过注意力机制提高效率[19] * 系统基于盘古大模型 并结合开源资源(如OpenAI或Lambda)进行自主创新[20] 自动驾驶级别与功能 * L3级自动驾驶功能预计2025年底或2026年初推出 但法规尚未完全支持 保险公司目前仍按L2标准赔付[28][31] * L4级别自动驾驶技术预计2026年底进行小范围试点 将优先应用于百万级别豪华车型(如尊界MPV) 再逐步推广至六七十万价位车型[11][32] * 自动驾驶版本接管率存在差异: 2.0版本城区每5公里一次接管 高速500公里以上 3.0版本城区提升至20公里一次 高速突破1000公里 4.0版本高速设计目标为10000公里一次[22] 传感器与融合方案 * 多传感器融合方案是主流方向 包括摄像头、毫米波雷达、超声波和激光雷达 尚未考虑纯视觉方案[22][23] * 激光雷达在算法架构中起到全融合定位作用 从目标级融合发展到数据级融合 提高学习效果和精度[22][23] * 华为推出单激光、双激光(前后固态补盲)、三激光(前主激光加侧面补盲)及四激光雷达方案[22] * 第五代激光雷达将在2025年推出 应用于VL4解决方案 已上市车型(如问界M9、S800)可通过OTA升级支持[29][30] 数据与训练 * 数据质量对训练效果至关重要 高质量数据标注和工程是提升体验的关键 通过仿真生成高质量场景训练端侧模型[16] * 特斯拉采用极简式一段式训练方法 优势在于快速数据闭环(如使用1000万个CLIP实现良好效果)[17] * 高质量基础模型结合垂直领域数据积累可显著提升整体表现[18] 车型与配置 * 2025年主要搭载500 TOPS算力芯片 800 TOPS芯片尚未上车 今年上车的大部分是810型号(400 TOPS左右) 真正达到500 TOPS要到2026年[12] * 2025年发布的SE、Pro、Max、Ultra类别中 只有Ultra使用下一代芯片平台 Max仍使用610型号(MDC810) 配置包括主激光雷达、侧面补光激光雷达、6只毫米波雷达及12只摄像头[12] * 摄像头加激光雷达融合模组用于DMS(驾驶员监测系统)和OMS(乘客监测系统)[26] 线控技术 * 当前转向技术属于半线控转向 保留机械部件 未来全线控转向将完全依赖电子控制 与L4级自动驾驶密切相关[27] * EMB(电子机械制动)已实现双冗余、互冗余制动控制 将在L4阶段更广泛应用 目前主流是EHB(电子液压制动)[27] 其他重要内容 * 车端硬件受限于算力和带宽 运行1.5B-2B模型需40GB/s带宽 运行77B模型需150GB/s带宽[14] * 晚上行车时视觉系统有效距离存在差异 有些公司只能看到50米 华为可达100米以上[24] * IDS3.0系统可升级到多个版本(如M5、M7、R47) 4.0版本也能升级到IDS Pro的M7车型 但硬件配置不同导致体验差异[25] * 英伟达客户群体广泛 需求多样化 华为更加专注特定领域 制程问题敏感 未来5纳米工艺可能限制高端车型使用最新技术[9][10]