软硬协同

搜索文档
DeepSeek催化下,芯片带领沪指突破3800点
虎嗅· 2025-08-22 20:19
芯片板块市场表现 - 寒武纪股价20cm涨停,市值突破5000亿,股价超过1200元 [1] - 科创板芯片股全数上涨,科创芯片指数涨10.05%,科创芯片ETF飙涨11.92% [2] - 半导体板块领涨市场,海光信息、寒武纪、盛美上海20cm涨停,芯源微、杰华特、恒烁股份、中芯国际等多股涨超10% [6] - 寒武纪从七月份低点算起股价涨超一倍,年内涨幅超过80% [18] 行业指数与板块表现 - 科创芯片指数自4月8日低点以来累计涨幅高达46.62%,科创芯片ETF同期上涨49.28% [25] - 半导体板块一路高开高走,领涨市场主要芯片指数 [5] - 芯片、证券、小金属、教育、软件、稀土永磁等板块涨幅居前 [4] 技术催化与产业趋势 - DeepSeek发布DeepSeek-V3.1,使用UE8M0FP8Scale参数精度,针对下一代国产芯片设计 [8][9] - UE8M0是真实存在且已被工程实现的技术,用于下一代AI芯片中FP8计算的缩放因子,实现更小带宽、更低功耗、更高吞吐 [11] - 摩尔线程MUSA3.1GPU、芯原VIP9000NPU等2025H2首发的新款国产芯片已在宣传资料里列出"原生FP8"或"BlockFP8"支持,并与DeepSeek、华为等15家厂商联合验证UE8M0格式 [14] - 国产AI正走向软硬协同阶段,减少对英伟达、AMD等国外算力的依赖 [16] 公司动态与市场传闻 - 寒武纪已向台湾载板大厂景硕电子预定了大量订单,2026年规划产能达50万颗,公司全年营收有望突破100亿元 [19] - 寒武纪定增落地,海光信息和中科曙光合并,沐曦股份及摩尔线程科创板IPO受理 [20] - 腾讯在推理芯片供应渠道侧具备多种选择,有望依托华为、寒武纪、海光等国产厂商的推理芯片满足算力需求 [33] 业绩与成长性 - 科创芯片指数归母净利同比从2024年底的-6.9%提升至83.2% [34] - 科创芯片成份股2025年预期营收同比增速达24.93% [37] - 科创芯片指数的成长指标显著优于同类指数 [37] 资金配置与IPO进程 - 截至202501,科创板配置比例达16% [43] - 摩尔线程、沐曦的科创板IPO于6月底获上交所受理,长鑫存储于7月7日完成IPO上市辅导备案 [40] - 科创板或汇聚更多AI芯片佼佼者,进一步吸引资金配置 [41] 国产算力生态 - 科创板覆盖了从芯片到AI应用各类主流公司,尤其以芯片"设计-代工-封测"的完整产业链 [22] - 国产大模型迭代提速,Token使用量规模快速增长,阿里夸克APP等国产AI产品在月活榜单上占领大部分席位 [29] - 国产芯片重估的叙事是当前半导体周期框架无法约束的 [28]
DeepSeek一句话让国产芯片集体暴涨!背后的UE8M0 FP8到底是个啥
量子位· 2025-08-22 13:51
文章核心观点 - DeepSeek V3.1发布采用UE8M0 FP8参数精度 引发市场对国产芯片技术升级和生态协同的高度关注 带动相关企业股价显著上涨 [1][3][4] - UE8M0 FP8技术通过块级缩放和动态范围优化 显著降低带宽需求并提升计算效率 成为适配下一代国产芯片的关键创新 [10][11][19][20] - 国产AI芯片厂商如寒武纪、海光、沐曦等已布局FP8支持 软硬协同生态构建有望减少对国外算力依赖 提升行业竞争力 [23][24][33][34] 技术架构分析 - UE8M0 FP8由Open Compute Project定义 采用8位微缩块格式 通过分块缩放因子扩展动态范围数十倍 [8][10][11] - UE8M0格式无符号位和尾数位 全部分配8bit至指数位 处理器复原数据仅需移动指数位 无需浮点乘法或舍入逻辑 [14][19] - 相比传统FP32缩放 UE8M0使32个FP8数据仅追加8bit缩放因子 节省75%流量 显著优化带宽和功耗 [24] 国产芯片厂商动态 - 寒武纪早盘股价大涨近14% 总市值超4940亿元 跃居科创板首位 其MLU370-S4及思元590/690系列均支持FP8计算 [4][29] - 海光深算三号DCU、沐曦曦云C600、中昊芯英"刹那"TPU及摩尔线程MTT S5000均已支持FP8精度计算 [23][32] - 华为昇腾路线图显示2025Q4将支持原生FP8 预计2026年推出的新品可能成为"下一代芯片" [30] 产业生态影响 - 半导体ETF半日大涨5.89% 科创50指数涨3%创近三年半新高 芯片产业链集体走强 [4][31] - DeepSeek与15家厂商联合验证UE8M0格式 包括中国电信、昆仑芯等8家通过大模型适配 构建统一软硬协同生态 [23][27][34] - 技术升级提升国产芯片"性价比" 同等硬件可运行更大模型 实质性减少对英伟达、AMD等国外算力依赖 [33][34]
高性能计算群星闪耀时
雷峰网· 2025-08-18 19:37
高性能计算(HPC)与大模型发展 - 高性能计算是大模型训练的核心基础设施 没有高性能计算就没有大模型[2] - HPC技术在大模型时代扮演降本增效的关键角色 通过软硬协同优化可显著提升训练效率[3][4] - 中国HPC发展经历了三个阶段 从自研计算机到采购工作站再到自研处理器构建超算[4] 清华高性能计算研究所 - 清华高性能所是中国HPC研究的先驱 率先采用工作站集群方案打破美日垄断[4] - 研究方向从硬件转向软件优化 在计算/存储/通信三大领域积累深厚经验[5] - 培养了大量顶尖人才 包括华为海思首席科学家/网易有道CEO等产业界精英[16] 存储技术创新 - 郑纬民团队突破大规模SAN存储技术 将产品价格大幅降低[13] - 提出云存储概念并开发国内首个云计算平台"清华云"[13] - 陆游游团队开发的SuperFS文件系统夺得IO500全球存储榜首[63] 大模型训练优化 - 开发"八卦炉"训练系统 支持174万亿参数MoE模型在国产超算上运行[37] - 推出全球首个开源MoE训练框架FastMoE 训练效率提升显著[41] - SmartMoE系统采用动态并行策略 进一步优化稀疏模型训练[42] 推理系统创新 - Mooncake系统实现KVCache共享 节省GPU算力消耗[55] - KTransformers系统实现CPU/GPU协同推理 降低显存需求[57] - "赤兔"推理引擎支持国产芯片 性能优于主流开源方案[44] 国产芯片生态建设 - 清程极智专注国产芯片编译优化 支持华为/沐曦等十余家厂商[86] - 开发九源智能基础软件栈 实现跨硬件平台适配[96] - 目标是用国产芯片训练国际一流大模型 突破算力瓶颈[85] 新兴计算方向 - 张悠慧研究类脑计算 提出类脑计算完备性理论[74] - 开发通用类脑编译器 解决软件碎片化问题[77] - 汪东升团队发现多个处理器安全漏洞 推动硬件安全防御[81]
软件ETF(515230)涨超2.0%,AI技术变革驱动行业估值重塑
每日经济新闻· 2025-08-11 15:08
华为AI战略与技术创新 - 公司正通过从大模型设计到基础设施的软硬协同构建全栈AI竞争力[1] - AI策略从对标业界SOTA模型转向为自研昇腾硬件定制模型架构[1] - Pangu Pro MoE采用分组专家混合(MoGE)架构解决负载不均衡问题[1] - Pangu Ultra MoE通过系统级优化适配昇腾硬件[1] - 新一代AI基础设施CloudMatrix通过统一总线网络构建分布式高速内存池[1] - 降低跨节点通信差异并支持PDC分离架构等软件创新[1] - 大模型转向混合专家(MoE)稀疏架构后聚焦解决专家负载不均衡系统性瓶颈[1] - 软硬协同路径已从单纯硬件或算法问题拓展至AI系统工程领域[1] 软件ETF产品信息 - 软件ETF(515230)跟踪软件指数(H30202)[1] - 指数从市场选取涉及软件开发、系统集成及互联网服务等业务的上市公司证券[1] - 反映软件行业相关上市公司证券的整体表现[1] - 指数成分涵盖应用软件、系统软件等信息技术领域细分行业[1] - 体现软件服务企业的技术创新能力和市场成长性[1] - 无股票账户投资者可关注国泰中证全指软件ETF联接A(012636)和C类(012637)[1]
大模型进入万亿参数时代,超节点是唯一“解”么?丨ToB产业观察
钛媒体APP· 2025-08-08 17:57
模型发展趋势 - 企业级应用侧小参数模型成为落地最佳选择 通用大模型参数进入万亿时代 [2] - MoE架构驱动大模型参数规模提升 如KIMI K2开源模型总参数量达1.2万亿 每个Token推理仅激活32B参数 [2] 算力系统挑战 - 万亿参数模型训练算力需求激增 GPT-3训练需2.5万张A100 GPU运行90-100天 万亿模型需求可能达数十倍 [3] - 模型并行和数据并行导致跨节点通信开销大 GPT-4训练算力利用率仅32%-36% 受显存带宽限制 [3] - MoE模型训练稳定性挑战大 梯度范数频繁突刺 KV cache存储需求呈指数级增长 [3] 显存与计算需求 - FP16格式下万亿参数模型权重需20TB显存 动态数据需求超50TB GPT-3需350GB显存 万亿模型需2.3TB [4] - 长序列训练使计算复杂度平方级增长 2000K Tokens训练加剧内存压力 [4] - MoE路由机制导致专家负载不均衡 部分专家过度使用成为瓶颈 [4] 解决方案与技术进展 - 阿里云提出全局负载均衡损失 使模型PPL降低1.5个点 [5] - AI技术方向从预训练转向推理 算力需求从训练侧转向推理侧 [5] - MoE架构分布式训练通信时间占比高达40% 需构建更大Scale Up高速互连域 [5] Scale Up系统优势 - Scale Out集群节点间通信瓶颈放大 InfiniBand时延达10微秒 Scale Up系统将数百颗AI芯片封装为统一计算实体 [6] - 并行计算技术如专家并行、张量并行可拆分模型权重与KV Cache到多芯片 [6] - 构建大规模Scale Up系统是解决万亿模型计算挑战的唯一可行路径 [6] 产品与架构创新 - 浪潮信息发布超节点AI服务器"元脑SD200" 支持64路本土GPU芯片 可单机运行1.2万亿参数Kimi K2模型 [7] - 元脑SD200采用多主机低延迟内存语义通信架构 支持多模型同时运行 [7] - 3D Mesh系统架构实现64卡P2P全互连 拓展跨域互连能力 [8][9] 软硬协同与未来方向 - 软硬协同是突破算力瓶颈核心路径 字节跳动COMET技术将MoE通信延迟从0.944秒降至0.053秒 [10] - 超节点功耗密度达兆瓦级 需软件适配动态功耗调节避免过热降频 [11] - Scale Up与Scale Out将同步发展 Scale Up成为大模型技术重点探索领域 [9]
对话地平线陈黎明:不应该无限制地去追求算力的增长
中国经营报· 2025-08-01 23:21
行业趋势 - 中国汽车产业智能化转型进入关键阶段,智能化取代电动化成为产业升级主引擎 [2] - 智能驾驶发展从"有没有"过渡到"好不好"及"效率高不高"阶段,产业竞速围绕体验、算力、成本平衡展开 [2] - 中高阶智驾已迎来拐点,未来将像智能手机和电动汽车一样迎来大规模发展 [9] 技术发展 - 智能驾驶性能突飞猛进,中国在应用创新方面持续引领行业发展 [8] - 算法创新层出不穷,模型参数持续增加,行业对算力需求不断上升 [11] - 地平线最新旗舰芯片征程6P算力达560 TOPS,较征程5(128 TOPS)提升显著 [11] - 算法优化技术(如Vision Mamba)可显著提高计算效率,降低资源占用 [12][13] 商业模式 - 智驾平权成为行业必然趋势,推动技术发展和成本下探 [9] - 特斯拉FSD进入中国市场将推动行业发展,在部分场景表现优于国内系统 [10] - 预计未来80%-90%车企会选择与供应商合作,形成2:8或1:9的分工格局 [17][18] 企业竞争力 - 未来行业将仅存3-4家主要技术提供商 [3][19] - 存活企业需具备技术引领能力、快速响应能力和强大工程系统能力 [20] - 地平线坚持软硬协同技术路线,通过算法与芯片深度结合实现高性能低成本 [14][15] 技术挑战 - 城区NOA目前仅达"可用"水平,尚未实现"好用",需提升算法、算力、数据和工程能力 [11] - 行业面临性能、成本和体验平衡难题,需通过工程能力实现高效技术转化 [14] - 智能驾驶芯片需采用软硬结合方式应对多模态数据处理需求,通用处理器方案不现实 [15]
安防+高尔夫,中国机器狗“卷”到北美
观察者网· 2025-07-31 22:10
(文/刘媛媛 编辑/周远方) 不久前,康迪科技宣布与云深处科技达成两项合作,双方将深度协同,整合制造、技术与渠道优势,共 同开发面向北美市场的智能高尔夫装备及安防巡检四足机器狗,推进产品本地化落地与商业化扩张,加 速智能机器人技术的多元化应用与全球化布局。 为更深入了解康迪科技在四足机器人领域的技术突破与商业化布局,观察者网独家对话了康迪机器人技 术总监崔广章。在对话过程中,这位拥有多年人工智能研发经验的专家,向我们揭示了更多技术细节与 战略思考。 以下为对话实录: 观察者网:康迪科技此前是一家新能源汽车制造商,后来拓展了"智能机器人"业务,这种业务转型背 后,是基于怎样的行业洞察和公司战略考量? 崔广章:康迪科技跨界进入智能机器人领域是跟行业发展趋势密切相关的。现在,大模型能力越来越 强,软件企业和硬件企业都在往软硬协同的方向发展。过去,互联网企业通常通过智能体集成硬件,而 传统硬件厂商也开始集成软件,尤其是AI能力。 在四足机器人赛道,娱乐化应用的投资回报率正遭受质疑。当基础行走和简单互动功能已趋成熟,市场 更期待看到的是:这些造价不菲的智能体,究竟能在哪些商用场景创造实际价值? 在2025世界人工智能大 ...
四大方向,50项课题!2025第一批“CCF-蚂蚁科研基金”正式发布
全景网· 2025-07-18 15:10
科研基金概况 - 2025年"CCF-蚂蚁科研基金"第一批课题覆盖数据安全与隐私保护、软硬协同、超算与智算、人工智能四大方向,课题总数达50项创历年新高,资金规模超千万[1] - 该基金由蚂蚁集团与中国计算机学会于2020年联合发起,5年累计支持额度超5000万,吸引近千位专家学者申报,支持超150个科研项目[1] 研究方向与课题分布 - 方向一数据安全与隐私保护聚焦密态计算、后量子安全、容器安全等,旨在为数据安全可信流通提供全链路保障[3] - 方向二软硬协同围绕同态加密性能优化、操作系统创新及形式化验证开放15项课题[4] - 方向三超算与智算聚焦高性能计算、大模型训推一体、推理优化等开放5项课题[4] - 方向四人工智能开放26项课题,包含推理加速技术、多智能体协作、强化学习、多模态大模型、医疗大模型等基础与应用技术[4] 产学研结合与战略布局 - 基金以产学研为特色连接产业实践与学术科研问题,支持全球高校学者开展前沿探索[3] - 数据要素和人工智能是蚂蚁集团两大科技战略,2024年研发投入达234.5亿元,AI应用覆盖医疗、金融、生活场景累计服务1.3亿用户,"AI健康管家"截至2024年6月服务超7000万用户[4] 学术生态建设 - 蚂蚁集团将与CCF共创学术交流活动,支持青年学者发展、218Club成长及CNCC论坛参与,打造系统化科研合作与人才交流平台[4]
蔚来自研神玑芯片落地:一次难而正确的长征
中国汽车报网· 2025-07-08 17:19
核心观点 - 蔚来通过自研5nm车规工艺高阶智驾芯片"神玑NX9031"与NT Cedar/S"雪松"智驾系统的深度耦合,实现了"芯片+操作系统+核心算法"全栈技术闭环,标志着中国智能汽车产业在核心技术领域取得关键突破 [2][9] - 公司选择了一条高投入、长周期的技术自研路径,十年累计研发投入超600亿元,拥有9900项全球专利,构建从芯片层到算法层的完整技术主权 [4][6] - 自研高端智能驾驶芯片面临特斯拉和英伟达的双重竞争压力,后者合计占据市场主导地位,但蔚来通过持续高强度投入(年均30亿元)突破了5nm车规芯片的设计与制造难题 [5][6] - 软硬协同的战略使公司获得技术自主权,神玑芯片与SkyOS操作系统、NWM世界模型的深度耦合提升了智能驾驶体验,形成差异化竞争力 [9][10] - 市场短期认知与长期价值创造存在错配,公司核心技术成果被低估,但前瞻性布局正逐步成为行业主流发展方向 [12][14] 技术突破 - 神玑NX9031芯片采用5nm制程工艺,满足三大设计目标:十年算法迭代的算力储备、最高等级SLD功能安全标准、极端环境下的图像处理效能 [6] - 芯片与雪松智驾系统实现"满血耦合",这是公司首次完成自研硬件与软件的深度整合,突破传统拼凑式集成方案的效率瓶颈 [2][9] - 技术自主权带来供应链安全与产品定义自由,摆脱对英伟达等国际供应商的依赖,可自主控制技术路线与交付节奏 [9] 行业竞争格局 - 特斯拉HW4.0已在中国上市,HW5.0算力将达十倍跃升,英伟达占据高阶智驾芯片51.4%市场份额,形成类似手机芯片领域苹果与高通的双寡头格局 [5] - 国内同行加速跟进:小米布局"大芯片"玄戒O1,小鹏7nm"图灵"芯片即将装车,验证蔚来技术路线的行业引领性 [14] - 行业普遍聚焦"冰箱彩电"配置堆砌与价格战,公司选择底层技术攻坚的战略差异明显 [4][7] 研发投入与挑战 - 芯片研发累计投入超百亿元,日均研发支出近2000万元,流片成本单次达数亿美元 [6] - 车规芯片需满足极端环境可靠性要求,设计复杂度远超移动芯片,且国内产业链基础薄弱 [6] - 长期高强度投入导致短期财务压力,在市场追求速成的环境下承受"投入是否值得"的质疑 [7][12] 战略价值 - 构建"技术主权"形成终极护城河,在智能电动车同质化竞争中奠定差异化基础 [10] - 自研体系涵盖芯片、SkyOS操作系统、线控底盘等核心技术,形成完整自主技术栈 [12][14] - 前瞻布局多次引领行业:瞭望塔激光雷达、全铝车身等创新已成为行业主流方案 [14] 市场认知 - 短期销量波动和财务表现掩盖了公司在核心技术、充换电网络、全球化布局等体系化能力的长期价值 [12] - 市场过度关注月度销量数据,忽视近万项专利和核心技术资产的价值重估潜力 [12][13] - 随着神玑芯片装车量提升和技术成果转化,公司技术体系价值有望获得市场认可 [13][14]
英伟达悄然收购多伦多AI初创公司CentML,强化GPU优化技术布局
环球网· 2025-06-28 10:45
收购事件概述 - 全球芯片巨头英伟达低调完成对加拿大AI初创公司CentML及其核心技术的收购 [1] - 至少三位联合创始人及15名工程师已加入英伟达 [1] - CentML于2025年7月17日起正式停止运营 [4] 被收购公司背景 - CentML成立于2022年 由多伦多大学副教授Gennady Pekhimenko联合创立 [3] - 核心团队包括首席技术官Sam Wang和首席运营官Akbar Nurlybayev [3] - 公司此前获得总计3090万美元风险投资 投资者包括谷歌母公司Alphabet旗下Gradient Ventures和英伟达等 [4] - 2023年10月完成2700万美元种子轮融资 [4] 核心技术优势 - 自主研发的张量编译器Hidet可将AI模型推理速度提升最高8倍 [3] - 在内部测试中 Hidet将Llama 2模型的运行速度提高了三倍 [3] - 开发了DeepView工具 用于监控AI模型训练过程并预测部署成本 [3] 行业影响 - 此次收购是英伟达2025年AI生态布局的重要一环 [4] - CentML技术将加速英伟达在异构计算领域的突破 [4] - 凸显AI行业对"软硬协同"的重视 未来芯片厂商竞争将更多围绕生态整合能力展开 [4] - Hidet编译器有望被整合至英伟达CUDA工具链中 [4]