存算一体技术
搜索文档
中国算力方案:如何用有限资源做出无限可能?|甲子引力
搜狐财经· 2025-12-12 15:15
文章核心观点 - 中国算力产业面临先进制程受限、高端GPU供应收紧等外部约束,正处于从“堆叠算力”到“高效协同”的关键“拐点”[2] - 产业通过找准应用场景、构建差异化技术路线、推动端云协同等策略,应对算力不足、互联受限、生态薄弱的“三重困境”[2] - 中国算力方案的独特优势在于场景驱动的创新模式,利用完整的产业链、庞大的市场和应用场景,以应用反哺技术迭代[2][24] 关键瓶颈:从制程到生态的多维挑战 - 软件生态是当前最关键的瓶颈,CUDA生态经过近20年积累,覆盖长尾场景,国产算力芯片公司需要时间追赶[5] - 制程问题制约芯片算力密度和卡间互联带宽,需要AI上游产业在国产化上取得突破[7] - 系统化工程能力至关重要,需通过有机调度和协同,形成从上层应用到底层硬件的调优闭环,而非依赖单点能力[7] - 找准特定应用场景是突破软件栈和制程限制的有效策略,并非所有场景都需要顶级算力[9] - 算力支撑是根本性卡点,算力不足导致需要通过大量国产卡堆叠来提升性能,进而对卡间互联和液冷技术提出更高要求[11] 超节点与集群:万卡级算力的系统工程 - 集群规模从千卡扩展到万卡或十万卡时面临非线性挑战,性能并非单卡性能的简单叠加,卡间互联的带宽、时延和丢包会极大影响性能,训练中丢包可能导致任务推倒重来[14] - 超节点形态的出现旨在优化集群内部通信,避免所有流量通过网卡转换导致的性能降低和时延增加[14] - 超节点不仅适用于训练场景,在推理场景中也有应用价值,其本质是降低单个Token的生成成本,不应成为昂贵的方式[14] - 海光信息选择GPGPU通用架构路线,旨在使DCU成为数据中心人工智能通用解决方案,以覆盖未来不断发展的新模型、算法和场景需求[14][16] - 海光DCU通过高兼容性软件栈降低客户使用门槛,支持从Github下载代码直接运行,无需复杂适配过程[16] 端云协同:算力分布的未来图景 - 存算一体技术已进入商业化量产阶段,后摩智能第二代M50芯片已获得头部AIPC、语音厂商及运营商的商业化采购[17] - 端侧大模型应用尚未出现类似GPT的“Killer APP”,这是产业链尚未爆发的主要原因[17] - AI计算需求向端侧转移,端侧需承担至少50%以上的计算任务,因为即使全球海底光缆总带宽也无法满足多模态AI时代所有用户的需求[17] - 端侧AI的核心优势在于隐私性,能够本地处理照片、视频、工作文件等敏感数据,从源头杜绝数据泄露风险[18] 互联与液冷:突破物理极限的关键 - 超节点更强调Scale-up(南向互联),旨在通过更短距离、更大带宽(未来或采用光互联)来提升节点内部GPU间的互联性能并降低延迟[20] - Scale-out(北向互联)更为常见,主要包括英伟达迈络思的IB网络和RoCE网络,其优势在于灵活性,便于灵活扩容缩容[20][21] - 液冷技术已成为高密度节点(如超节点)的必然选择,风冷无法解决高密度散热问题[20] - 液冷技术能带来显著的节能效果,大约节能30%,并且降噪表现优异[21] - 技术路线选择需结合业务场景考量,Scale-up性能更优但成本更高,需评估投入产出比[21] 工程化实践:从纸面到落地的鸿沟 - 产品需要经过多代迭代和真实客户环境的“磨砺”才能成熟,后摩智能第一代产品在部署中发现了许多纸面未预见的问题,编译器工具链经过数次迭代才得以完善[23] - 国产算力卡普遍需要适配调优,新华三与杭州萧山共建“芯模社区”生态平台,联合产业链伙伴进行研发、测试和验证[23] - 深度优化需针对具体应用场景,新华三要求每款芯片在其测试环境中跑满至少3个月,以发现各种边界条件下的问题[23] - 多场景测试至关重要,同一张卡在不同模型、批次大小和序列长度下的性能表现差异可能很大,需建立全面测试矩阵以找到最佳使用场合[23] 中国算力方案的独特优势 - 端侧芯片和生态创新:中国拥有完整的产业链优势,可利用应用反哺模型和芯片迭代,在AIPC、智能会议、陪伴机器人等场景有独特的应用创新[23] - 系统化工程能力:中国具备集中力量办大事的体制优势,能快速协调资源,且在大规模集群建设方面积累了独树一帜的调度与工程经验[24] - AI应用领域优势:中国在尖端科技民用普及方面擅长,庞大的市场和丰富的应用场景为算力技术提供了最佳试验田和迭代环境[24] - 细分场景市场优势:中国市场的多样性和规模优势,使得能在不同细分领域找到足够大的市场来支撑技术迭代,形成场景驱动的创新模式[24]
京东正招募端侧AI芯片人才 存算一体技术引关注
新浪财经· 2025-12-12 14:45
公司战略与业务布局 - 京东正在招募端侧存算一体AI芯片领域人才,招聘方向集中在存算一体AI芯片,产品或将用于机器人、智能家电、智能语音设备等硬件侧 [1] - 京东此次招募人才旨在打造为消费、家庭等领域提供AI算力支撑的产品 [11] - 公司今年以来在端侧AI领域频频布局,包括11月预售搭载JoyInside系统的AI毛绒玩具,3月成立具身智能业务部门侧重家用场景,7月将大模型品牌升级为JoyAI并推出附身智能品牌JoyInside,以及布局物流无人车/无人机并注册“Joyrobotaxi”商标 [12] 招聘与薪酬细节 - 京东为存算一体芯片设计相关工程师岗位开出的薪酬待遇为“25-45k·19薪”、“40-70k·20薪”、“70-100K*20薪”不等 [3] - 相关岗位职责涉及面向大模型等生成式AI应用的存算一体芯片架构探索、设计与优化,包括计算单元、存储hierarchy、数据流优化、近/存内计算范式等,以满足高性能、低功耗场景需求 [10] 行业技术趋势与背景 - 存算一体技术成为半导体产业热点,国际巨头如三星、SK海力士、台积电、英特尔、美光、IBM等纷纷推出最新研究成果 [10] - 端侧人工智能技术爆发式增长,智能设备对本地算力与能效需求日益提高,传统冯·诺依曼架构存在“内存墙”瓶颈,存算一体芯片将计算和存储融合,提升芯片效率,正成为赋能智能终端、物联网设备及边缘计算场景的核心动力 [10] - 中信证券研报指出,AI时代存算一体是趋势,CUBE有望在推理/端侧成为“打破AI存储墙”的弯道超车补充路径,是当前国内满足AI存力需求的优选方案,也是未来本土存算一体实现弯道超车的重点观察方向 [11] 同业竞争格局 - 除京东外,阿里、百度、字节、腾讯等互联网大厂早已涉足芯片领域 [13] - 阿里旗下平头哥推出了“含光”系列AI芯片、“倚天”系列通用服务器CPU等,其中自研CPU芯片倚天710、AI推理芯片含光800等已在阿里云上实现规模化部署 [13] - 百度自研的AI芯片昆仑芯已累计完成数万卡部署,今年已点亮昆仑芯三万卡集群,可同时支撑多个千亿参数大模型训练,未来计划将单一集群规模从三万卡扩展至百万卡级别 [13]
大模型战火烧到端侧:一场重构产业格局的算力革命
36氪· 2025-12-04 22:08
文章核心观点 - 人工智能的计算范式正从云端向终端设备(端侧)转移,端侧AI将成为未来产业竞争的新战场和AI价值实现的关键 [3] - 端侧AI的发展由模型压缩技术进步、端侧算力需求激增与供给跃迁、以及数据传输的物理限制等多重因素驱动,将重塑计算芯片的产业格局 [11][13][15] - 端侧计算架构将复制云端从CPU为主导向AI专用芯片(NPU)为主导的演变路径,独立的专用NPU(dNPU)预计将成为主流,推动智能终端向更高级的自主形态演进 [12][19][21] 计算范式历史性转变 - 计算技术由范式转换驱动:从1940年代的通用计算(CPU),到2006年英伟达CUDA开启的加速计算(GPU),再到2020年后生成式AI催生的“认知级计算” [4][5] - 云端算力主导权已完成从CPU到GPU的交接:2019年TOP500超算近90%算力完全依赖CPU,到2025年这一比例已急剧下降至不足15% [6] - 大模型催生“云端训练-端侧部署”协同生态:云端负责训练与全局决策,端侧负责感知、实时交互与本地推理 [5] 端侧AI成为新战场的驱动因素 - **市场需求与规模**:全球端侧AI市场规模预计在2029年增至1.2万亿元,复合年增长率达39.6%;中国市场规模预计2029年达3077亿元,复合年增长率39.9% [8] - **政策强力支持**:中国“十五五”规划等政策明确实施“人工智能+”行动,目标到2030年智能终端普及率超90%、产业规模突破10万亿元 [9] - **技术瓶颈倒逼**:完全依赖云端处理面临数据传输的物理上限,以4K流媒体带宽需求估算,全球海底光缆总带宽理论仅能支持约4000万用户同时使用,远不能满足ChatGPT等应用的用户体量,端侧推理成为架构上的必然选择 [13] - **产业生态成熟**:中国已形成完整产业链,上游有华为昇腾、地平线、瑞芯微、后摩智能等芯片厂商,中游有DeepSeek、阿里、讯飞等算法模型企业,下游有荣耀、联想、小米等终端厂商 [9] 端侧AI发展的核心动能 - **模型“瘦身”技术突破**:模型蒸馏、量化等技术大幅降低部署门槛,例如华为CBQ量化算法将模型压缩至原体积1/7且性能保留99%,阿里逆向蒸馏技术使20亿参数模型性能反超70亿参数模型8.8% [14] - **端侧算力需求激增**:多模态大模型(如处理视觉与文本的VLM)和智能体(Agent)应用推高算力需求,例如Qwen3 VL 80亿参数模型需要几十TOPS算力,智能体反复调用模型会导致推理算力指数级增长 [15] - **端侧算力供给跃迁**:AI芯片算力从前大模型时代的几TOPS跃升至百TOPS级别,例如后摩智能M50 NPU算力达160TOPS,瑞芯微RK182X NPU算力为20TOPS [15] 端侧计算芯片格局与演进趋势 - **当前格局以“SoC+NPU协同”为主**: - **SoC芯片**:集成轻量级NPU,主打性价比与通用性,适配1-100亿参数模型,应用于对AI性能要求较低的设备,如瑞芯微RK3588(6TOPS NPU)[16] - **专用NPU**:提供极致AI性能,分为集成式(iNPU)和独立式(dNPU),适配300亿至1000亿参数模型,例如华为Atlas 200I A2(20TOPS)、算能BM1684X(32TOPS)、后摩智能M50(160TOPS)[17][18] - **未来将形成以独立NPU(dNPU)为主导的新范式**: - 端侧将复制云端“X86+GPGPU”的异构计算模式,形成“ARM/RISC-V + dNPU”的主流架构 [19] - 根据算力需求分层:低算力场景(<10TOPS)用SoC集成iNPU;中算力场景(10-50TOPS)用独立dNPU;高算力场景(>50TOPS)必须用独立dNPU,目前国内仅后摩智能M50满足 [19][20] - 独立NPU具备适配灵活、组合成本最优、开发迭代快、性能极致等优势,类比高性能独立显卡(dGPU)在游戏市场的统治地位,dNPU预计将成为端侧AI的主导形态 [21][22][23] 端侧AI的形态演进与架构创新 - **形态分级**:从初级联网节点(算力<1TOPS),到交互入口(算力<5TOPS),再到推理节点(算力达百TOPS,实现毫秒级延迟、数据本地化),最终向自主智能体(算力500TOPS以上,跨场景自主规划)和终极形态演进 [25][26] - **架构创新突破算力功耗墙**:为满足高阶形态的指数级算力需求,需突破传统冯·诺依曼架构限制,涌现出光子计算、量子计算、可重构数据流、Chiplet、存算一体等新架构 [27] - **存算一体成为可行量产方案**:通过融合计算与存储单元,大幅提升能效比,是更适合端侧AI且能商业量产的技术之一,国内外公司如美国的D-Matrix、Encharge AI,中国的知存科技、后摩智能均已布局 [28] 行业巨头动态与市场信号 - 2025年5月,OpenAI以65亿美元收购由苹果前首席设计官创立的AI硬件公司io,计划2026年底推出无屏幕AI硬件 [3] - 2025年11月,马斯克预言未来5-6年内传统手机将消失,由作为“AI推理边缘节点”的设备取代 [3] - 2025年12月,字节跳动试水豆包AI手机 [3] - 联想AI PC渗透率已达其PC总出货量的30%以上,Meta AI眼镜发布两天售罄,预计2026年销量破千万台 [8] - OpenAI CEO Sam Altman指出,AI发展核心瓶颈已从算法转向算力、存储与能源构成的“三位一体”基础设施挑战 [28]
大模型战火烧到端侧:一场重构产业格局的算力革命
36氪· 2025-12-04 21:54
文章核心观点 - 全球AI产业竞争正从云端算力竞赛,向终端设备的端侧AI蔓延,一场决定未来格局的端侧竞速已拉开帷幕 [3][4] - 计算范式正经历从通用计算到AI计算的史诗级演进,端侧即将成为人工智能发展的新战场,并复制云端从CPU主导转向AI芯片主导的变革逻辑 [5][11][18] - 端侧AI的发展由模型压缩技术与端侧算力芯片的“共生进化”驱动,未来端侧算力将形成以独立NPU为主的新范式,并重构生活与工作的智能体验 [22][32][40] - 端侧AI的崛起是技术发展的必然,未来五年将推动终端设备经历深刻的大模型洗礼,开启“人人可用、万物智能”的时代 [48][49] 计算范式演进与算力格局变迁 - 计算技术发展由范式转换驱动:1945年冯・诺依曼“存储程序”理论奠定通用计算基础,2006年英伟达CUDA架构开启加速计算时代,其并行计算能力较CPU提升100倍以上 [6][7][8] - 2020年生成式AI突破催生“认知级计算”需求,大模型对并行处理和海量数据吞吐的极致需求加速了云端AI芯片发展,并催生“云端训练-端侧部署”协同生态 [9] - 云端算力已完成从CPU为主到GPU为核心的历史性转变:2019年TOP500超算近90%算力完全依赖CPU,到2025年这一数字已急剧下降到不足15%,六年时间完成了Intel和英伟达算力霸主地位的交接 [10] 端侧AI成为发展新战场 - 云端模型部署的高延迟和高成本难以适配端侧场景,模型蒸馏技术将千亿级模型压缩至百亿甚至十亿级,使其能部署在AI PC、AI手机等端边侧场景 [12] - 全球及中国端侧AI市场将高速增长:预计2029年全球端侧AI市场规模将增至1.2万亿元,复合年增长率达39.6%;中国端侧AI市场2029年将达3077亿元,复合年增长率达39.9% [12] - 政策支持与市场需求共振:中国“十五五”规划等政策提出实施“人工智能+”行动,锚定2030年智能终端普及率超90%、产业规模突破10万亿元的目标,为端侧AI规模化爆发注入动能 [13] - 中国已形成全球最完整的端侧AI产业链:上游有华为昇腾、地平线、瑞芯微、后摩智能等芯片厂商;中游有Deepseek、阿里、讯飞等算法模型企业;下游有荣耀、联想、小米等终端厂商 [13] 端侧AI发展的底层逻辑 - 云端大模型已出现“杀手级应用”(如ChatGPT周活8亿),而端侧大模型的Killer App尚在探索中,其发展受限于端侧芯片性能与模型压缩能力 [16] - 端侧计算架构将复制云端以AI算力芯片为主导的变革,因为AI化体验的用户诉求不可逆,且数据传输存在物理上限 [18][21] - 数据传输存在物理瓶颈:按较保守的25 Mbps/用户和2023年997 Tbps海底光缆总带宽计算,理论最大同时4K流用户约4000万,远不能支撑ChatGPT或微信的用户体量,完全由服务器端计算不现实 [21] 模型与算力的共生进化 - 模型“瘦身”技术加速落地:华为CBQ量化算法将模型压缩至原体积1/7,性能保留99%;阿里逆向蒸馏技术使2B模型性能反超7B模型8.8% [23] - 端侧算力需求激增:多模态大模型(如Qwen3 VL 8B需几十TOPS算力)及智能体的发展,推动算力需求大幅攀升甚至指数级增长 [24] - 端侧算力供给大幅跃迁:前大模型时代端侧芯片通常只有几TOPS算力,AI PC出现后芯片算力达几十TOPS;国产芯片如瑞芯微RK182X NPU算力20TOPS,后摩智能M50算力可达160TOPS [25] 当前端侧算力格局 - 端侧算力以“SOC+NPU协同发展”为主要格局 [26] - 端侧SOC芯片:以ARM CPU为核心,集成轻量级NPU,主打性价比与通用性,适配1-10亿参数的端侧小模型,应用于智能音箱、智能门锁等对AI性能要求较低的场景,例如瑞芯微RK3588(6TOPS NPU) [27] - 端侧NPU:分为集成式(iNPU)和独立式(dNPU),为追求极致AI性能,独立NPU成为主流,可适配30-1000亿参数的模型 [28][29][30] - 主要NPU产品示例:华为Atlas 200I A2(最高20TOPS Int8算力,功耗25瓦);算能BM1684X(单芯片32TOPS);瑞芯微RK1820/1828(最高20TOPS Int8算力);后摩智能M50(存算一体架构,单芯片算力160TOPS,功耗10W) [30][31] 未来端侧算力新范式 - 端侧将形成“ARM+NPU”镜像云端“X86+GPGPU”的大趋势,dNPU(或称GPNPU)将成为端侧AI计算主导力量 [32][33][36] - 端侧将根据算力需求形成分层市场:低算力场景(<10TOPS)以SOC集成iNPU为主;中算力场景(10-50TOPS)以独立dNPU为主;高算力场景(>50TOPS)则必须采用dNPU方案 [35] - 独立NPU(dNPU)相比集成方案具备四大优势:适配操作系统和硬件多样化、组合成本最优化、开发迭代灵活性、性能极致化 [37][38][39] - 独立NPU开发周期(适配端侧AI模型3-6个月迭代)远短于SOC研发周期(一般需18-24个月),能更敏捷地响应AI功能升级需求 [38] 端侧AI的场景革命与形态演进 - 端侧AI正从简单的连接功能,逐步走向与环境、用户的深度融合,其形态沿清晰路径进化 [40][42] - 初级形态(联网节点):算力不足1TOPS,仅可通过手机简单控制 [42] - 二级形态(交互入口):算力一般在5TOPS以内,重度依赖云端识别,反馈速度慢 [42] - 三级形态(推理节点):具备多模态感知与单场景决策能力,算力达百TOPS级,交互延迟压至毫秒级,数据处理完全本地化 [42] - 四级形态(自主智能体):能跨设备、跨场景自主规划并持续学习,算力500TOPS以上,超80%的数据在端侧处理 [43] - 端侧AI已迈入第三级形态,对计算芯片的算力、功耗与成本平衡提出极高要求 [44] 突破算力瓶颈的新型计算架构 - 为突破传统冯诺依曼架构在功耗下的算力限制(1W功耗下仅几TOPS),多种新型计算架构涌现,包括光子计算、量子计算、可重构数据流、Chiplet技术及存算一体技术 [44][45] - 存算一体技术通过融合计算与存储单元,大幅提升计算效率,是更适合端侧AI且能商业量产的新型架构方案之一 [46] - 国内外厂商积极布局存算一体:美国D-Matrix首款芯片Corsair已量产,公司估值达20亿美元;Encharge AI面向端侧的芯片算力高达200TOPS;国内知存科技深耕小算力场景,后摩智能主攻大算力端侧AI场景,其产品已导入联想AI PC、讯飞智能语音设备等 [46]
“2025湾芯展”今日落幕:AI驱动增长与周期调整交织 后摩尔时代半导体产业如何破局?
新浪财经· 2025-10-17 23:13
全球半导体市场展望 - 2025年全球半导体市场收入预计达到7815亿美元,较2024年的6833亿美元同比增长16.3% [3] - 增长主要受AI云服务相关硬件持续投入推动,数据中心服务器领域半导体市场规模预期较2024年增长864亿美元 [3] - 2024年至2029年全球封装市场年均复合增长率预计超过半导体行业整体增速,先进封装(如CoWoS、3D堆叠)成为主要增长动力,部分细分领域增速超过50% [4] 区域市场动态与贸易 - 2025年第二季度中国集成电路进口额同比增长10.5%,分立元器件进口额同比增长6.3% [4] - 2025年第二季度中国半导体出口整体同比大幅增长17.5%,其中集成电路出口额创历史新高 [4] - 半导体产业从全球化分工走向多极割据,成为大国博弈的核心主战场 [6] AI算力驱动与产业分化 - 人工智能应用爆发式增长推动半导体加速上行,预计全球半导体市场规模2032年达到1万亿美元 [7] - 2024年半导体产业呈现AI类高景气与非AI类弱复苏的分化特征,全球整体增速约19%,AI相关产品涨幅显著高于其他产品 [7] - 国内AI产业面临算力需求爆发拐点,大模型推理算力需求预计在2026年超越训练需求,占所有算力需求比例将超过70% [7] 技术演进与后摩尔时代创新 - 产业界积极探索后摩尔时代破局之道,途径包括发展1nm工艺的二维材料晶体管、2.5D/3D封装/Chiplet等先进封装方案、以及光量子芯片等超越传统CMOS的技术 [8] - 存算一体技术通过解决存储墙和功耗墙问题来提升AI算力芯片性能,未来近90%的数据处理将在端边完成,云边端协同的混合AI推理模式将成为主流 [8][9] - 后摩智能于2025年7月发布首款存算一体端边大模型AI芯片,算力160TOPS,典型功耗10W,预计年底量产 [9] 终端应用市场表现 - 2025年第二季度全球智能手机出货量为2.89亿台,同比下降0.01%,为6个季度以来首次同比下滑 [4] - 中国大陆智能手机市场出货放缓但消费需求具有韧性,vivo、华为新品发布提升出货表现,小米在非洲及中东欧市场出货同比大幅增长 [4] - 人形机器人市场处于早期阶段,2025年占全部工业机器人出货比例不足0.25%,预计2028年将达到0.83% [5] 电力供应挑战与架构演进 - AI芯片算力提升对电力供应提出挑战,单GPU功耗已超1000W,预计2027年达1800W,未来两年可达4000W,单机柜功率从传统10-20kW跃升至600kW甚至1MW级别 [9] - 行业正经历从48V架构向800V高压直流架构演进,以应对更高功耗挑战,800V DC母线在同等尺寸下功率容量较48V DC提升约16倍 [10]
道氏技术20250903
2025-09-03 22:46
纪要涉及的行业或公司 * 道氏技术 一家从陶瓷墨水材料转型至新能源和人工智能领域的上市公司 投资了长脑科技并布局AI加材料战略[1][3][12] * 长脑科技 专注于非侵入式脑机接口技术的公司 由哈佛大学脑科学中心博士韩必成于2015年创立 产品包括智能仿生手 仿生腿 脑电波监测仪器 神经信号解码仪器等[4] * 新培森 道氏技术AI布局中的关键组成部分 专注于算力芯片研发 致力于解决数学方程描述物理事物和复杂数据处理两类人工智能问题[2][5][6] 核心观点和论据 * 道氏技术以3000万美元参股长脑科技 旨在通过AI赋能脑机接口技术 提升产品研发效率和迭代速度 并探索在机器人皮肤 手臂等领域的合作 提升导电性能和传感精度[2][4] * 新培森通过AI算力发现新材料并提升现有材料性能 在人形机器人 特种机器人及传感器材料上提供计算支持 实现性能提升[2][5] * 新培森在应对维度灾难方面取得突破 通过存算一体技术 其APU芯片在分子动力学和密度泛函理论计算中 速度显著提升 功耗大幅降低[8] * 新培森的APU芯片通过模拟薛定谔方程 已在原子尺度上应用于军工 化工 锂电池 光伏 半导体 化妆品等材料科学领域 预测反应过程及结果[9][10] * 人工神经网络擅长处理无法用方程描述的复杂问题 如大语言模型 图像识别等 当前AI领域的大语言模型训练和推理主要依赖GPU技术[2][7] 其他重要内容 * 道氏技术自2018年转型进入新能源赛道 并结合人工智能机会进行发展 展现了敏捷的市场反应能力[3][12] * 新培森的研究成果已获国内外专家认可 包括中国工程院院士李国杰和孙凝晖 以及DeepMind首席科学家哈萨比斯[6] * 新培森未来计划开发EPU芯片 拓展至更大尺度的有限元分析 如气象模拟 风洞实验及车辆风阻模拟等 通过高速低功耗方式解决复杂物理过程模拟问题[8][11] * 道氏技术致力于成为AI加材料的平台型企业 通过AI与各种材料结合 实现跨领域合作[4]
恒烁股份: 2025年半年度报告
证券之星· 2025-08-23 00:24
财务表现 - 2025年上半年营业收入为1.7428亿元,同比减少1.79% [4] - 归属于上市公司股东的净利润为-7078.24万元,扣除非经常性损益的净利润为-7725.94万元 [4] - 综合毛利率为12.31%,较去年同期下滑 [33] - 计提存货跌价准备3329.94万元,存货账面价值为3.336亿元,占流动资产24.93% [4][34] - 应收账款账面价值为1.444亿元,占流动资产10.79% [34] 产品与技术进展 - NOR Flash产品采用50nm/55nm制程工艺,容量覆盖1Mb至512Mb,支持最高166MHz工作频率和664Mbits/s传输带宽 [5] - 通用32位MCU芯片基于Arm Cortex-M0+内核,采用55nm超低功耗嵌入式闪存技术,动态功耗低于100μA/MHz [6] - AI业务包括通用AI SoC芯片、6大类算法模型及AI模组板卡,已实现语音识别、人脸识别等应用落地 [7] - 大容量存储产品新增SPI NAND、SD NAND及DDR4模组,其中DDR4产品速率达3200Mbps [8][9] - 研发费用为4283.05万元,占营业收入比例24.58%,同比增加1.87个百分点 [27] 市场与业务动态 - NOR Flash产品通过AECQ-100车规认证,计划实现全容量系列车规认证 [5] - MCU产品线销售额同比增长59.98%,出货量增长102.99%,在电动工具、智能水表等领域取得突破 [13] - AI模组在3C夜灯市场占比超50%,灯控和风扇灯领域出货量超百万台套 [14] - 采用Fabless模式,主要晶圆代工厂为武汉新芯和中芯国际 [10][11] 研发与创新 - 新增3项发明专利和6项集成电路布图设计,累计拥有41项发明专利 [26] - 存算一体AI芯片技术基于Nor Flash和SRAM介质,支持低功耗推理和音频预处理 [23][24] - TinyML技术支持4bit/8bit/16bit混合精度模型部署,具备环境鲁棒性增强能力 [25] - 电机控制MCU实现小批量试产,攻克FOC算法、高速电机控制等关键技术 [22][28] 行业与竞争环境 - NOR Flash领域主要竞争对手包括华邦、旺宏、兆易创新等 [31] - MCU领域面临瑞萨、恩智浦、英飞凌等国际龙头企业竞争 [31] - 行业存在技术研发失败、核心技术泄密及产品质量风险 [29][30][32] - 供应商集中度较高,前五名供应商采购占比82.21% [32]
AI算力集群迈进“万卡”时代,超节点为什么火了?
第一财经· 2025-07-30 15:59
超节点技术布局与趋势 - 华为、中兴通讯、新华三、超聚变等国内厂商在WAIC上集中展示超节点方案 超节点技术成为行业热点 [1][3] - 超节点通过整合算力芯片资源构建低延迟高带宽算力实体 提升集群算力利用效率 支撑千亿至万亿参数模型训练和推理 [3] - 英伟达较早布局超节点技术 其GB300 NVLink72方案可整合72个GPU和36个CPU到单一平台 [4] 超节点技术原理与价值 - 解决万卡集群时代芯片协同问题 通过scale up纵向拓展实现单节点内多GPU协同 避免传统横向拓展导致的算力性能损失 [5] - 在单颗芯片制程受限背景下 超节点成为提升集群性能的重要路径 国内厂商可通过大规模集群部署弥补单点性能不足 [9] - 光互连技术成为主流方向 光互连光交换方案实现纳秒级切换 保证高带宽低延迟通信 曦智科技、壁仞科技等厂商已推出相关方案 [6] 国产芯片市场竞争策略 - 国产AI芯片在服务器中占比提升 外购芯片份额从去年63%预计降至今年49% 英伟达仍计划推出针对中国市场的全新GPU [10] - 部分厂商采取差异化竞争策略:墨芯人工智能聚焦推理场景优化 云天励飞专注边缘计算和云端推理 后摩智能定位端边场景存算一体技术 [10][11][12] - 避开与海外巨头直接竞争 通过垂直行业定制化方案(如稀疏计算、边缘设备)实现特定场景下的性能优势 [11][13] 技术发展驱动因素 - 大模型参数量迈向万亿级 需1万张以上GPU构建具备容错能力的训练集群 推动超节点技术需求 [4] - 摩尔定律面临失效风险 芯片制程提升难度增大 促使行业通过集群互连技术突破算力瓶颈 [9] - 国内光通信技术全球领先 与海外先进水平无代差 为光互连方案提供技术基础 [9]
对话后摩智能CEO吴强:未来90%的数据处理可能会在端边
观察者网· 2025-07-30 14:41
公司动态 - 后摩智能在WAIC 2025首次展示M50系列芯片,包括M50芯片、力谋®BX50计算盒子、力擎LQ50 Duo M2卡等核心产品 [1] - M50芯片专为大模型推理设计,面向AI PC和智能终端场景,实现160TOPS INT8、100TFLOPS bFP16物理算力,搭配48GB内存和1536GB/s带宽,典型功耗仅10W [4] - 公司已启动下一代DRAM-PIM技术研发,目标突破1TB/s片内带宽,能效提升三倍,推动百亿参数大模型在终端设备普及 [9] 产品技术 - M50芯片支持1.5B到70B参数的本地大模型运行,具有"高算力、低功耗、即插即用"特点 [4] - 力擎LQ50 Duo M2卡采用标准M2规格,为AI PC和陪伴机器人提供即插即用的端侧AI能力 [4] - 公司通过存算一体技术实现AI大模型"离线可用、数据留痕不外露"的特性 [4] - 2024年初公司推出优化版M30芯片,针对大模型进行调整 [7] 市场战略 - 公司定位端边AI计算市场,CEO认为未来90%数据处理将在端和边完成 [1] - 意向客户包括联想的AI PC、讯飞听见的智能语音设备、中国移动的5G+AI边缘计算设备 [8] - 重点布局消费终端、智能办公、智能工业三大领域,包括平板电脑、智能语音系统、运营商边缘计算等场景 [8] - 将机器人视为新兴垂直赛道,类比十年前的智能驾驶市场 [8] 行业趋势 - 大模型发展呈现从训练向推理迁移、从云端向边端迁移两大趋势 [1] - 端边AI具有实时响应、低成本、数据隐私和用户体验优势,预计将成为未来趋势 [7] - 5G+AI边缘计算被视为重要发展方向 [8] - 公司CEO提出"让大模型算力像电力一样随处可得"的愿景 [5]
死磕存算一体,后摩智能发布重磅新品
半导体芯闻· 2025-07-29 18:29
冯诺依曼架构瓶颈与存算一体技术 - 冯诺依曼架构芯片面临高算力、高带宽和低功耗难以同时实现的矛盾[1] - 存算一体技术通过集成计算和存储单元,从根本上解决数据传输慢、功耗高的问题[1] - 存算一体技术特别适合AI和大模型应用,因其需要算力密集和带宽密集的特点[6] 存算一体技术商业化挑战 - 学术界研究停留在理论层面,量产和软件适配是主要商业化障碍[5][6] - 后摩智能选择存算一体路线基于两个原因:解决功耗/存储墙问题,以及避开与英伟达直接竞争[6] - 公司深耕该技术四年多,2023年起重点研究与大模型的结合[6][7] 后摩漫界M50芯片技术特点 - 采用第二代SRAM-CIM双端口存算架构,支持权重加载与矩阵计算并行[8] - 集成第二代IPU架构"天璇",最高可提供160%加速效果[8] - 物理算力达160TOPS@INT8、100TFLOPS@bFP16,典型功耗仅10W[10] - 支持最大48GB内存和153.6GB/s带宽,能效比传统架构提升5-10倍[10] - 配备新一代编译器"后摩大道",支持自动算子优化和原生浮点运算[11][12] 产品矩阵与应用场景 - 力擎LQ50 M.2卡支持7B/8B模型推理超25tokens/s[14] - 力擎LQ50 Duo M.2卡集成双M50芯片,算力达320TOPS[14] - 力谋加速卡最高集成4颗M50芯片,算力达640TOPS[14] - BX50计算盒子支持32路视频分析与本地大模型运行[14] - 应用场景包括消费终端、智能办公、智能工业等离线本地处理需求[16] 公司战略与技术路线图 - 目标成为端边大模型AI芯片领跑者[18] - 已启动下一代DRAM-PIM技术研发,目标突破1TB/s片内带宽[18] - 新技术预计能使能效较现有水平再提升三倍[18] - 愿景是让大模型走出云端,进入终端设备赋能各行各业[18]