Workflow
启望S3
icon
搜索文档
专注推理,放弃训练!一家中国GPU公司要差异化突围
21世纪经济报道· 2026-02-02 17:56
全球AI算力市场趋势:推理成为新主战场 - 2025年全球大模型token消耗量增长了100倍,每一次消耗都对应一次AI推理,推理成本成为AI公司盈利的关键[1] - 根据德勤报告,到2026年,推理算力在整体AI计算中的占比将超过训练,达到66%,推理从技术配角转变为商业主力[1] - 大模型从“被训练出来”走向“被用起来”,推理需求被描述为“百花齐放”且“看不到天花板”[1][3] 曦望公司的战略定位与产品路径 - 公司选择All in推理、放弃训练,在行业普遍追求“训推一体”的背景下进行战略聚焦[1] - 公司于2025年初从商汤科技大芯片部门独立运营,一年内完成近30亿元战略融资,股东兼具产业龙头与国资背景[1] - 公司发布了新一代专注推理的GPU“启望S3”,其设计思路是做减法,放弃针对训练的冗余设计[5] 推理芯片的技术与设计逻辑 - 训推一体GPU为兼顾训练,采用昂贵的高级封装和HBM,但在推理场景下算力利用率仅5%到10%,导致高功耗和高成本[4] - 启望S3未采用HBM,而是选择成本更低、容量更大的LPDDR6内存,使得显存容量比上一代训推一体芯片提升四倍以上[5] - 芯片计算核心将算力向低精度倾斜,特别是FP4和FP8精度,通过加强FP4算力带来了数倍的性价比提升[6] - 结合架构、访存、软件栈等全方位优化,公司称S3能实现比上一代产品“十倍以上的性价比提升”[6] 行业竞争格局与国产芯片新趋势 - 行业正从集中式训练转向长期、大规模的推理场景,竞争核心转向效率、稳定性和长期成本[3] - 国产芯片创业趋势从“替代”转向“差异化”,单纯在“训推一体”通用赛道上追赶英伟达面临CUDA生态垄断、高研发投入等同质化竞争挑战[7] - 推理需求的爆发性增长(如智能体、多模态交互等)创造了新窗口,需求高度多样化且尚未收敛,没有公司能通吃所有场景[7] - 2025年底,英伟达以约200亿美元价格与AI芯片初创公司Groq达成非独家技术授权协议,以补强其在AI推理领域的技术[3] 生态构建与未来挑战 - 国产GPU生态面临巨大差距,Hugging Face上有200万个模型,而顶尖国产GPU能顺畅支持的只有几十到几百个,99%的中国AI应用仍建立在英伟达体系之上[8] - 国产芯片的突围必须是“芯片+生态+场景”的协同创新,公司正积极适配以DeepSeek为代表的国内大模型公司走出的不同技术路径(如MoE架构)[9] - 行业进入更为务实的“商业化验证”周期,最终取决于能否让更多企业用得起、用得好AI算力[10] - 公司管理层认为,AI芯片将占据未来AGI产业价值的70%甚至90%,相信未来7×24小时不停歇的推理需求将没有天花板[8]
未来智造局|“百万token一分钱” 推理GPU驱动大模型下半场发展
新华财经· 2026-02-02 16:51
行业趋势:AI发展进入“推理驱动”新阶段 - AI行业正由“训练驱动”迈向“推理驱动”的下半场,推理算力成为决定AI商业化成败的核心要素 [1] - 2026年被业内视为人工智能推理应用爆发元年,德勤预测当年推理算力占AI计算量的比重将达66%,首次超过训练算力 [2] - 随着大模型逐步走向落地,在AI发展从“训练驱动”迈向“推理驱动”的关键阶段,夯实推理算力底座对推动AI服务实体经济具有重要意义 [2] 市场需求与痛点 - 推理成本占据人工智能应用的比例已经高达70%,直接决定了一家人工智能公司能否盈利 [3] - 2025年全球大模型token消耗量增长了近100倍,算力需求爆发式增长与高成本之间的矛盾突出 [4] - 目前多数推理场景沿用训推一体芯片,存在成本高昂、供应不稳定、运维投入大等问题,无法匹配行业爆发式需求 [3] - 当前市场上推理的百万token价格约1到10元,若成本下降一半,应用将大规模爆发;当价格降至0.1元以下时,将引发推理市场全面爆发 [8] 公司战略与产品发布 - 国产AI芯片企业曦望(Sunrise)近日发布了新一代专用推理GPU芯片启望S3,提出“百万词元(token)一分钱”的目标 [1] - 公司从2018年开始研发第一代芯片启望S1,2020年实现量产并落地数万片规模;2023年推出第二代芯片启望S2;近日发布第三代芯片启望S3 [3] - 曦望是国内算力领域首家聚焦于推理GPU的芯片企业 [3] - 公司提出围绕推理场景构建算力体系、共建AI推理平台,探索面向人工智能应用的新型算力服务模式 [1] 产品技术优势与成本目标 - 启望S3从底层架构开始为推理场景重新设计,实现性能、能效与成本的系统性优化,可以满足多模态、智能体等复杂推理需求 [5] - 该芯片通过芯片架构、存储体系和系统协同的全方位优化,实现了十倍以上的推理性价比提升 [5] - 公司目标是将推理成本再降一个数量级,推动“百万token一分钱”成为行业新基准 [5] - 据测算,目前曦望已将每百万token成本降至约0.57元,优于市场平均水平 [5] 生态合作与行业影响 - 曦望提出共建AI推理平台为核心的算力服务新模式,通过与商汤科技、范式智能等合作伙伴协同,提供稳定、可预期的算力服务 [8] - 公司与浙江大学共建“智能计算联合研发中心”,聚焦半导体虚拟制造以及AI在科学计算等领域的应用 [8] - 曦望与杭钢数字、浙江算力科技牵手,将推理基础设施铺向浙江、辐射全国,并与三一重工、游族网络等十几家企业签约,将推理算力嵌入制造、能源、机器人等具体场景 [8] - 国产推理芯片的性价比优势,将推动中国AI应用实现类似移动互联网时代的爆发式增长 [9] - 在国际上,每当百万token的成本降低一倍,市场上出现的应用程序数量就会增加6到8倍 [9] 行业挑战与解决方案 - 目前整个算力服务面临三大挑战:一是资源利用率低,传统架构下GPU闲置率常超过40%;二是适配效率不足;三是运维复杂,硬件问题中75%与GPU相关 [6] - 基于此,曦望联合合作伙伴共同推出推理系统级解决方案,通过自研GPU与软硬件全栈优化,破解行业痛点,提升算力调度效率 [6] - 推理时代的算力竞争不是单点技术比拼,需要构建协同创新、开放融合的产业生态 [2] 未来展望 - 未来十年,中国AI时代的底层根基将是规模化、高性价比的推理基础设施 [1] - 以推理算力为核心、以AI推理平台为载体的新型算力模式,正在成为人工智能时代的重要基础设施形态 [9] - 专用推理芯片的技术突破,将加速芯片与模型的协同创新,推动人工智能商业化落地提速 [7]
国产AI芯片,疯狂秀肌肉
36氪· 2026-01-30 08:25
中国AI芯片行业概览 - 中国AI芯片市场规模预计在2028年达到万亿级别,约占全球市场的30% [1] - 面对旺盛的市场需求和地缘政治摩擦,提供自主可控的高质量AI算力已成为中国抢占AI发展先机、赋能行业升级的重要基础 [1] - 近期多家国产厂商接连宣布AI芯片消息,行业正以惊人速度高速发展 [1] - 自美国实施AI芯片限制后,中国自主AI芯片产业加速发展,主要分为GPU与非GPU两大技术路线 [20] - 国产AI芯片正通过“兼容追赶”与“创新超越”双轨并行的策略快速发展 [22] 主要厂商动态:阿里巴巴 - 阿里巴巴旗下平头哥于1月29日上线名为“真武810E”的高端AI芯片,这是由通义实验室、阿里云和平头哥组成的“通云哥”首次亮相 [2] - “真武”PPU采用全栈自研架构,配备96G HBM2e内存及700 GB/s片间互联带宽,适用于AI训练、推理及自动驾驶 [2] - 该芯片已大规模用于千问大模型的训练与推理,并通过阿里云AI软件栈深度优化,为客户提供一体化服务 [2] - “真武”PPU已在阿里云实现多个万卡集群部署,服务了国家电网、中科院、小鹏汽车、新浪微博等400多家客户 [2] - 据业内分析,“真武”PPU整体性能超越英伟达A800及主流国产GPU,与英伟达H20相当,市场反馈显示其性能稳定、性价比高,处于供不应求状态 [4] - 阿里巴巴自2009年布局云服务,2018年成立平头哥,2019年启动大模型研究,现已形成覆盖芯片、云平台与大模型的“通云哥”全栈AI完整布局 [5] - 据外媒报道,升级版“真武”PPU的性能强于英伟达A100 [6] 主要厂商动态:奕行智能 - 奕行智能于1月29日表示,其研发的国内业界首款RISC-V AI算力芯片Epoch正在大规模量产出货中 [7] - 该芯片在业界率先采用RISC-V + RVV指令集架构,结合自研的VISA技术,兼顾了AI计算的通用性与专用性 [7] - 公司在技术上有关键创新:采用RISC-V + RVV指令集;通过VISA虚拟指令架构在软硬件间建立中间抽象层;采用Tile级动态调度架构提升算力利用率 [10] - 在运行ResNet-50、BERT、Llama 2等模型时,Epoch性能较竞品高出25%至52% [8] - 公司计划持续完善软件栈,兼容主流AI框架,并通过与开源社区合作推动RISC-V DSA生态建设 [10] 主要厂商动态:天数智芯 - 天数智芯于1月26日发布四代架构路线图,计划在2025年推出的“天枢”架构将超越英伟达Hopper;2026年的“天璇”架构对标Blackwell,同年的“天玑”架构将实现超越;2027年的“天权”架构目标超越Rubin [12] - 天枢架构支持从高精度科学计算到AI精度计算,在执行注意力机制时算力有效利用率超过90% [14] - 天枢架构通过TPC广播机制、多指令并行处理系统、动态线程组调度系统三项核心技术创新,使其效率较行业平均水平提升60% [14] - 天枢架构在DeepSeek V3场景中的平均性能比英伟达Hopper架构高出约20% [14] 主要厂商动态:曦望(Sunrise) - 曦望公司前身为商汤大芯片部门,于2024年底分拆独立运营,并于1月28日公布产品路线图 [16] - 路线图显示,国内首款采用LPDDR6的GPGPU芯片启望S3将于2024年上市,高性能推理GPU芯片启望S4将于2027年上市,安全可控推理GPU芯片启望S5将于2028年上市 [16] - 启望S3单芯片推理性能相比上一代产品提升5倍,单位token推理成本下降约90% [18] - 曦望围绕S3推出寰望SC3超节点解决方案,面向千亿/万亿参数模型的推理部署,在大专家并行部署下,吞吐率可提升20至25倍 [18] - 在同等算力下,寰望SC3解决方案可将系统整体交付成本从“亿元级”降至“千万元级” [18] - 公司前两代产品中,S2在主流大模型推理性能上达到国际巨头80%水平,软件栈CUDA兼容性达95% [16] 主要厂商动态:燧原科技 - 燧原科技于1月22日科创板IPO申请获上交所受理,公司成立于2018年3月,已自主研发并迭代了四代架构、共五款云端AI芯片 [19] - 根据产品规划,公司计划在2025年发布第四代AI推理卡及ESL32/64超节点集群,2027年推出第五代云端AI芯片及相关训推产品,并于2029年发布第六代系列芯片 [19] 国产GPU厂商盘点 - 国内GPU企业依据团队背景形成不同派系:NVIDIA系(如摩尔线程、天数智芯)、AMD系(如壁仞、沐曦)、国家队(如景嘉微、海光、龙芯、兆芯)、拆分系(如商汤拆分出的曦望) [20] - 多家GPU厂商已推出产品并应用于物理仿真、AI计算、深度学习、自动驾驶、智慧城市等多个领域 [21] 国产非GPU AI芯片厂商盘点 - 非GPU路径呈现多元化发展,不同企业选择不同架构以实现差异化竞争,包括华为昇腾、昆仑芯、燧原科技、中昊芯英、清微智能等 [22] - 非GPU路线通过架构创新,在能效、成本或特定场景上建立优势,开辟新赛道 [22]
曦望董事长徐冰:把大模型推理这件事,做到极致
搜狐财经· 2026-01-29 19:35
行业趋势与战略背景 - AI产业正从“训练驱动”转向“推理驱动”,推理更强调长期交付能力、单位成本和系统稳定性 [3] - 到2026年,推理算力占比将达到66%,超过训练 [4] - 智能体、3D生成、视频生成、物理世界AI等多模态复杂场景加速落地,推理需求爆发,竞争焦点转向在真实业务中跑得稳、跑得久、跑得划算 [4] - 推理成本在AI应用中的占比已高达70%,是决定AI公司盈利和商业化的关键,行业未来需将推理成本从“元级”降至“分厘级” [4] - 掌握高效、可控、可持续的推理基础设施,将主导AI的落地速度,并决定国家和企业在AI下半场的竞争力 [3][5] 公司定位与历史沿革 - 曦望是一家更懂AI的GPU芯片公司,也是国内第一家all-in推理的GPU芯片公司 [4] - 公司使命是将大模型推理做到极致 [4] - 公司前身是商汤科技的大芯片部门,成立于2020年,完整经历了从人脸识别、自动驾驶到大模型、多模态、物理AI的整个AI发展周期 [5] - 公司从第一天开始就基于真实业务场景设计芯片,被客户需求打磨 [5] - 2025年全球大模型token消耗量增长了100倍 [5] - 公司团队已超过300人,聚拢了来自英伟达、AMD、昆仑芯、商汤等公司的芯片研发精英,核心技术骨干平均有15年行业经验 [5] 产品技术与研发进展 - 公司正式亮相新一代推理GPU芯片启望S3,并披露围绕推理场景构建的算力产品体系及共建推理云生态计划 [3] - 公司并非简单做又一个GPU,而是从底层架构就为推理场景重新设计,彻底重写 [6] - 公司专为大模型推理场景做架构设计,目标是实现极致的成本效益,设计决策的根本出发点是真实业务场景中每个token的成本、能耗和SLA稳定性 [7] - 公司计划将中国的推理成本拉到“百万token一分钱”的新级别,并将其变成行业新基准 [7] - 过去8年,公司累计投入了20亿研发资金,成功量产了S1和S2芯片,S3已发布,并规划了S4和S5的路径图 [7] - S1和S2证明了公司具备芯片设计、量产和被头部客户应用的能力 [7] - 公司致力于让推理成本下降90%,并提供稳定服务,以重写中国AI产业的损益表,助力全行业盈利增收 [7] 商业模式与生态布局 - 公司不希望只做一家卖芯片的公司,而是围绕推理场景,构建“芯片+系统+生态”的整体布局 [3][8] - 商业模式包括:为产业提供推理GPU卡、一体化服务器、整机、集群方案;与商汤、范式等AI巨头、算力厂商和芯片厂商深度合作,成为现有算力系统的推理分流及成本优化层 [8] - 公司目标是让算力更便宜、部署更简单、生态更开放 [9] - 公司致力于成为推理时代让算力便宜稳定且可用的核心底座,连接底层芯片架构、国家产业政策、云厂商、AI公司及千行百业 [9] 财务与运营里程碑 - 过去一年,公司完成近30亿元的战略融资 [6] - 2025年,公司实现了破万片的芯片交付,收入大幅增长,并拿下了多个头部客户的订单 [6]
从拼模型到算成本,曦望用S3 GPU给出最佳答案
半导体芯闻· 2026-01-29 18:10
AI产业重心从训练转向推理 - AI产业重心正从模型训练转向推理,推理请求正成为持续消耗算力的主要负载[1] - 根据德勤报告,到2026年推理算力占比将达到66%,超过训练算力[2] - 大模型产业已迈入下半场,2025年推理Token消耗量实现百倍增长,推理算力正式超越训练算力,成为算力产业发展的核心驱动力[3] 曦望科技的战略定位与行业洞察 - 公司是国内第一家All in推理的GPU芯片公司,使命是把大模型推理做到极致[2] - 行业正发生三大根本性改变:需求端结构性转变(推理成为主力)、应用场景质变(高频实时交互)、成本结构倒逼(推理成本占AI应用成本高达70%)[2] - 公司选择反向创新道路,将单位Token的成本、能耗及SLA服务稳定性作为芯片设计的核心出发点,目标是实现推理成本90%的降幅[2] - 推理GPU的竞争关键在于能否将硬件能力稳定转化为可交付、可计价的推理算力[7] 启望S3芯片的核心技术创新 - 芯片支持FP16、FP8、FP6、FP4等全系列低精度算力,单芯片推理性能较行业同类产品提升五倍[6] - 芯片是国内首款搭载LPDDR6的GPGPU推理专用芯片,采用大容量DDR替代HBM[4][6] - 芯片采用先进工艺节点并搭载最新高速接口IP[6] - 公司较早提出以大容量DDR替代HBM、以高性价比推理专用芯片替代训推一体芯片的战略[4] 寰望SC3超节点解决方案 - 方案对标千亿、万亿参数多模态MoE模型的实际部署需求,支持单域256卡一级互联[6] - 方案可高效适配PD分离架构与大EP规模化部署,提升系统利用率与运行稳定性,匹配长上下文、高并发等复杂场景[6] - 方案采用全液冷设计,可实现极致PUE,支持模块化交付与快速部署[6] - 在同等推理算力水平下,该方案可将整体系统交付成本从行业普遍的亿元级降至千万元级,实现成本一个数量级的下降[6] 软件与生态兼容性 - 公司打造全栈自研软件平台,全面对齐并兼容CUDA生态,支持用户代码无缝迁移[7] - 通过对CUDA底层驱动、Runtime、编译器、工具链的全面兼容,结合极致优化的算子库与通信库,提供GPU应用的快速迁移服务[7] - 启望S3已完成对ModelScope平台90%以上大模型的适配,涵盖商汤日日新、DeepSeek、通义千问、GLM等主流模型,累计适配国内外百余种大模型[7] AI原生智算平台与商业模式 - 公司推出新一代AI原生智算平台,核心优势为软硬件深度协同、资源极致弹性、开箱即用及稳定可靠的运维保障[11] - 平台采用先进的量化压缩技术,在几乎不损失精度的前提下将推理性能提升250%[12] - 平台通过GPU池化技术、动态扩缩容技术、智能负载预测技术实现算力高效利用[12][13] - 公司打造MaaS平台,支持模型一键调用和定制化优化,解决模型适配难题[13] - 平台实现全链路智能化管理,千卡集群可用性达99.95%,可连续运行60天无计划外中断,故障处理实现“1分钟发现、3分钟定位、5分钟恢复”[13] - 公司构建绿色算力优势,涵盖高能效比芯片设计、锁定长期廉价核电资源、精细化运营三个维度[14] - 商业模式是芯片硬实力加云基建软实力的Token as a Service模式,可提供公共、定制化、混合Token服务[14] 产业合作与生态建设 - 商汤科技董事长徐立指出,推理成本过去两年下降280倍,是推动AI产业爆发的关键转折点,芯片与模型的深度协同是降本核心[15] - 徐立认为曦望通过架构优化和推理任务专注,已实现视频实时生成,性价比优势持续凸显[15] - 第四范式创始人戴文渊透露,在中交蓝翼大模型适配项目中,曦望算力成本低至每百万Token 0.57元[15] - 公司与商汤科技、第四范式深度合作,共同向“百万Token一分钱”的算力成本目标迈进[16] - 公司与杭钢数字科技、浙江算力科技等本土算力平台合作,完善全国算力网络布局[16] - 公司与三一、协鑫、游族等十余家跨领域生态伙伴签约,推动推理算力嵌入智能制造、能源服务、C端消费、机器人等多元产业场景[16] - 公司与浙江大学签约成立“浙江大学曦望智能计算联合研发中心”,聚焦光互联GPU超节点架构、半导体虚拟制造等领域开展联合攻关[17] 未来展望与产业影响 - 在推理时代,算力竞争核心已从“拼峰值”转向“算单位成本”[18] - 公司正通过芯片架构重构、系统级优化和生态协同,将“百万Token一分钱”从愿景变为现实[18] - 随着S3芯片在2026年底量产,S4、S5陆续推进,中国AI产业的成本曲线正在被重写[18] - 当推理算力变得便宜、稳定、到处可用,AI才能真正成为普惠的基础设施,推动千行百业的智能化转型[18]
曦望发布启望S3推理成本较上一代降约90%,押注「极致性价比」GPU与算力新范式
IPO早知道· 2026-01-29 08:15
行业背景与公司战略定位 - AI产业正从“训练驱动”转向“推理驱动”,推理阶段更强调长期交付能力、单位成本和系统稳定性 [2] - 公司(曦望)的战略是围绕推理场景,构建“芯片+系统+生态”的整体布局,而非仅销售芯片 [2] - 公司希望通过推理算力体系的系统性创新,助力AI应用实现规模化落地与可持续增长 [3] 新一代推理芯片“启望S3”的核心性能 - 启望S3是一款面向大模型推理深度定制的GPGPU芯片,定位为“All-in 推理” [4][5] - 相比上一代产品,S3在典型推理场景下的整体性价比提升超过10倍 [5] - S3支持从FP16到FP4的精度自由切换,以提升低精度推理效率 [5] - S3在国内GPGPU产品中率先采用LPDDR6显存方案,显存容量较上一代提升4倍,缓解大模型推理的显存瓶颈 [5] - 在DeepSeek V3/R1满血版等主流大模型推理场景中,S3的单位Token推理成本较上一代降低约90%,实现“百万Token一分钱” [5] 围绕S3构建的算力产品体系 - 公司已构建与CUDA兼容的基础软件体系,支持推理应用低成本迁移,相关能力已覆盖ModelScope平台90%以上的主流大模型形态 [6] - 公司发布了面向大模型推理的寰望SC3-256超节点方案,可适配千亿、万亿级参数的多模态MoE推理场景 [6] - 寰望SC3采用全液冷设计,在同等算力规模下,整体交付成本控制在千万元级别,较行业内同类亿元级方案降低一个数量级 [6] - 公司推出了覆盖PCIe、OAM模组、一体机及AI计算集群在内的S3产品矩阵,覆盖从单机推理到大规模集群部署的多样化需求 [6] 推理云生态与交付模式创新 - 公司推出共建推理云计划,旨在将推理算力从“设备能力”转化为可标准化、可规模化的服务能力 [7][8] - 共建推理云以启望S3为底座,通过GPU池化与弹性调度整合算力资源,以MaaS(Model as a Service)为核心入口提供开箱即用的服务 [9] - 该推理云在千卡级集群场景下可用性达到99.95%,横向扩展效率超过95% [9] - 公司联合商汤科技、第四范式等生态伙伴发起“百万Token一分钱”推理成本计划,标志着大模型推理正从“技术可行”走向“经济可行” [9] 市场进展与产业合作 - 2025年,公司专注于推理GPU的芯片交付量已突破万片 [2][3] - 公司与浙江大学签署战略合作协议,联合成立“智能计算联合研发中心”,围绕光互连GPU超节点架构、计算光刻及AI气象预测等前沿方向展开研究 [10] - 公司与中交信科集团、杭钢数字科技、浙江算力科技、三一集团、协鑫科技等企业达成战略合作,推动推理算力在交通、制造、医疗等行业的落地应用 [10]
曦望发布推理GPU芯片启望S3 推进推理云生态共建
证券日报网· 2026-01-28 20:53
公司近期动态与产品发布 - 专注于推理GPU的曦望公司在杭州举办首届GPU峰会,并发布新一代推理GPU芯片“启望S3”,同时披露其算力产品体系及共建推理云生态计划[1] - 这是公司在近一年累计完成约30亿元战略融资后的首次集中公开亮相[1] - 2025年,曦望芯片交付量已突破万片[4] 公司战略定位与行业判断 - 公司坚持“All-in推理”的定位,与强调峰值算力和通用能力的训推一体GPU路线不同[1] - 公司认为AI行业正在进入以应用落地为核心的下半场,推理逐步超越训练,成为主要算力消耗场景[1] - 随着大模型进入规模化应用阶段,AI产业正从“训练驱动”转向“推理驱动”[3] - 相比训练阶段的一次性高投入,推理更强调长期交付能力、单位成本和系统稳定性[1][3] - 公司不希望只做一家卖芯片的公司,而是希望围绕推理场景,构建“芯片+系统+生态”的整体布局,让推理算力成为可规模化、可持续的基础设施[4] - 公司认为,谁能持续降低推理成本,谁就掌握了AI产业的成本曲线[4] 新一代芯片“启望S3”的核心特性 - 启望S3是一款面向大模型推理深度定制的GPU芯片,围绕真实推理负载进行了系统级设计[1] - 相比上一代产品,启望S3在典型推理场景下的整体性价比提升超过10倍[1] - 芯片支持从FP16到FP4的精度自由切换,在保证模型效果的前提下显著提升低精度推理效率[2] - 芯片率先在国内GPU产品中采用LPDDR6显存方案,显存容量较上一代提升4倍,缓解了大模型推理中常见的显存瓶颈问题[2] - 在DeepSeekV3/R1满血版等主流大模型推理场景中,启望S3的单位Token推理成本较上一代降低约90%[2] - 这一成本降低使得“百万Token一分钱”从概念走向可规模化部署[2] 围绕S3构建的算力产品体系 - 公司已构建与CUDA兼容的基础软件体系,支持推理应用低成本迁移与持续优化,相关能力已覆盖ModelScope平台90%以上主流大模型形态[2] - 公司同步发布了面向大模型推理的寰望SC3-256超节点方案,可高效支撑PD分离架构与大规模专家并行部署,适配千亿、万亿级参数的多模态MoE推理场景[2] - 公司推出覆盖PCIe、OAM模组、一体机及AI计算集群在内的S3产品矩阵,覆盖从单机推理到大规模集群部署的多样化需求[2] 推理云生态与算力交付模式 - 公司将生态共建推理云视为其推理算力体系中的关键一环[3] - 依托自研推理GPU,公司实现从底层芯片到上层平台的全栈优化,将硬件能力以平台化方式稳定释放,降低模型适配和系统部署复杂度[3] - 公司认为新一代AI算力平台应具备软硬件深度协同、资源利用高度弹性、技术门槛低且运行稳定可靠等特征[3] - 公司通过云化方式对算力交付模式进行重构,使推理算力从“设备能力”转化为可标准化、可规模化的服务能力[3] - 共建推理云以启望S3为底座,通过GPU池化与弹性调度,将分散的算力资源整合为统一的推理算力池[3] - 推理云以MaaS为核心入口,向企业提供开箱即用的大模型推理服务,企业无需关注底层硬件配置和集群运维,即可按需调用模型能力并根据业务负载灵活扩展算力规模[3]
未知机构:每日复盘128标普五连阳美元创四年新低黄金新高原油拉升A股震荡上-20260128
未知机构· 2026-01-28 10:45
涉及的行业与公司 * **行业**:全球金融市场(股市、债市、外汇、商品)、人工智能(AI)应用与算力、光纤光缆、大飞机制造、半导体、云计算、生物疫苗、贵金属、商业航天、脑科学与脑机接口、量子计算[1][2][3][4][5] * **公司**: * **海外**:Meta、康宁、美光、微软、特斯拉、联合健康、SpaceX、谷歌[1][5][6] * **A股/港股**:MINIMAX、智谱、值得买、宏景科技、润泽科技、长飞光纤、亨通光电、中天科技、航发动力、中航西飞、中航沈飞、中微半导、北方华创、中微公司、拓荆科技、优刻得、青云科技、首都在线[5][6] 核心观点与论据 * **宏观与市场动态**: * 海外市场在科技巨头财报前情绪乐观,标普500指数连续五天上涨并创下收盘最高纪录[1] * 美元指数大幅下跌超过1%,创下四年新低[1] * 国内12月规模以上工业企业利润同比增长5.3%,较11月的下降13.1%显著好转[1] * A股市场成交额从上一交易日的3.28万亿元人民币萎缩至2.92万亿元人民币[2] * **行业趋势与热点**: * **AI与算力**:AI应用端新品频出(如Deepseek-OCR2、Kimi k2.5),春节期间各大模型将陆续推出;算力硬件产业链走强;新一代推理GPU芯片可将单位Token推理成本降低90%[2][5] * **光纤光缆**:Meta计划向康宁公司支付高达60亿美元用于购买光纤电缆,刺激康宁股价暴涨15%,可能成为市场热点[1][6] * **半导体**:中微半导对MCU、Norflash等产品调价,涨价幅度为15%至50%[6] * **云计算**:谷歌宣布将于2026年5月1日调整数据传输价格,其中北美地区价格翻倍[6] * **大飞机**:市场消息称中国商飞今年将适度提高C919窄体客机的产量和交付量[6] 其他重要内容 * **商品市场表现**:现货黄金价格盘中上涨超过3%;受中东局势影响,原油价格尾盘一度上涨超过3%;比特币价格重新站上8.9万美元[1] * **债券市场**:10年期美国国债收益率上行2.6个基点至4.247%[1] * **港股资金流向**:南向资金净卖出超过6亿港元[4] * **前沿科技动态**:欧盟正式启动成员国政府卫星通信计划;SpaceX星舰V3版计划在六周后发射;超导量子计算机“本源悟空”全球访问量突破4000万次;北京将举办脑科学与脑机接口产业创新研讨会[5] * **板块表现**:A股贵金属板块大涨,生物疫苗题材回调[2][3]
至少有九家中国AI芯片公司出货量超万卡
36氪· 2026-01-28 09:46
文章核心观点 - 在严格的芯片出口管制倒逼下,国产数据中心AI芯片自主化进程加速,一批公司出货量或订单量已达到万卡级别,市场份额迅速攀升至35%,行业竞争进入“规模化交付验证”新阶段 [1][2] - 国产AI芯片在推理场景寻求突破,部分产品性能已接近或超过英伟达特供版H20,并通过优化致力于大幅降低推理成本,但整体在软件生态适配、先进制程与内存供应方面仍面临挑战 [12][14][11] - 行业未来可能参照光伏产业发展路径,通过激烈竞争跑出具备国际竞争力的企业,但AI芯片的竞争由软件、硬件和生态共同决定,其淘汰机制与光伏产业存在本质差异 [15][16] 国产AI芯片市场规模与份额 - 2025年上半年中国加速服务器(AI芯片)市场规模达160亿美元,出货量超过190万张,其中国产AI芯片市场份额约占35%,英伟达占62%,国产芯片需求增长速度远超英伟达 [2] - 国产AI芯片单价约在3万至20万元人民币每卡不等,出货量或订单量达到万卡规模,表明其性能、稳定性和总拥有成本已获得一定市场认可 [1] - 随着国产AI芯片代工产能提升,预计2026年国产AI推理芯片出货量将迎来一轮爆发式增长 [2] 主要参与者及出货情况 - 华为昇腾与百度昆仑芯是出货规模最大的国产AI芯片,性能突出并已用于部分模型训练场景,IDC数据显示华为昇腾市场份额位居国内第一,百度昆仑芯位居国内第三 [5] - 百度已于2025年2月点亮昆仑芯P800万卡集群,并计划未来点亮三万卡集群,客户包括金融、能源、制造等领域大型企业 [5] - 寒武纪是国内出货量最大的国产AI芯片之一,主要客户包括大型互联网公司、电信运营商和金融机构 [5] - 多家AI芯片创业公司累积出货量已超过万卡:沐曦超过2.5万卡 [8],天数智芯已交付5.2万枚芯片 [8],燧原科技AI加速卡及模组合计销量达9.72万张 [9] - 包括曦望、清微智能在内的非上市公司出货量或订单量也已超过万卡:曦望2025年AI芯片交付破万卡 [10],清微智能截至2026年1月订单量累计超过至少2万卡 [10] 技术路径与产品策略 - 部分国产AI芯片创业公司为追求可用、可控及出货规模,并未采用7nm及以下先进制程和HBM内存,而是采用更成熟且本土产业链能更快量产的12nm工艺和LPDDR内存,价格可低至3万元/卡 [11] - 行业预计2026年-2027年中国市场还会有多款国产AI推理芯片上市,并迎来爆发 [11] - 国产AI芯片公司普遍注重提升推理性能以“榨干”每一枚芯片的Token(词元)生成能力,这是衡量芯片实际推理效率的核心指标 [12] - 曦望公司目标是将百万Tokens的推理成本从2025年的1元人民币降低至1分级别,其下一代启望S3芯片目标推理性能相比上一代提升十倍以上 [13] 性能表现与生态挑战 - 在推理场景,部分国产AI芯片性能表现已接近或超过英伟达特供版H20芯片,例如百度昆仑芯P800、阿里PPU在运行适配优化模型时,Token吞吐效率优于H20 [14] - 国产AI芯片在软件生态层面普遍面临适配慢、适配难的问题,无法像英伟达芯片一样快速适配市面上大部分模型,为国产芯片适配新模型通常需一两个月,导致无法第一时间使用最新模型 [15] - 据业内人士表示,某国产AI芯片在Hugging Face开源社区上适配的模型数量只有几十款,而该社区拥有超过200万款模型 [15] - 国产AI芯片上游受限于芯片代工产能,下游受限于软件生态,其交付稳定性、软件栈成熟度与生态迁移成本将决定“万卡之后”的复购与生存 [16]
推理需求爆发,国产芯片从“堆算力”转向系统协同
第一财经· 2026-01-27 20:00
行业趋势与共识 - 大模型行业经过2025年发展已形成共识,推理需求将以复合倍速增长,行业需要高性能、高性价比的芯片 [3] - AI应用场景发生变化,多模态需求爆发,智能体需要高频响应与实时交互,物理AI也在加速落地 [3] - 行业成本结构改变,推理成本已从“元级”压到“分级”,未来AI会像水电一样成为普惠基础设施 [3] - 每当百万token的成本降低一半,市场上AI应用数量会显著增长,算力市场的繁荣度也将呈倍数级提升 [5] 公司战略与产品发布 - 曦望公司于1月27日发布第三代推理GPU芯片启望S3,设定目标是将百万token成本打到一分钱 [3] - 公司战略专注推理方向,预计到2030年,推理芯片将占到公司资源分配的80% [3] - 截至目前,曦望已发布三款芯片:云边端视觉推理专用的S1、对标英伟达A100的训推一体芯片S2,以及最新的推理芯片S3 [3] - 公司认为先将推理做到极致能够在商业上形成优势,这是战略定力问题 [3] - 曦望同时发布了AI算力平台,以自研芯片为底座,与多家大模型进行适配,从系统侧提高芯片利用效率 [4] 技术挑战与竞争焦点 - 训推一体芯片存在三大困境:成本高昂且供应不稳定、能耗惊人、部署运维复杂 [4] - 芯片行业竞争核心从“堆算力”转变,随着推理算力需求爆发,“内存墙”逐渐成为芯片性能的主要瓶颈 [4] - 计算单元算力提升速度远快于访存带宽提升速度,导致大多数芯片的纸面算力无法在实际场景中释放,这一矛盾在推理芯片中尤为突出 [4] - 未来合理的算力访存比才是芯片竞争的关键,该指标是衡量芯片算力与数据传输能力匹配度的核心 [4] - 英伟达创始人提出从单芯片优化升级为系统级协同设计的方案,以应对挑战 [4] 产业生态与国产算力定位 - 以DeepSeek为代表的大模型公司,不仅会做大模型,也会牵引框架变化,带动从模型架构到算子开发、推理系统的全链路技术创新 [4] - 大模型公司正推动框架适配新计算范式与跨硬件部署,试图摆脱对英伟达CUDA生态的依赖 [4] - 国产芯片定位越来越准确,从最初盲目追求与国际高性能算力比肩,转变为在追求性能的同时也追求极致成本 [5] - 国产算力正处于一个非常有利的位置 [1][5]