大模型推理
搜索文档
不到15万元!清华90后团队发布“褐蚁”一体机,已支持阿里最新Qwen3模型|钛媒体AGI
钛媒体APP· 2025-04-30 23:09
公司产品发布 - 行云集成电路推出全新“褐蚁”大模型推理一体机,最高配置仅需14.9万元即可跑满血版DeepSeek R1/V3大模型,对话速度达20token/s [2] - “褐蚁”一体机已支持阿里最新发布的Qwen3系列开源大模型,包括顶配版Qwen3-235B-A22B [2] - 产品提供三款配置:最高性价比的“超大杯”褐蚁HY90,以及即将推出的“大杯”褐蚁HY70和“中杯”褐蚁HY50 [2] 产品规格与性能 - “超大杯”褐蚁HY90搭载双路AMD EPYC 9355服务器CPU、24条48G 6400M频率内存和NV 5090D计算卡,支持FP8和INT4两种数据精度 [2][3] - 褐蚁HY90在FP8精度下跑满血版DeepSeek模型对话速度达21token/s,在INT4精度下达28token/s,最高支持128K上下文 [2][3] - 褐蚁HY90在FP8精度下,1K上下文速率21.5+tps,2K上下文速率20+tps,16K上下文速率19+tps [3] - 褐蚁HY90首字延迟在8K上下文内不超过40秒,16K上下文内不超过80秒,支持知识库RAG和开源大模型,交货期1个月以内,保修期2年 [3] - 公司通过对推理引擎的独家优化提升效率,是国内首个在10万价位提供满血FP8精度模型20+tps速率的一体机产品,并可配置各类调用大模型API的应用 [3] 公司背景与团队 - 行云集成电路成立于2023年8月,核心团队主要来自清华大学及全球顶尖芯片公司,致力于研发针对大模型推理场景的高效能GPU芯片 [4] - 创始人兼CEO季宇为31岁的清华大学物理本科、计算机体系结构方向博士,曾为“华为天才少年”之一,主攻体系结构与AI芯片方向,曾是海思昇腾芯片编译器专家 [4] - 公司CTO为余洪敏 [4] - 2024年11月,公司完成总额数亿元的天使轮及天使+轮融资,投资方包括智谱AI、仁爱集团、中科创星、奇绩创坛等多家知名机构 [4] 行业背景与市场 - 目前多家芯片、服务器、云计算、运营商、AI Infra等领域公司都发布了DeepSeek一体机产品,形成“百机大战”,但可运行满血版DeepSeek-V3/R1模型的企业不多 [5] - 国产GPU芯片层面主要有壁仞科技、摩尔线程等公司 [5] - 据券商数据预计,到2027年国内一体机市场规模将超过5000亿元,超过30家企业已向市场推出了一体机产品 [5] - 行业观点认为,一体机核心解决部署易用性问题,相比云计算方案落地周期更快、私有化安全性更高、价格更有性价比 [5] - 但行业也指出一体机存在持续维护、升级、大规模数据调度等挑战,以及综合使用成本无法复用的问题,有观点认为推理一体机是过渡态产品,最终大模型需与云计算结合 [6] - 公司CEO季宇认为,当前一体机仍能跑动超大杯MoE模型和30b当量的dense模型,后续模型迭代问题不大,且“褐蚁”在显存、KTransformers等技术层面有更多研发能力 [6] 公司未来规划 - 公司下一步将自研GPU卡,以持续带来更低价格和更高tps体验 [7] - 公司计划实施由30台褐蚁一体机组成的“蚁群”方案,发挥分布式系统优化能力,或将支持500-1000的有效并发数,价格有望降至300万-400万元,低于英伟达HGX H200集群的整体硬件成本 [7] - 公司CEO季宇的最终目标是为AI构建x86,让AI PC与互联网底座重回组装机模式,将组装机打造成AI基座,低成本搭建高端大模型,激活AI服务器组装机体系 [7]
14.9万元,满血流畅运行DeepSeek一体机抱回家!清华90后初创出品
量子位· 2025-04-29 12:18
产品性能与定价 - 褐蚁HY90一体机搭载671B参数FP8精度原版DeepSeek模型,价格降至14.9万元级别,较传统百万级设备成本降低一个数量级[1][5][19][31] - 推理速度达22 tokens/s,优于DeepSeek官网表现,数学题等复杂任务仍保持20+ tokens/s[4][10][16] - 采用双路AMD 9005系列CPU+消费级GPU异构架构,1TB/s高内存带宽突破"内存墙",硬件成本控制在10万元内[24][25] 技术架构与创新 - 自主研发推理引擎框架,FP8精度下Decode阶段速度稳定20+TPS,128K上下文仍保持15TPS,16K上下文首字延迟≤80秒[26][27] - 支持INT4量化技术,Decode速度提升至28TPS(1K上下文),预留1.5T参数模型扩展能力[26][28] - 通过参数压缩与算法优化,实现满血FP8精度模型部署,未来将支持MoE类模型[27][29] 公司背景与团队 - 创始人季宇为清华90后博士,CCF优博奖得主,曾任华为昇腾AI芯片编译器专家,入选"天才少年"计划[6][35][38][39] - CTO余洪敏为中科院博士,主导过百度昆仑芯、华为车载昇腾芯片等10余款芯片流片与量产[40][41][42] - 获智谱AI、峰瑞资本等明星机构投资,成立两年即实现技术突破[42][43][44] 行业影响 - 改写行业格局,将满血671B模型部署成本从百万级降至10万元级,同类低配方案价格区间原为20-40万元[31][32] - 推动大模型在智能客服、数据分析等场景的普惠应用,为中小团队提供高扩展性AI部署方案[32][33]
英伟达:Blackwell收入超预期,2025年推理爆发主导GPU需求-20250304
第一上海证券· 2025-03-04 18:43
报告公司投资评级 - 买入评级,目标价160美元,较现价有33.17%的上涨空间 [2][3][32] 报告的核心观点 - Blackwell产品大规模出货将推动公司业绩环比持续增长,虽25年上半年受产能限制下调2025财年数据中心收入预测、定单收入确认延迟,但公司需维持快速产品研发及迭代保证竞争力,利润率不会明显上升,预计2026 - 2028财年公司收入CAGR为29.1%,GAAP EPS的CAGR为29.2% [3][32] 根据相关目录分别进行总结 业绩摘要 - 2025财年Q4公司收入393亿美元,同比增长77.9%,高于公司指引与彭博一致预期;毛利率73.0%,环比降1.6ppts,低于彭博一致预期,因Blackwell产能爬坡短期成本高;经营利润240亿美元,同比增长76.5%;GAAP净利润221亿美元,同比增长79.8%,净利润率56.2%,GAAP摊薄每股收益0.89美元,高于彭博一致预期;公司对下季度收入指引中值430亿美元,同比增长65.1%,高于彭博一致预期,GAAP毛利率中值70.6%,低于一致预期,GAAP经营开支52亿美元,预计税率约17% [3][5][6] Blackwell平台产品进展 - Blackwell是公司历史上最快产能爬升的产品,Q4收入110亿美元超预期;2025年下半年出货的Blackwell Ultra和Blackwell系统架构相同,产能爬坡后毛利率有望改善至75%左右;其大模型推理成本比Hopper低20倍,适合推理AI和大规模模型训练,目前思考链大模型推理需求比初代产品提升超100倍,公司认为数据中心将把大部分资本支出用于加速计算和AI [3][10] 各业务情况 - **数据中心业务**:2025财年Q4收入355.8亿美元,同比增长93.3%,计算GPU收入325.6亿美元,同比增长116%,由大模型等需求推动,CSP收入约占一半且同比翻倍,托管GPU的区域云占比增加;网络产品收入30.2亿美元,同比下降9%,因公司产品过渡 [15] - **游戏业务**:2025财年Q4收入25.4亿美元,同比下降11.2%,主要因产能限制,预计一季度有强劲环比增长;一月份CES2025发布GeForce RTX 50系列台式机和笔记本电脑GPU [22][24] - **专业可视化业务**:本季度收入5.1亿美元,同比增长10.4%,因相关公司软件平台接入AI技术推动NVIDIA RTX工作站需求 [26] - **汽车业务**:本季度收入5.7亿美元,同比增长102.8%,来自智能驾驶芯片需求增加,公司称2025年自动驾驶芯片市场空间达50亿美元,未来6年汽车芯片订单140亿美元,汽车行业采用Omniverse及英伟达GPU进行相关开发,丰田将在NVIDIA DRIVE AGX Orin上打造下一代汽车 [26][27] - **OEM与IP业务**:本季度收入1.26亿美元,同比增长40% [29] 公司未来展望 - 微软等大厂2025年资本开支指引同比增长近25%,未来一年内GPU需求强劲;公司软件业务将迎来增长契机,通过相关软件服务扩展市场空间,NIM简化传统企业模型部署,埃森哲利用英伟达支持的AI Agent应用程序减少手动步骤 [20][32] 主要财务报表 - 2024 - 2028财年主营业务收入分别为60922、130497、213582、253562、280876百万美元,呈增长趋势;毛利率分别为72.7%、75.0%、72.5%、73.5%、73.1%;净利率分别为48.8%、55.8%、53.9%、54.7%、54.7%等 [36]
天翼云CPU实例部署DeepSeek-R1模型最佳实践
量子位· 2025-03-03 15:58
英特尔至强处理器在AI推理领域的优势 - 英特尔至强处理器通过AMX加速器显著提升大模型推理性能,在DeepSeek 7B蒸馏模型上实现超过9token/s的生成速率 [12] - 至强6处理器支持T级超大内存,可高效部署DeepSeek-R1 671B满血版模型,单实例单socket部署下达到9.7~10 token/s吞吐量 [13] - CPU方案在GPU资源不足或利用率低的场景下更具成本优势,资源划分粒度更小且硬件获取门槛更低 [7] 天翼云部署实践 - 提供一键部署云主机镜像,内置DeepSeek-R1-Distill-Qwen-7B模型、vLLM推理框架及open-webui前端,5分钟内自动启动服务 [4][5] - 镜像预配置vLLM API接口,支持通过8000端口直接调用模型服务,并可通过修改API_KEY增强安全性 [9] - 测试环境采用24vcpu/64GB内存配置,AMX加速后实现30-60输入token与256输出token的高效处理 [10] 大模型CPU部署性能表现 - DeepSeek-R1 671B满血版在至强6980P处理器(128核)上通过llama.cpp优化实现9.7~10 TPS,双实例部署总吞吐达14.7 TPS [32][33] - 采用Q4_K_M量化版本模型(404.43GB)平衡性能与存储成本,社区同时提供Q8_0(713.29GB)等高精度选项 [26][27] - 通过numactl绑定CPU核心与内存节点、Intel oneAPI编译器优化等技术手段最大化硬件利用率 [32] 英特尔处理器技术升级 - 第五代至强处理器(Emerald Rapids)AI推理性能较前代提升42%,大语言模型场景加速达1.5倍,TCO降低77% [16] - 至强6处理器(Granite Rapids)支持DDR5-6400内存与MRDIMM技术,内存带宽提升至2.3倍,三级缓存达504MB [17][18] - AMX加速器新增FP16支持,配合AVX-512等指令集形成完整AI软件生态,兼容主流开源框架 [18][19] 行业应用价值 - CPU方案有效解决GPU显存不足问题,适用于医疗、金融、零售等需快速接入大模型能力的行业 [2] - MOE结构参数稀疏化特性与CPU计算特点契合,降低算力需求的同时保持模型性能 [14] - xFasterTransformer框架支持多节点分布式部署,兼容vLLM等主流Serving框架,加速大模型应用落地 [20]
两台运行“满血版”DeepSeek,第四范式推出大模型推理一体机解决方案SageOne IA
IPO早知道· 2025-02-28 12:11
大模型应用成本降低 - 第四范式推出大模型推理一体机解决方案SageOne IA,显著降低大模型推理成本,满血版DeepSeek V3/R1仅需两台一体机即可使用 [2] - 解决方案集成智能算力池化技术,支持主流大模型如DeepSeek V3/R1、QWen2.5、LLama3.3,GPU利用率提升30%以上,推理性能平均提升5-10倍 [2] SageOne IA核心优势 智能算力池化 - 通过第四范式GPU资源池化(vGPU)技术,实现算力和显存智能切分及任务调度,GPU利用率提升30%以上 [4] - 支持多任务共享存储及处理优化,推理性能平均提升5-10倍,具备千卡级别分布式调度与管理能力 [4] 集成大模型工具链 - 开发平台包含数百个开放模型服务及全生命周期管理工具,支持可视化workflow编排和Agent智能体框架 [5] - 开发周期普遍缩短95%以上,企业开发者可数周内搭建生成式AI应用 [5] 内置AI应用套件 - 预装AIGC、智能办公、数字员工等丰富AI应用套件,支持主流大模型按需选择 [6] - 提供开箱即用的AI工具如模型仓库、智能体Agent平台等,加速企业AI落地 [6] 公司业绩与产品动态 - 第四范式前三季度营收同比增长26.1%,超40款AI产品推动长期增长 [11] - 先知AIOS 5.1新增GPU资源池化能力,算力资源利用率进一步提高 [11] - Q1核心业务收入增长84.8%,行业大模型规模效应显著 [11]