Workflow
赤兔推理引擎
icon
搜索文档
清程极智师天麾:MaaS盈利战打响,Infra技术已成利润关键丨GAIR 2025
雷峰网· 2025-12-26 17:57
文章核心观点 - 国产算力正从“能用”走向“好用”,其利用率瓶颈主要在于软件生态与系统级优化能力,而非硬件本身[4][5] - 第三方AI Infra公司通过自研全栈软件(如推理引擎)和提供评测路由服务,在芯片多元化的市场中解决适配、优化和商业化问题,创造核心价值[5][12][26] - MaaS(模型即服务)市场增长迅猛且前景广阔,其发展核心在于通过技术优化降低成本和门槛,而第三方平台能有效消除供需信息差[15][30][33] 行业现状与挑战 - 国产算力面临“M×N”的碎片化挑战:底层有N款不同芯片,上层有M个不同大模型,需进行M×N次组合优化,工作量巨大[25] - 行业现状是各家芯片厂商自行适配推理引擎(如vLLM、SGLang),导致适配版本、功能和接口不一致,用户使用和维护难度大[21] - 市场长期存在重视硬件、轻视软件的惯性,但软件生态不完善是国产算力利用率低的核心症结[12][21] - 大模型正向低位宽浮点数(如FP8、FP4)演进,但大部分国产显卡目前不支持FP8,FP4适配更是缺乏,给客户带来成本与效果的两难选择[27] 公司解决方案与产品 - 公司自研“赤兔推理引擎”,旨在作为连接AI应用与底层芯片的核心桥梁,兼容海外及华为、沐曦、海光、燧原等主流国产芯片,降低客户使用门槛[21][22] - 选择全栈自研而非修改开源方案,是为了避免技术包袱,并实现从底层硬件、算子层、推理引擎到上层应用的全链路端到端联合优化,追求极致性价比[26] - 通过纯软件技术突破硬件限制,使FP4和FP8格式能在不支持该特性的国产显卡上运行,计算时转FP16保精度,存储时用FP8/FP4省显存,已在多平台完成适配[28][29] - 推出“AI Ping”平台,提供一站式大模型服务评测与API调用,以消除MaaS市场信息差,其单次API调用费用不到一分钱,成本和使用门槛极低[30] 市场机遇与趋势 - 中国MaaS市场增长远超预期,2025年上半年市场增长率已超过400%,头部云厂商甚至提前完成年度目标[33] - MaaS市场非常标准,未来将演变为卷性能和卷价格的竞争,而降低价格需要大规模优化技术[15] - 中国具备发展MaaS的优良土壤:供给侧拥有全球最繁荣的开源模型生态和爆发式增长的AI算力;需求侧因其低成本、低门槛优势,能吸引企业、个人、科研等多类开发者[35] - MaaS的盈利高度依赖技术,因为省去中间环节后利润损耗少,技术优势更为关键[16] 竞争定位与商业化 - 作为第三方AI Infra公司,其定位在于芯片厂商与云厂商之间,凭借软件优化积累与芯片厂商合作进行软硬件联合优化[12] - 第三方公司的存在具有必要性,例如采购多家芯片的国央企客户需要统一的软件进行管理和优化,否则将非常费劲[13] - 商业化路径已跑顺,尤其在MaaS领域,因为性能每通过推理引擎提升一点,厂商就能多挣一点钱,客户更愿意为能创造额外价值的技术付费[14] - 私有化部署利润可观,MaaS的商业化在过去较难,但现在已非常顺畅[14] 产品技术细节与成效 - 赤兔推理引擎0.5版本已发布,支持超大规模专家并行、PD分离、AF分离等能力,并已完成对华为384超节点方案的深度适配与性能优化[27] - 在DeepSeek-R1上的测试验证了技术方向:不同精度格式效果排序为FP8 > FP4 > INT8 > INT4,证明低位宽浮点数是大模型主流趋势[29] - AI Ping平台评测覆盖极广,已接入29家MaaS厂商,整合400余项MaaS服务,并执行7×24小时不间断评测[36] - 评测数据准确度高,与部分云厂商后台数据交叉验证显示,吞吐指标平均误差在0.2%以内,P90首次延迟稳定在0.8秒以内[38] - AI Ping的“路由”功能提供统一接口,可调用背后20多家供应商资源,根据数据最多能帮助用户降低50%的成本,同时优化延迟和吞吐指标[40][41]
ChinaSC 2025:产学研聚力,解锁智能算力经济新未来!
财经网· 2025-11-10 16:34
大会概况 - 第七届中国超级算力大会于2025年11月8日在北京召开,主题为“智算力 大模型 新经济”,深度研讨中国算力发展的技术趋势与政策方向 [1] - 大会线下超600余位行业精英参与,云端直播累计观看人数超过6万人,实现双线深度联动 [15] 重要榜单发布 - 清华大学教授翟季冬发布《2025国际人工智能性能AIPerf500排行榜》,该榜单以AutoML为核心负载,采用AIOps/Tops统一指标,填补大规模AI算力评测空白 [3] - 北京超级云计算中心提交的两台新机器在AIPerf500榜单上分别位列第一和第三位,其中榜首系统共有1194个节点,总卡数近万张,采用NVIDIA RTX5090打造 [3] - 在AIPerf-LLM大模型训练能力榜单中,北京超级云计算中心、阿里云部署在复旦大学的智算集群等位列前茅 [3] - AIPerf-Inference设有“吞吐榜”和“延迟榜”,在吞吐榜上,北京超级云计算中心2台系统及新疆数算电科技与北京清程极智联合开发的系统位列Top3 [4] - 大会发布了《2025中国高性能计算机性能TOP100排行榜》,陕西安康智算中心荣登第13位 [2][7] 企业技术与方案亮点 - 北京北龙超级云计算有限责任公司通过大资源池、弹性调度、应用级加速及按需计费等手段,构建“真实需求-精准选型-成本优化”体系以提供高性价比算力服务 [5][6] - 清程极智生态VP何万青介绍“赤兔”推理引擎通过CPU/GPU异构计算、MixQ混合精度量化等技术实现深度优化,其“太极Turnkey”性能交付套件解决了大模型性能部署难题 [6] - 微软亚洲研究院高级研究员李琨介绍MatrixScience路线,将不规则算子结构化为矩阵计算表达,使其能原生运行在AI加速器上,实现计算的高可扩展性 [8] - 联泰集群推出LtAI全栈智能平台,具备异构算力适配、智能运维调度和全栈技术组件三大核心能力,支持智慧政务、能源、医疗等应用 [9] - 北京华弘数科技术有限公司以液冷技术为核心,打造覆盖多场景的全液冷产品线,并发布了多款全液冷一体化平台 [9][10] - 北京中科蓝智科技有限公司致力于工业智能,通过知识编织工程将工业知识转化为“可计算知识单元”,构建了覆盖研发设计、生产运行等场景的智能体矩阵 [10] 产业生态与合作 - 陕西安康国家高新区依托“东数西算”战略打造西部算力枢纽,其智算中心当前算力为2000P,目标建成20000P集群,推动智慧城市、低空经济等场景落地 [7] - 安康高新区管委会与中国智能计算产业联盟举行战略合作签约仪式,聚焦智算基础设施建设、产业链生态培育等关键领域 [11] - 中国智能计算产业联盟将携手中国电子技术标准化研究院共同推动《2026中国算力应用经典案例征集》活动 [11] - 北京北龙超级云计算有限责任公司、深圳市四通科技控股有限公司等五家公司荣获2025中国算力卓越企业奖 [12] - 中科国维(北京)控股有限公司、北京华弘数科技术有限公司等七家公司荣获2025中国算力先进技术奖 [12] - 深圳市四通科技控股有限公司等十家企业新增成为联盟理事单位 [12]
品高股份全新思路的软硬件结合技术 助力AI领域实现突破性进展
全景网· 2025-10-21 17:36
行业趋势 - AI软件能力升级,降低对硬件性能的依赖,成为行业新突破口 [1] - 现代AI算法对硬件误差和噪声的容忍度显著提升,即便面对性能存在差距的国产芯片,也能通过软件优化实现预期效果 [2] - 国内企业与科研机构加码软件优化,例如清华团队的“八卦炉”训练系统与“赤兔”推理引擎、月之暗面的资源调度策略、阿里云的“AI原生应用工厂”,共同指向“软件赋能硬件”的发展方向 [2] 公司技术方案 - 公司提出软硬件结合技术路线,通过软件层面的深度创新激活国产芯片潜力 [1][3] - 公司联合江原科技推出的“品原AI一体机”搭载国产芯片,结合自研4D并行调度策略与算子融合技术,将DeepSeek-R1大模型响应速度提升30%,单卡能效比提升至主流GPU的2.5倍 [3] - 公司自研BingoAIInfra智能算力调度平台具备驱动级GPU切割能力和云原生调度能力,可对国产GPU资源进行精细化管理,实现“按需切割、灵活分配”,该产品已在多个大型智算中心项目中成功落地 [4] - 作为江原科技芯片的代理商,公司将随芯片迭代及时推出搭载最新芯片的AI一体机 [3] 公司生态布局 - 公司构建“硬件-软件-生态”全链路自主可控体系,战略投资国内自主可控芯片企业,覆盖推理芯片、通感算一体化芯片、UWB超宽带感知芯片等方向,推动“云-边-端”全链路国产化 [5] - 公司联合国产算力芯片公司共同打造国产算子库、优化推理底层算子,并与高校、芯片企业共建联合研发中心,为被投企业提供技术赋能 [5] - 公司旗下品高云操作系统向下支持全部典型国产异构芯片服务器与国产操作系统,向上兼容国产数据库、中间件及信创行业应用,形成全链路自主可控体系 [5]
推理、训练、数据全链条的工程挑战,谁在构建中国 AI 的底层能力?|AICon 北京
AI前线· 2025-06-16 15:37
大模型系统性问题与国产AI挑战 - 大模型发展面临推理慢、训练不稳、数据迁移难等系统性挑战 这些因素决定技术规模化落地能力 [1] - 国产AI需解决算力适配、系统容错、数据合规等现实问题 特别是摆脱对进口芯片的依赖 [1] - AICon大会将聚焦国产芯片推理适配、开源部署、训练容错机制等七大关键议题 覆盖基础设施建设全貌 [1] 国产算力与推理优化技术 - 清程极智开源赤兔推理引擎 实现在非英伟达Hopper架构及国产芯片上原生运行FP8精度模型 解决硬件成本高企问题 [4] - 华为昇腾推出DeepSeek大模型推理架构 提供性能优化方案与专家并行调度技术 加速国产算力平台部署 [5][6] - 京东零售分享LLM推理优化实践 通过请求调度与流水线执行技术 平衡高吞吐与低延迟的零售级需求 [7][8] 训练系统与开源生态 - 蚂蚁集团开源DLRover框架 解决万卡规模训练的稳定性问题 包含分布式容错与国产卡适配经验 [11] - SGLang推理引擎整合专家并行、推测解码等前沿技术 实现DeepSeek V3等开源模型低成本部署 [9][10] - 阿里巴巴探讨强化学习系统发展 涵盖RLHF架构、自对齐算法及开源生态建设方向 [8][9] 数据基础设施演进 - Zilliz推出向量数据库云原生方案 解决GenAI场景下的数据迁移、BYOC部署和Schema演进问题 [12] - 行业面临传统数据库架构不适应AI需求的问题 需构建企业级向量数据管理平台 [12] 行业动态与人才流动 - 百度大幅扩招AI人才 岗位数量增长超60% 反映行业对顶尖技术人才的激烈争夺 [12] - 阶跃星辰高管转投京东 显示头部企业间核心人才竞争白热化 [12] - ClaudeCode获企业青睐 日均使用成本达1000美元/员工 凸显高性能AI工具的商业价值 [12]