Workflow
推理算力
icon
搜索文档
未来智造局|“百万token一分钱” 推理GPU驱动大模型下半场发展
新华财经· 2026-02-02 16:51
行业趋势:AI发展进入“推理驱动”新阶段 - AI行业正由“训练驱动”迈向“推理驱动”的下半场,推理算力成为决定AI商业化成败的核心要素 [1] - 2026年被业内视为人工智能推理应用爆发元年,德勤预测当年推理算力占AI计算量的比重将达66%,首次超过训练算力 [2] - 随着大模型逐步走向落地,在AI发展从“训练驱动”迈向“推理驱动”的关键阶段,夯实推理算力底座对推动AI服务实体经济具有重要意义 [2] 市场需求与痛点 - 推理成本占据人工智能应用的比例已经高达70%,直接决定了一家人工智能公司能否盈利 [3] - 2025年全球大模型token消耗量增长了近100倍,算力需求爆发式增长与高成本之间的矛盾突出 [4] - 目前多数推理场景沿用训推一体芯片,存在成本高昂、供应不稳定、运维投入大等问题,无法匹配行业爆发式需求 [3] - 当前市场上推理的百万token价格约1到10元,若成本下降一半,应用将大规模爆发;当价格降至0.1元以下时,将引发推理市场全面爆发 [8] 公司战略与产品发布 - 国产AI芯片企业曦望(Sunrise)近日发布了新一代专用推理GPU芯片启望S3,提出“百万词元(token)一分钱”的目标 [1] - 公司从2018年开始研发第一代芯片启望S1,2020年实现量产并落地数万片规模;2023年推出第二代芯片启望S2;近日发布第三代芯片启望S3 [3] - 曦望是国内算力领域首家聚焦于推理GPU的芯片企业 [3] - 公司提出围绕推理场景构建算力体系、共建AI推理平台,探索面向人工智能应用的新型算力服务模式 [1] 产品技术优势与成本目标 - 启望S3从底层架构开始为推理场景重新设计,实现性能、能效与成本的系统性优化,可以满足多模态、智能体等复杂推理需求 [5] - 该芯片通过芯片架构、存储体系和系统协同的全方位优化,实现了十倍以上的推理性价比提升 [5] - 公司目标是将推理成本再降一个数量级,推动“百万token一分钱”成为行业新基准 [5] - 据测算,目前曦望已将每百万token成本降至约0.57元,优于市场平均水平 [5] 生态合作与行业影响 - 曦望提出共建AI推理平台为核心的算力服务新模式,通过与商汤科技、范式智能等合作伙伴协同,提供稳定、可预期的算力服务 [8] - 公司与浙江大学共建“智能计算联合研发中心”,聚焦半导体虚拟制造以及AI在科学计算等领域的应用 [8] - 曦望与杭钢数字、浙江算力科技牵手,将推理基础设施铺向浙江、辐射全国,并与三一重工、游族网络等十几家企业签约,将推理算力嵌入制造、能源、机器人等具体场景 [8] - 国产推理芯片的性价比优势,将推动中国AI应用实现类似移动互联网时代的爆发式增长 [9] - 在国际上,每当百万token的成本降低一倍,市场上出现的应用程序数量就会增加6到8倍 [9] 行业挑战与解决方案 - 目前整个算力服务面临三大挑战:一是资源利用率低,传统架构下GPU闲置率常超过40%;二是适配效率不足;三是运维复杂,硬件问题中75%与GPU相关 [6] - 基于此,曦望联合合作伙伴共同推出推理系统级解决方案,通过自研GPU与软硬件全栈优化,破解行业痛点,提升算力调度效率 [6] - 推理时代的算力竞争不是单点技术比拼,需要构建协同创新、开放融合的产业生态 [2] 未来展望 - 未来十年,中国AI时代的底层根基将是规模化、高性价比的推理基础设施 [1] - 以推理算力为核心、以AI推理平台为载体的新型算力模式,正在成为人工智能时代的重要基础设施形态 [9] - 专用推理芯片的技术突破,将加速芯片与模型的协同创新,推动人工智能商业化落地提速 [7]
超百亿美元!OpenAI签下AI芯片大单
新华网财经· 2026-01-16 11:34
OpenAI与Cerebras的重大合作 - 核心观点:OpenAI与美国AI芯片初创公司Cerebras达成一项价值超过100亿美元的重大合作,计划部署750兆瓦的Cerebras晶圆级系统,目标在2028年建成全球规模最大的高速AI推理平台 [1] - 合作细节:该合作将于2026年起分阶段落地,并于2028年完成,合作价值超过100亿美元 [1] - 合作意义:Cerebras CEO表示,合作意味着将全球领先的AI模型引入全球最快的AI处理器,实时推理将彻底变革AI领域,开启构建和交互AI模型的全新方式 [1] Cerebras公司及其技术优势 - 公司背景:Cerebras成立于2015年,致力于打造全球最快的人工智能推理与训练平台,其CS-2和CS-3系统已应用于医学研究、密码学、能源及AI智能体等领域,并向开发者和企业提供云服务 [4] - 技术特点:Cerebras系统的独特之处在于将海量计算能力、内存和带宽集成到单个巨型芯片上,从而消除了传统硬件上制约推理速度的瓶颈 [4] - 性能表现:在代码及语音聊天任务上,基于Cerebras的大语言模型所给出的响应速度比基于GPU的系统快高达15倍 [4] 行业对高速推理的需求与趋势 - 市场需求:OpenAI与Cerebras的交易显示出市场对推理算力的强烈需求,以及科技巨头对于推理速度的重视与日俱增 [1] - 速度的重要性:技术发展史上,速度的飞跃(如处理器频率从千赫兹到吉赫兹,网络从拨号到宽带)是推动技术普及的关键,低延迟推理解决方案能提供更快的响应速度、更自然的交互体验、更新的应用场景与更广泛的普惠程度,并提升以智能体为增长引擎的市场生产力 [5] 行业内的其他重大交易 - 英伟达收购Groq:2025年12月,AI芯片初创公司Groq与英伟达签署了一份非独家许可协议,部分员工将加入英伟达,据CNBC报道,这项交易价值200亿美元现金,是英伟达迄今最大的一笔交易 [5] - 交易目的:英伟达计划将Groq的低延迟处理器整合到其AI工厂架构中,以进一步扩展平台,支持更广泛的AI推理和实时工作负载 [6]
阿里云张翅:AI推理算力将超训练算力 金融应用需构建“大小飞轮”协同体系
新浪财经· 2026-01-04 15:53
阿里云战略方向 - 公司战略方向锁定“全栈AI云”与“全球化”,强调构建从底层芯片、基础设施到模型应用的完整体系 [1][4] 中美AI能力对比与算力趋势 - 目前中美在不同模型领域能力上各有优劣,但在自动驾驶、具身智能等细分垂类领域,中国已展现出明显领先优势 [3][6] - 未来推理算力需求将超过训练算力,呈现“倒置”趋势 [3][6] 云与AI商业模式及金融应用 - 云与AI是互为飞轮的相互提升促进关系 [3][6] - 金融Agentic AI落地并非简单的Tokens流量和Agent外挂逻辑,未来金融机构需构建“大飞轮驱动意图理解、小飞轮落实执行”的双轮体系,实现从辅助到深度协同的跨越,让AI融入专业工作流程 [3][6] - “生产级场景”的规模化落地需要完整的解决方案构建一体化体系支撑,以匹配“双飞轮”架构带来的技术范式革新 [3][6]
行业点评报告:资本化或助力AI应用商业化加速,继续关注新游
开源证券· 2025-12-29 09:46
报告行业投资评级 - 看好(维持)[1] 报告核心观点 - 大模型公司智谱与MiniMax拟港股IPO,其资本化进程有望借助资本市场提升融资能力,从而加大对模型研发的投入,加速多模态AI应用的商业化进程,并拉动训练与推理端算力需求[3][11] - 2025年游戏版号发放数量创2019年以来新高,政策支持明确,为新游供给提供充足储备,叠加元旦、寒假及春节假期旺季将至,建议继续关注新游上线及老游运营活动,积极布局游戏板块[3] - 建议继续布局多模态AI应用及推理算力方向,具体包括AI视频、AI音乐、AI设计及推理算力等细分领域[3] 根据目录分别总结 1、 智谱华章、MiniMax IPO,大模型技术及应用发展或加速 - **公司概况与市场地位**:智谱华章成立于2019年,按2024年收入计在中国独立大模型开发商中位列第一[11] MiniMax是一家全球化AI大模型公司,截至2025年9月,其AI原生产品累计为来自超200个国家及地区的逾2亿名个人用户提供服务[11] - **技术团队与背景**:两家公司均由技术背景深厚的团队领导,智谱脱胎于清华大学计算机系知识工程实验室,并与清华、北大共建实验室[12] MiniMax董事长闫俊杰为中国科学院自动化研究所人工智能博士,曾任商汤集团副总裁[13] - **业务模式与能力**:智谱模型在推理、编程及Agent能力方面突出,主攻B端市场,截至2025年12月已为超12000家机构客户、超8000万台设备提供支持,2025年11月日均token消耗量为4.2万亿[15] MiniMax多模态模型能力突出,产品线丰富,主攻C端市场,2025年1-9月其AI原生产品用户量2.12亿,平均月活跃用户数约2762万,付费用户数约177万,每位付费用户平均支出15美元[21] - **财务表现与增长**:2025年上半年,智谱实现营业收入1.91亿元,同比增长325%[3] 2025年第一季度至第三季度,MiniMax实现营业收入5344万美元,同比增长175%[3] 2024年,智谱实现收入3.12亿元,其中本地化部署收入占比约85%[25] 2024年,MiniMax实现收入3052万美元,其中AI原生产品收入占比约71%,其支柱产品Talkie/星野营收占比近64%[25] - **出海与区域收入**:MiniMax海外营收占比较高,2025年第一季度至第三季度,亚太以外地区营收占比提升至39%[31] 智谱已启动出海,2025年上半年境外收入占比提升至11.6%[31] - **盈利能力与投入**:2025年上半年,智谱毛利率为50%,同比提升1.1个百分点[37] 2025年第一季度至第三季度,MiniMax毛利率为23%,同比大幅提升21个百分点[37] 两家公司均维持高强度研发投入,2024年智谱与MiniMax的研发费用率分别为703%和619%[39] 2、 行业数据综述 - **游戏榜单**:截至2025年12月27日22:00,《美职篮冠军王朝》获内地iOS游戏免费榜第一,《燕云十六声》获内地iOS游戏畅销榜第一[44] 在TapTap平台,《异环》为安卓预约榜第一,《菜鸡梦想家》为iOS预约榜第一[44] - **重点公司游戏排名**:报告期内,腾讯旗下《王者荣耀》、《三角洲行动》、《金铲铲之战》等游戏位列iOS游戏畅销榜前列[49] 网易旗下《燕云十六声》、《梦幻西游》、《光·遇》等游戏排名靠前[53] - **电影市场**:2025年12月21日至12月27日,电影《阿凡达3》获得周票房冠军,本周票房为3.59亿元,累计票房达6.47亿元[57] - **新片与剧集**:定于12月31日上映的《寻秦记》猫眼想看人数达20.27万,关注度高[59] 网播剧《狙击蝴蝶》播映指数为81.8,排名第一[60] 网播综艺《现在就出发第3季》播映指数为82.6,领先[61] 3、 行业新闻综述 - **AIGC动态**:智谱上线并开源GLM-4.7模型,在多项能力上实现升级[62] MiniMax发布M2.1模型,在多语言编程榜单中取得SOTA成绩[62] 钉钉发布全球首个工作智能操作系统Agent OS[62] 字节跳动旗下豆包日均活跃用户数(DAU)已突破1亿[63] MiniMax与快看漫画合作上线首个AI互动漫画[63] - **游戏行业数据**:2025年,抖音小游戏流水规模增长100%,用户活跃规模增长120%[64] 2025年抖音月流水过千万的新游超10款[64] 2025年全年共下发游戏版号1771个,同比增长25%,数量创2019年以来新高[65] - **影视/IP与短剧**:TOP TOY控股企业旗下Nommi IP风靡全球,2025年6月至11月创造约2亿元收入[67] 2025年1-11月,海外短剧IAP收入达21.7亿美元,同比增长150%,月活用户突破2.66亿[68] 巨量引擎披露漫剧赛道日消耗于12月24日正式突破2000万元,较上半年日耗400万增长显著[69] 4、 公告总结 - **东方明珠**:拟出资5000万元参与设立总规模100亿元的长三角数智文化产业基金,重点投资AI技术为核心的数字文化及融合领域[70] - **电声股份**:终止部分募投项目,将剩余募集资金变更用途,其中6000万元追加投入“数字零售升级项目”,约6953.49万元用于永久补充流动资金,公司研发重点已转向“AI+”方向[71] 5、 板块行情综述 - **整体表现**:A股传媒板块在2025年第52周(12月22日-12月26日)下跌0.18%,表现落后于主要市场指数[72] - **子板块表现**:在传媒七大子板块中,互联网板块表现最好,周涨幅为1.86%,体育板块表现较弱,周跌幅为1.19%[72] - **个股涨跌**:A股传媒个股中,百纳千成周涨幅最大,达20.08%,天威视讯周跌幅最大,为-11.34%[72] 美股传媒个股中,36氪周涨幅最大,为12.50%[79] 港股传媒个股中,中国有赞周涨幅最大,为8.15%[80]
行业周报:大厂加速模型升级,继续布局游戏等多模态AI应用-20251221
开源证券· 2025-12-21 23:28
报告投资评级 - 行业投资评级:看好(维持)[1] 报告核心观点 - 科技大厂持续升级多模态AI模型,有望深入赋能内容创作领域,建议继续布局多模态AI应用及推理算力方向[3] - 游戏行业供需共振下或延续高景气,叠加新品类扩张与AI赋能,建议加码布局游戏板块[3] 行业数据综述 - 游戏数据:截至2025年12月20日22:00,《三角洲行动》获内地iOS游戏免费榜第一,《王者荣耀》获内地iOS游戏畅销榜第一[10];《潜水员戴夫》在TapTap安卓及iOS预约榜均排名第一[10] - 电影数据:电影《疯狂动物城2》获得周票房冠军,当周票房为3.21亿元,累计票房达37.50亿元[23] 行业新闻综述:AIGC - 大厂模型迭代:阿里巴巴发布万相2.6系列模型,为国内首个支持角色扮演功能的视频模型,单次视频生成时长国内最高达15秒[3][29];腾讯发布混元世界模型1.5,可创建互动世界并开源实时世界模型框架[3][29];字节跳动发布豆包大模型1.8及音视频创作模型Seedance 1.5 Pro[3][31] - 模型性能与商业化:谷歌发布Gemini 3 Flash,官方称其为迄今最强智能体模型,在多项测试中性能略胜Gemini 3 Pro[3][33];小米开源模型MiMo-V2-Flash在代码能力评测中表现领先[32];智谱AI已通过港交所聆讯,2024年营收3.124亿元,复合年增长率达130%[34] - 应用数据:2025年12月,豆包大模型日均Token处理量超过50万亿,半年增长超200%[31] 行业新闻综述:游戏 - 市场规模:2025年,国内游戏市场实际销售收入3507.89亿元,同比增长7.68%;用户规模6.83亿,同比增长1.35%,双双创历史新高[36] - 细分市场:2025年,国内客户端游戏市场实销收入781.6亿元,同比大幅增长14.97%;主机游戏市场实销收入83.62亿元,同比增长86.33%;小程序游戏市场收入535.35亿元,同比大幅增长34.39%[36] - 渠道政策:日本《移动软件竞争法》落地,苹果和谷歌开放第三方支付,苹果App Store佣金下调至10%或21%[35] - 新品动态:哔哩哔哩曝光竖版捉宠游戏《闪耀吧!噜咪》[37];网易曝光两款自走棋新品[37];《洛克王国世界》定档2026年3月26日上线[37] 行业新闻综述:影视 - 平台布局:百度将推出独立漫剧APP“柚漫剧”[38] - AI应用:AI工具已用于短剧剧本创作,据称可提升效率超50%,单集工具成本可低至3元[38] 公司公告总结 - 哔哩哔哩:向147名员工授出合计2,014,815份限制性股份单位以作激励[40] - 百纳千成:拟全资收购AI营销公司众联世纪,后者2024年营收达64.17亿元[41] - 中文在线:拟筹划发行H股股票并在香港联交所主板上市[41] 板块行情综述 - 整体表现:A股传媒板块在2025年第51周(12月15日-12月19日)下跌0.18%,表现居于市场上游[42] - 子板块表现:体育板块周涨幅最大(+3.41%),影视板块表现较弱(-3.36%)[42][47] - 个股表现:A股传媒个股中,亨通股份周涨幅最大(+12.91%),科达股份周跌幅最大(-12.59%)[43];美股传媒个股中,康卡斯特周涨幅最大(+8.59%)[50];港股传媒个股中,中教控股周涨幅最大(+12.42%)[51]
ChatGPT引入PS 一句话即可修图
北京商报· 2025-12-15 23:51
公司合作与产品集成 - Adobe宣布将其Photoshop、Express和Acrobat产品集成到ChatGPT中,用户可直接在聊天机器人内通过文字描述使用这些工具进行图片美化、信函设计和PDF编辑 [1] - 这些集成工具在ChatGPT中可免费使用,且无需离开聊天界面,这使Adobe的产品有机会触达ChatGPT超过8亿的周活跃用户 [1] - 集成旨在降低使用门槛,帮助新手用户上手,若需更强大功能,用户可从聊天界面跳转至Adobe独立应用程序 [1] - ChatGPT版Photoshop支持调整亮度、对比度、饱和度等参数,应用风格化效果,并对图像的特定区域进行编辑,如模糊或移除背景 [1] - 在实操中,用户在ChatGPT界面点击“更多”菜单即可调用Adobe应用,在“扩展模式”下通过自然语言指令生成初稿并直接微调参数,全程无需重复输入指令 [2] - 尽管接入ChatGPT,Adobe强调其核心生成能力仍基于自研的Firefly系列模型,所有生成内容享有商业使用权与版权保障,避免第三方模型的潜在版权争议 [2] 行业竞争与市场策略 - 对于OpenAI而言,此次合作是其将更多第三方应用引入ChatGPT的一部分举措,旨在将ChatGPT打造成数字服务的“入口” [2] - 今年10月,OpenAI首次推出应用集成功能,Spotify、Zillow以及Adobe的竞争对手Figma是首批加入的公司 [2] - 在图片编辑产品赛道,当前AI技术已成为产品功能迭代的基础,技术推动的升级更多表现在功能和玩法的丰富层面 [4] - 行业竞争不仅在于功能成熟度,更考验产品营销思路能否点燃用户好奇心,驱动用户主动使用并产生留存 [4] 技术发展与行业影响 - OpenAI此前发布的GPT-4o具备原生图像生成功能,用户上传图片并输入自然语言指令即可将普通照片转化为特定艺术风格(如吉卜力风格)的图像 [3] - GPT-4o在文本集成、上下文理解、多对象绑定及多样化风格等方面相较于过去模型有改进 [3] - 有观点认为,GPT-4o原生图片生成跨越了文生图的提示词和效果两大门槛,有望在广告等下游场景广泛应用,降低高质量图片生成成本 [3] - AI生成图片的普及需要巨量推理算力支撑,例如OpenAI GPUs未能广泛支撑用户对GPT-4o图片生成功能的需求,体现了推理算力对AI应用的重要保障作用 [3] - AI拉动的生产力效率提升有望持续赋能传媒应用,可关注优质内容生产方借力AI提升内容供给以及媒介端的受益 [5] - 数字营销、电商、文化科普及版权保护等应用领域的公司也有望受益于AI发展 [5]
AI应用按下加速键,乌镇峰会热议算力跃升与安全新考题
第一财经· 2025-11-08 20:13
AI应用落地加速 - AI眼镜等终端设备在乌镇峰会展示多种实际功能,包括实时翻译、导航、支付、物体识别和比价,表明AI技术正从概念热议转向具体应用[1] - 搭载蚂蚁智能体的AI眼镜可为景区游客提供实时导览和大会信息查询服务[1] 算力需求结构变化 - AI推理算力需求增速已远高于训练需求增速[4] - DeepSeek等基座大模型的出现推动推理算力需求超过训练需求,推理模式从单机单卡转向集群推理[10] 算力基础设施升级 - 超节点技术成为提升计算集群性能的关键方案,通过减少AI服务器横向互联性能损失来优化单芯片能效[9] - 中科曙光发布单机柜级640卡超节点,采用浸没相变液冷系统散热[5][10] - 华为昇腾384超节点通过总线技术实现384个神经网络处理器互联,壁仞科技、新华三等厂商纷纷入局[5][10] - 中兴通讯超节点服务器单个机柜支持64块卡,高带宽下可扩展至2048卡集群,已有互联网厂商投入使用[11] - 国产算力接受度快速提升,业界通过超节点等系统级方案弥补单芯片性能差距[10] AI安全挑战凸显 - AI换脸技术被用于盗用明星形象进行虚假直播带货,引发广泛社会关注[12] - AI生成内容的虚假信息识别存在技术难点,生成的图片和音频过于逼真导致现有技术难以甄别[13][14] - AI终端设备增加带来网络安全、数据安全和内容安全的新风险,360白皮书归纳了五方面安全风险[14] - 用户使用AI过程中透露的个人信息安全流通、存储和计算成为行业新问题[15] 隐私保护技术发展 - 苹果推出PCC私有云计算架构保护用户数据被大模型使用时的安全[15] - 预计手机厂商将跟进类似安全方案,密态计算技术将保障跨地域数据流动安全[15] - 随着大模型使用数据从公开知识转向专业数据,密态计算技术应用将更加广泛[15]
中际旭创(300308):1.6T上量将进一步提升盈利 光模块全球最佳交付者地位不变
新浪财经· 2025-09-17 12:35
公司财务表现 - 2025年上半年营收147.9亿元 同比增长37.0% 归母净利润40.0亿元 同比增长69.4% [1] - 单Q2营收81.1亿元 同比增长36.2% 环比增长21.6% 归母净利润24.1亿元 同比增长78.8% 环比增长52.4% [1] - 半年报固定资产61.1亿元 较2024年报增长2.9亿元 存货91.7亿元 较2024年报增长21.2亿元 [2] 业务驱动因素 - Q2收入增长和毛利率改善主要因大客户采购加速及高速硅光产品占比提升 800G出货量快速增长 1.6T开始逐步出货 [2] - 上半年光模块产能1161万只 产量940万只 同比分别增长29%和44% 产能向高速高端倾斜 [2] - 国内市场上半年营收20.1亿元 同比增长51.4% 增速高于海外市场 [2] 行业前景 - 2025年海外四大云厂商合计资本开支预计同比增长50%至3338亿美元 2026年投资将进一步扩大 [3] - 美国科技巨头表达投资意愿 Meta计划到2028年投资6000亿美元 苹果6000亿美元 谷歌2500亿美元 微软每年750-800亿美元 [3] - 英伟达GPU和自研ASIC快速迭代 每代芯片带宽保持翻倍提升 带动光模块需求飙升 [3] 竞争优势 - 面向Scaleout和Scaleup场景的光模块定制化难度增加 需要特殊技术能力如环形器BiDi [4] - 在光芯片供给紧张环境下 公司能完全满足头部厂商大客户需求 [4] - 公司在苏州 铜陵 泰国保持多地高标准低成本交付能力 [4] - 硅光龙头地位凸显 在1.6T 3.2T 8通道光模块中成本优势明显 [4] 业绩预期 - 预计2025-2027年归母净利润分别为93.7亿元 181.1亿元 248.9亿元 [5] - 9月16日收盘价对应PE分别为48.8倍 25.2倍 18.4倍 [5]
今晚GPT5?
小熊跑的快· 2025-08-07 17:02
OpenAI直播预告 - OpenAI将于今晚凌晨一点进行直播活动[1] - 直播内容可能涉及RL强化学习技术的最新进展[1] - 行业预期直播将展示强化学习方向的突破性成果[1] 技术发展方向 - 强化学习技术有望实现极致性能突破[1] - 技术突破将推动推理算力需求增长[1] - 推理应用领域可能迎来重大发展机遇[1] 产业链影响 - 推理算力需求增长将利好ASIC芯片市场[1] - 各类推理芯片厂商将迎来发展机会[1] - 行业已为推理芯片需求增长做好准备[1]
对话PPIO姚欣:AI大模型赛道加速内卷,但合理盈利路径仍需探索
钛媒体APP· 2025-08-05 10:23
公司业务与定位 - PPIO是一家独立分布式云计算服务商 专注于边缘云计算和AI云计算服务 在中国独立边缘云计算服务商中排名第一 市场份额为4.1% [4][14] - 公司运营中国最大的算力网络 按计算节点数计 在中国边缘云计算服务提供商中排名第七 [4] - PPIO在IaaS PaaS MaaS三层都具备相应技术能力 为国内外领先科技公司提供服务 包括中国前十大互联网公司的大部分 [14] - 公司正式发布国内首个Agentic AI基础设施服务平台 包括兼容E2B接口的Agent沙箱和模型服务 支持百款主流开源与定制AI模型的快速接入 [5] 技术优势与创新 - 对DeepSeek-R1模型进行优化 采用PD分离等创新分布式计算技术 使吞吐量提高10倍以上 理论运营成本降低高达90% [4] - 通过算子融合 低精度量化及投机采样等技术 将模型输出效率提高7倍以上 理论运营成本降低85.7% [4] - 具备很强的调度能力 融合能力 模型优化 底层算子等技术能力 能提升GPU资源利用率 [14] - 研发国内首款兼容E2B接口的Agent沙箱 专为Agent执行任务设计 在云端环境运行 [5] 市场表现与增长 - AI云计算服务增长迅速 日均token消耗量从2024年12月的271亿次增至2025年6月的2000亿次 在中国独立AI云计算服务供应商中位列前两名 [5] - 公司于2025年6月正式向港交所提交上市招股书 启动IPO上市之路 [5] 行业观点与趋势 - AI Infra基础设施领域是非常低毛利 海量规模 长周期的市场 类比水电气煤等公共基础设施 [6][17] - 未来AI算力需求将从训练转向推理 从中心化架构转向分布式架构 推理计算卡将百花齐放 [7][18] - 推理算力占比将达到95% 训练只占5% 大量数据中心需要分布式以及海量的推理优化 [22] - 开源模型对于AI行业发展更有利 能让AI Infra公司有更多发展机遇 [6][10] 算力架构发展 - 中国AI算力底层做算力网络 东数西算 在算力调度和整合方面具有优势 类似高铁网和电力调度网 [22] - 美国算力底层在做星际之门 堆20万张卡 但面临散热 能耗 电网冲击等挑战 [22] - 训推一定会分离 训练集群和推理集群将是两个集群 目前训推一体是为了训练削峰填谷 [22] 应用场景拓展 - 边缘云和AI推理云业务将融合 满足云边端不同需求 特别是机器人 自动驾驶等对低时延有要求的场景 [25][26] - 机器人 自动驾驶的实时计算需要毫秒级处理速度 只能使用本地化算力 [24] - 复杂任务如任务拆解 推理 形成代码等需要至少30B参数规模 且Agent会运行在云端 [25] 硬件与软件协同 - 国产算力卡在推理时代迎来发展机会 特别是加了PD分离架构之后 [20] - 硬件软件快速迭代 良性结合推动AI时代加速 端到端垂直整合能力越来越重要 [20] - 多卡融合 多卡兼容解决方案成为普遍趋势 以应对AI芯片卡脖子风险 [21]