Workflow
大模型推理
icon
搜索文档
腾讯云总裁邱跃鹏:腾讯云已全面适配主流国产芯片
新浪科技· 2025-09-16 11:26
AI基础设施升级 - 腾讯云通过异构计算平台整合多种芯片资源提供高性价比AI算力 并全面适配主流国产芯片[1] - 大模型产业重心从训练转向推理 客户对Agent应用热情推动推理需求暴涨[3] - 自研FlexKV多级缓存技术将首字时延降低70% 对话时延降低57%[4] - 集成多token联合预测技术使生成速度提升35% 注意力数据并行功能使吞吐量提升30%[4] - MoE-Chunk技术支持超过256K超长输入 适用于长文档分析和复杂代码生成场景[5] 全球化基础设施布局 - 云基础设施覆盖全球55个可用区 部署3200多个加速节点 为超1万款游戏提供安全防护[1][10] - 在日本大阪和沙特新建可用区 全球设立9个技术支持中心 获得400多项专业认证[1][14] - 自研星星海服务器全球累计部署核数超2亿 旗舰SA9单机规格提升至768核[9] - 防护容量达25T(同比增长70%) 带宽储备达400T(同比增长100%)[13] 企业级解决方案创新 - 推出Agent Runtime解决方案 集成执行引擎/云沙箱/安全服务 提供100毫秒极速启动支持数十万实例并发[6] - 云沙箱通过MCP/SDK/API多种方式接入 具备严格身份权限管理和数据安全防护[6] - 专家服务智能体Cloud Mate集成超90%腾讯云产品 提供超100万次智能架构治理服务[7] - Cloud Mate对风险SQL拦截率达95% 累计检测超770万行代码 平均排障时间从30小时缩短至分钟级[8] 客户实践与性能提升 - 完成印尼GoTo集团超大规模迁移 管理1亿注册用户/10000台云主机/730+数据库实例/1000+微服务[13][14] - 5个月建成印尼第三可用区 交付500+定制化需求 进行5轮全链路演练[14] - 新一代TDSQL数据库在复杂查询场景下总时延下降80% 专有云TCE达到RTO 2分钟容灾能力[9] - EdgeOne Pages产品上线3个月助力超10万用户出海 互动直播组件客户数增长超300%[11][12] 行业领导地位与技术贡献 - 与AWS/Google/Microsoft同被评为全球游戏云平台领导者[10] - 深度参与开源社区 向DeepSeek/vLLM/SGLang提交优化技术[1] - 优化DeepEP使IB网络性能提升30% RoCE网络性能翻倍[3] - 支撑国家级活动8000万观众同时在线直播 保障亚太超一半正版英超直播[13]
劲爆!高盛上调寒武纪目标价1835元,“寒王”市值超五粮液股价超茅台?85后创始人陈天石身价超1500亿,大佬章建平火了!
搜狐财经· 2025-08-25 10:37
股价表现 - 寒武纪上周五涨停后股价达1243元 为A股第二高价股 仅次于贵州茅台 [1] - 公司市值超5200亿元 超过美的集团 五粮液 东方财富 浦发银行 中信证券 恒瑞医药等知名企业 [1] - 自7月11日以来股价累计暴涨137% 2023年以来从不足50元飙升至1243元 最大涨幅超25倍 [3] - 高盛将目标价上调50%至1835元 潜在市值接近7700亿元 [3] 市场驱动因素 - 英伟达暂停H20芯片生产催化国产AI芯片替代需求激增 [5] - DeepSeek-V3.1正式发布并适配国产芯片架构 打开国产芯片想象空间 [5] - 国内云厂商和互联网大厂对自主可控AI芯片需求快速增长 [5] - 本土大模型快速发展带动高性能AI推理芯片旺盛需求 [5] 公司竞争优势 - 被称为"中国英伟达" 在AI芯片架构设计和软硬件协同优化方面具有技术积累 [5] - 定增申请获上交所审核通过 39.85亿元募资将投入大模型芯片及软件平台建设 [5] - 创始人陈天石持有29.63%股份 市值达1541亿元 [5] 资金动向 - 游资章建平持续加仓至608.63万股 持股1.46%跻身第七大股东 [6] - 当前持股市值75.66亿元 以均价计算浮盈超40亿元 [6]
"六边形战士"GPU公司完成亿元新融资
是说芯语· 2025-08-24 09:39
融资与资金用途 - 公司完成近亿元B2轮融资 由飞图创投领投[2] - 资金将重点投入RPP芯片产业化推进 核心技术研发升级以及边缘计算和AI芯片推理市场拓展[2] - 公司曾在今年3月完成数千万元B1轮融资 由长石资本领投 达泰资本 江门长信 硕明等机构跟投[2] 公司背景与研发布局 - 公司成立于2017年 已在珠海 深圳 西安及美国设立研发中心[2] - 经过8年持续技术研发与产品迭代 建立起完整AI计算产品矩阵[3] 核心技术架构 - 自主研发可重构并行处理器架构(RPP)专为并行计算设计[4] - RPP架构具有生态兼容性和超高能效并行计算能力 打破高性能芯片与通用芯片界限[4] - 底层兼容CUDA编程语言和多种开发工具 实现边缘AI应用快速高效部署[4] - 融合GPGPU通用性与NPU高效计算能力 在大模型推理 计算机视觉等领域具有优势[4] 产品特性与商业化进展 - RPP-R8芯片已在AI PC 医疗检测 存储服务器等多个领域实现商业化落地 与联想等头部企业建立深度合作[6] - RPP-R8 AE7100E芯片是业界最小最薄GPGPU 功耗控制在10W以下 适配Qwen Llama Stable Diffusion等主流大模型[6] - AI芯片AE7100尺寸为17mm × 17mm 集成该芯片的M.2加速卡尺寸为22mm x 88mm[6] - M.2加速卡拥有32TOPS算力及60GB/s内存带宽 可动态控制功耗 支撑大模型在笔记本电脑等设备运行[6] - 已适配DeepSeek Llama3-8B Stable Diffusion 通义千问 BitNet等开源模型[6] 战略发展方向 - 公司将围绕打造自有产权高端通用型芯片的发展方向前行[7]
寒武纪涨停总市值超5200亿!即将超越贵州茅台成为新股王?
搜狐财经· 2025-08-22 15:00
股价表现 - 截至14时44分股价报1243.20元 较前一交易日大涨20.00% [1] - 成交额达160.90亿元 市值超5200亿元 [1] - 自7月25日收盘以来累计涨幅达107.12% 盘中创1243.2元区间新高 [1] 市场驱动因素 - 国产替代加速 国内云厂商和互联网大厂对自主可控AI芯片需求快速增长 [1] - 大模型推理需求爆发 本土大模型发展带动高性能AI推理芯片需求 [1] - 技术实力获市场认可 被赋予"中国英伟达"称号 [1] 公司动态 - 2025年度向特定对象发行A股申请获上交所审核通过 已提交证监会注册 [2] - 发布澄清公告 明确网传载板订单/收入预测/新产品信息均为不实信息 [2] - 强调不存在应披露未披露重大事项 经营情况正常 [2] 行业前景 - 处于AI产业风口 国产替代和大模型需求双重驱动 [2] - 行业景气度提升 公司作为AI芯片龙头持续受益 [1][2]
DeepSeek引爆国产AI芯片:寒武纪、华胜天成、和而泰三大龙头热度爆棚,5000亿“寒王”市值超五粮液
金融界· 2025-08-22 14:50
DeepSeek-V3.1 发布及技术升级 - 混合思考模式、更高思考效率和更强智能体能力三大核心升级 [1] - 采用UE8M0 FP8 Scale技术 支持下一代国产芯片生态 [2] - 国产AI生态实现全环节闭环:国产AI芯片-国产开源模型-下游应用 [2] 寒武纪市场表现及驱动因素 - 股价盘中最高1240元 单日涨幅超19% 市值突破5000亿元 [3] - 成交额超130亿元 市场交投异常活跃 [3] - 自去年924以来累计涨幅超460% 近一个月实现股价翻倍 [4] - 受益国产替代加速、大模型推理需求爆发及技术实力认可三大因素 [4] 华胜天成业务亮点及市场表现 - 作为华为昇腾芯片合作伙伴 深度参与智算中心建设 [6] - 天津人工智能计算中心项目投资8.6亿元 将提供300P算力 [6] - 持有物联网芯片公司泰凌微9.92%股权 [6] - 近一个月最大涨幅达130% 本轮行情涨幅超2倍 [6] 和而泰投资布局与业务发展 - 持有国产GPU厂商摩尔线程1.244%股份 [8] - 摩尔线程为首个支持原生FP8的国产GPU厂商 启动科创板IPO [8] - 智能控制器业务覆盖汽车电子、储能及AIoT三大领域 [8] - 自去年924以来涨幅达300% 单日成交额超50亿元 [8]
大华股份(002236):服务器业务有望开启新增长点
华泰证券· 2025-08-19 10:04
投资评级 - 维持"买入"评级,目标价28.56元人民币[1][6] - 基于2025年24.4倍PE估值(可比公司均值),较当前股价18.19元存在56.9%上行空间[1][6][19] 核心观点 - 服务器业务成为新增长引擎:1H25中标中国移动AI推理服务器、南方电网等集采项目,合计金额或超10亿元,构建从训练到推理的全场景算力解决方案[9][12] - 大模型推理需求爆发:国内日均token消耗量达30万亿(1年半增长300倍),Google月均token调用量960万亿,驱动算力基础设施需求[9][13] - 1H25业绩表现:营收151.81亿元(yoy+2.12%),归母净利24.76亿元(yoy+36.8%),经营性现金流6.39亿元创上市同期新高[8][15] - 创新业务高速增长:1H25营收30.23亿元(yoy+22.83%),子公司华睿科技拟分拆赴港上市[10][16] 业务分析 服务器业务 - 技术适配:深度适配DeepSeek-R1/V3系列大模型,鲲鹏服务器主频2.5GHz,性能领先业界15%,能效比领先60%[12] - 产品矩阵:GS4498-G02(云端中心算力)、GS2298(推理应用)、DH-RS2297系列(24-64核配置)形成完整解决方案[12][13] 分业务表现 - G端业务:1H25营收18.51亿元(yoy+4.68%),公共民生/交管领域表现突出[10][16] - B端业务:1H25营收42.19亿元(yoy+8.17%),央国企订单强劲但中小企业下滑超10%[10][16] - 海外业务:1H25营收76.28亿元(占比50.25%),关税影响致增速放缓至1.91%[10][16] 财务预测 - 收入调整:2025-2027年营收预测下调至332.75/351.65/380.02亿元(原344.92/378.24/421.31亿元)[6] - 盈利预测:2025-2027年EPS 1.17/1.18/1.28元,对应PE 15.6x/15.4x/14.2x[5][6] - 盈利能力:1H25毛利率回升至41.61%,2025E ROE提升至9.83%[5][8][24] 行业比较 - 可比公司估值:海康威视/视源股份/浪潮信息2025E平均PE 24.4倍,大华股份15.6倍存在折价[19] - 算力产业趋势:国家数据局统计显示AI算力需求呈指数级增长,服务器本地化替代加速[9][13]
链式思维是幻象吗?从数据分布视角重新审视大模型推理,马斯克回复,Grok破防
机器之心· 2025-08-14 17:11
思维链(CoT)提示技术的本质 - 核心观点:CoT提示技术生成的推理链条可能并非真正的逻辑推理,而是对训练数据分布内模式的复现,当输入任务与训练数据分布存在差异时,推理链条会迅速失效[2][10] - 典型例证:模型回答「美国建国年是否为闰年」时,推理步骤正确但结论自相矛盾,显示其仅复述逻辑规则而非实际应用[10] - 性能提升来源:CoT效果主要依赖表层语义匹配,问题改写或引入无关内容会导致表现显著下降[11] 数据分布视角的理论框架 - 结构性归纳偏差:CoT有效性源于模型对训练数据中常见模式的复现,而非真实逻辑推演[13] - 理论公式:通过分布差异指标量化推理性能受分布偏移的影响,公式显示测试风险与训练风险、分布差异及样本量相关[15] - 实验验证:分布偏移时模型准确率从100%骤降至0.01%,全新变换下性能几乎完全丧失[23] 可控实验平台与泛化性测试 - 数据炼金术框架:从零训练语言模型,通过字母原子序列和ROT/循环平移变换构建可控任务,精确生成标准推理链以评估差异[18][19][21] - 任务泛化:变换顺序重组或新字母组合导致准确率暴跌,监督微调仅扩展分布边界而非提升抽象能力[23][24] - 长度泛化:输入序列长度或推理步数微小变化即引发表现显著下降,模型通过增减词元凑长度[26] - 格式泛化:提示格式扰动(如元素/变换部分修改)即使逻辑不变也可导致推理失败[28] 普遍性与现实意义 - 普遍脆弱性:不同采样温度和模型规模下CoT对分布偏移的敏感性一致,表明此为普遍现象而非个别特性[31] - 应用警示:高风险领域(医疗/金融/法律)需警惕流畅但逻辑错误的推理链误导性,评测需引入严格分布外测试[34][35] - 发展建议:需正视CoT泛化瓶颈,平衡分布内优势与评测部署的谨慎性[37][38]
华为发布AI推理新技术 中国银联大模型效率提高125倍
21世纪经济报道· 2025-08-14 07:10
技术发布 - 华为发布AI推理创新技术UCM 专门优化大模型推理过程的缓存管理技术 旨在提升推理速度 效率和成本效益 [1] - UCM是以KV Cache为中心的推理加速套件 融合多类型缓存加速算法工具 分级管理推理过程中产生的KV Cache记忆数据 扩大推理上下文窗口 实现高吞吐 低时延体验 [1] - 技术通过推理框架 算力 存储三层协同 包含推理引擎插件 功能库和高性能存取适配器三大组件 [3] 性能提升 - UCM依托层级化自适应的全局前缀缓存技术 使首Token时延最大降低90% [3] - 在中国银联试点应用中 大模型推理速度提升125倍 仅需10秒即可精准识别客户高频问题 [4] - 国外主流模型单用户输出速度达200Tokens/s(时延5ms) 而国内普遍小于60Tokens/s(时延50~100ms) [3] 行业应用 - 华为联手中国银联在金融典型场景开展UCM技术试点应用 联合发布智慧金融AI推理加速方案 [1] - 金融行业因数字化属性强 对速度 效率 安全 可靠性要求高 成为验证技术的标杆场景 [4] - 中国银联将依托国家人工智能应用中试基地 联合华为等生态伙伴共建"AI+金融"示范应用 推动技术成果规模化应用 [4] 技术优势 - UCM将专业存储能力引入分级缓存管理 在软硬件协同与卸载方面做了大量工作 如直通加速 KV检索索引与底层文件系统元数据融合 [6] - 具备KV Cache生命周期管理的完整机制 包括预热 分级 淘汰等功能 [6] - 算法加速库超越业界普遍的Prefix Cache层面 商用稀疏全流程算法和后缀检索算法 提供更丰富可靠的技术手段 [6] 生态发展 - UCM通过开放统一的南北向接口 适配多类型推理引擎框架 算力及存储系统 将于今年9月正式开源 [7] - 华为希望促进框架厂商 存储厂商和算力厂商共同加速框架机制成熟 解决AI行业落地过程中的效率与成本问题 [7] - 公司强调从单点算力模组转向网络 存储 端到端的系统性优化 以有效加速AI落地 [7]
大模型推理需求爆发催化推理算力占比上升,科创半导体ETF(588170)开盘冲高大涨1.40%!
每日经济新闻· 2025-08-13 10:33
指数表现与ETF动态 - 上证科创板半导体材料设备主题指数截至2025年8月13日09点56强势上涨1.57% [1] - 成分股中船特气上涨20.01% 上海合晶上涨8.36% 金宏气体上涨4.94% 中巨芯和沪硅产业等个股跟涨 [1] - 科创半导体ETF(588170)上涨1.40% 最新价报1.09元 近1月累计上涨4.09% [1] - ETF盘中换手率7.74% 成交额3385.34万元 近1月日均成交5408.33万元 [1] - 近1周规模增长589.47万元 份额增长600.00万份 但最新资金净流出425.17万元 [1] 算力市场发展趋势 - IDC预测到2027年中国智能算力中推理算力占比将从2023年41%上升至72.6% [2] - 大模型服务调用量和推理计算量将翻倍 基础设施重心向推理偏移 [2] - 国内AI领域资本开支有望保持较快增长 [2] 半导体产业政策环境 - 国家网信办于2025年7月31日约谈英伟达公司 要求就H20算力芯片漏洞后门安全风险问题进行说明 [2] - 中国加速构建安全可控算力基座 华为昇腾为代表的国产算力芯片及供应链迎来发展机遇 [2] 半导体ETF投资价值 - 科创半导体ETF(588170)跟踪上证科创板半导体材料设备主题指数 覆盖半导体设备(59%)和材料(25%)领域 [3] - 半导体材料ETF(562590)同样聚焦半导体设备(59%)和材料(24%)上游环节 [3] - 行业具备国产化率较低和国产替代天花板较高属性 受益于AI革命需求扩张和技术进展 [3]
对话后摩智能CEO吴强:未来90%的数据处理可能会在端边
观察者网· 2025-07-30 14:41
公司动态 - 后摩智能在WAIC 2025首次展示M50系列芯片,包括M50芯片、力谋®BX50计算盒子、力擎LQ50 Duo M2卡等核心产品 [1] - M50芯片专为大模型推理设计,面向AI PC和智能终端场景,实现160TOPS INT8、100TFLOPS bFP16物理算力,搭配48GB内存和1536GB/s带宽,典型功耗仅10W [4] - 公司已启动下一代DRAM-PIM技术研发,目标突破1TB/s片内带宽,能效提升三倍,推动百亿参数大模型在终端设备普及 [9] 产品技术 - M50芯片支持1.5B到70B参数的本地大模型运行,具有"高算力、低功耗、即插即用"特点 [4] - 力擎LQ50 Duo M2卡采用标准M2规格,为AI PC和陪伴机器人提供即插即用的端侧AI能力 [4] - 公司通过存算一体技术实现AI大模型"离线可用、数据留痕不外露"的特性 [4] - 2024年初公司推出优化版M30芯片,针对大模型进行调整 [7] 市场战略 - 公司定位端边AI计算市场,CEO认为未来90%数据处理将在端和边完成 [1] - 意向客户包括联想的AI PC、讯飞听见的智能语音设备、中国移动的5G+AI边缘计算设备 [8] - 重点布局消费终端、智能办公、智能工业三大领域,包括平板电脑、智能语音系统、运营商边缘计算等场景 [8] - 将机器人视为新兴垂直赛道,类比十年前的智能驾驶市场 [8] 行业趋势 - 大模型发展呈现从训练向推理迁移、从云端向边端迁移两大趋势 [1] - 端边AI具有实时响应、低成本、数据隐私和用户体验优势,预计将成为未来趋势 [7] - 5G+AI边缘计算被视为重要发展方向 [8] - 公司CEO提出"让大模型算力像电力一样随处可得"的愿景 [5]