推理

搜索文档
过去四周,AI推理爆了,GPU在燃烧,英伟达依旧供不应求
华尔街见闻· 2025-04-27 18:38
投资者情绪与需求变化 - 过去四周投资者情绪因宏观经济和供应链风险恶化 但英伟达GPU核心需求因大型语言模型对推理芯片需求飙升且遍及所有地区 [1] - token生成量自年初以来增长5倍以上 给生态系统带来巨大压力并推动处理工作负载的投资激增 [1] - 多家AI公司报告用户数量爆炸式增长 例如Open Router等API公司因推理软件需求被迫争抢GPU资源 [1] 英伟达芯片供需状况 - 英伟达Blackwell芯片供应受限 尤其是GB200/300型号无法满足爆炸式需求 [2] - Hopper GPU需求有所改善 但云客户5-6年折旧周期导致投资回报率不理想 [2] - 美元上行、供应紧张和出口限制叠加 引发市场对英伟达短期盈利担忧 [2] 摩根士丹利对英伟达的评估 - 摩根士丹利将英伟达目标价从162美元下调至160美元 主要反映同行组整体估值下降而非公司基本面变化 [2] - 截止发稿英伟达股价为111美元 较大摩目标价高45%左右 [2] - 摩根士丹利认为供应限制和毛利率压力影响市场情绪 但对长期增长潜力保持信心 [4] 财务预测调整 - 摩根士丹利将2026财年收入预测上调10.7% 每股收益上调11.9% 并认为这些数字可能仍非常保守 [5]
“人工智能+”行业发展蓝皮书
安泰经管学院· 2025-04-27 14:05
报告行业投资评级 未提及 报告的核心观点 全球正经历由人工智能驱动的“技术 - 经济”范式重构,其影响力超越传统 ICT 技术,与前沿技术产业融合将催生新赛道;报告梳理人工智能发展现状与趋势,剖析其在行业应用中的问题与挑战,为相关部门和企业提供决策参考,探讨其助推传统产业转型升级和引领未来产业创新发展的路径[4] 根据相关目录分别进行总结 引言:全球化视野看人工智能 - 人工智能起源于 1956 年达特茅斯会议,技术范式历经规则、统计、深度神经网络三个阶段,2012 年进入深度学习时代,2017 年 Transformer 架构推动大语言模型发展,其重大突破源于探索精神、基础理论与工程实践的协同[10][11] - 全球 AI 技术呈多极化竞争态势,美、中、欧通过模型研发与政策扶持争夺主导权,如美国“星际之门”项目计划投资 5000 亿美元,欧盟“投资人工智能”倡议调动 2000 亿欧元[15] - 2025 年巴黎人工智能行动峰会呼吁建立全球治理体系,中国积极参与国际对话,倡导技术普惠与风险共担[15] - AI 普及提升生产效率的同时会引发结构性风险和伦理问题,国际学界呼吁加强伦理研究并构建治理框架[16] - AI 可持续发展需兼顾能源效率与社会公平,业界探索绿色计算与低资源算法,普惠应用成关键议题,WTO 报告预测全球均衡应用 AI 可使 2040 年前贸易增速翻倍[17] 第 1 章 AI 算法“大模型”:实现通用智能的重要桥梁 国内外大模型技术发展态势 - 大模型开辟通用人工智能新路线,是科技制高点和中美竞争焦点,OpenAI 引领本轮革命,产品不断突破,2024 年技术迭代爆发[20][21] - 美国 Anthropic、Google、Meta 及 xAI 等企业在大模型领域发力,形成“OpenAI 领跑,Anthropic、Google 和 xAI 追赶,Meta 开源”的竞争态势[22] - 2023 年中国开启“百模大战”,百度、阿里等企业和科研机构推出众多模型,2025 年初 DeepSeek 发布两款模型,突破“算力军备竞赛”模式,重构全球竞争格局[22][24][25] 大模型的核心技术 - Transformer 架构是大模型基石,通过多头注意力机制和位置编码处理序列数据,解决传统 RNN 局限性,在语言和多模态模型中广泛应用[28][30] - 大模型训练分预训练、微调、强化学习三个阶段,预训练学习通用知识,微调适配特定任务,强化学习提升解题能力和输出质量[30][33][34] - 交互提示技术有零样本学习、少样本学习、思维链提示三种模式,提示工程核心技巧是“结构化表达”[37] - 推理时间扩展技术实现从“直觉反应”到“深思熟虑”的转变,包括多步推理迭代、计算资源动态调控、强化学习驱动优化三个创新方向[39] - 知识检索增强、工具调用能力、多专家协同可增强模型专业能力,扩散模型通过逐步去噪恢复原始数据,在 AIGC 多领域广泛应用[43][45][46] 大模型技术发展趋势展望 - 大模型向多模态融合和涌现演进,实现多维信息联合理解与生成,但面临跨模态对齐等技术难关[49] - 大模型需提升高阶推理能力以解决复杂任务,在科学智能和工业智能领域发挥作用,同时期待更多新技术范式加速通用人工智能到来[49][50] 结语 - 大模型是实现通用人工智能的主流路线,全球竞争激烈,中国科研创新力量加速追赶并在部分领域超越,但通用人工智能技术路径未收敛,大模型面临诸多挑战[51] - 中国人工智能发展需技术突破,在国际合作与竞争中找到平衡,全球需开放协作加速通用人工智能实现[52] 第 2 章 AI 数据:驱动智能时代的核心引擎 模型突破推动数据需求升级 - 人工智能模型发展伴随数据需求进化,对数据数量和质量要求提高,“Chinchilla Scaling Law”表明模型参数和数据量应同比例增长[70] - 大模型对数据需求在质量颗粒度、模态、训练数据依赖方面重构,倒逼数据生产链技术升级,包括合成数据崛起、数据价值链重构、隐私与合规技术平衡等[72][74][76] - 学术界对大模型规模化法则有效性产生分歧,垂直领域高质量数据与合成数据可能成数据规模新增长点[80] 驱动因素推动数据生产革新 - 大模型需求倒逼数据生产技术革新,包括自动化标注、合成数据生成、隐私保护等技术,推动数据生产方式从劳动密集型转向技术密集型[81] - 大模型数据处理流程包括去重、提取、清洗过滤、标注增强四个阶段,各阶段相辅相成[82][84][86] - 未来数据生产可能在高保真合成数据生成、零样本标注、去中心化 Data DAO 生态、全球治理与标准化等方面取得突破[87] 技术演进推动数据生态重构 - 全球人工智能数据产业形成多层次协同体系,数据生态从线性供应链向网状价值网演进,2023 年全球数据交易规模约 1261 亿美元,预计 2030 年达 3708 亿美元[89] - 数据开源使获取方式更便捷,开源平台向全栈生态升级,形成“数据生产 - 开放共享 - 标准反哺”正向循环[90][91] - 全球数据生态经历技术与监管博弈,合规约束成为驱动技术和生态发展的核心变量,企业设立独立数据资产管理部门推动数据集生态向价值创造转变[93] 全球竞争推动数据战略迭代 - 数据主权和标准主导权成为大国科技竞争关键,中、美、欧采取不同策略,国际竞争重点从技术转向标准制定[94][95] - 全球数据交易活跃,政策推动国内数据市场建设,技术在可信流通、融合计算、隐私计算等方面取得进展,推动数据要素开放协作[97] - 面对数据竞争,需从数据主权、产业发展、生态构建三方面入手,实现国产技术自主可控,推动产业创新和国际标准制定[98] 结语 - 数据是 AI 时代核心燃料和战略资源,中国需发挥数据要素作用,实现从“数据大国”到“数据强国”的转变,但面临制度、技术和安全等问题[100]
内存压缩技术新突破,提高AI推理效率!
半导体芯闻· 2025-04-25 18:19
如果您希望可以时常见面,欢迎标星收藏哦~ 来源:内容编译自 eetimes ,谢谢。 ZeroPoint Technologies 和 Rebellions 旨在开发一种 AI 加速器,以降低 AI 推理的成本和功耗。 据称,ZeroPoint Technologies 的内存优化技术能够快速压缩数据、增加数据中心的内存容量并提 高每瓦的 AI 推理性能。 2025年4月,瑞典内存优化知识产权(IP)供应商ZeroPoint Technologies(以下简称ZeroPoint) 宣布与Rebellions建立战略合作伙伴关系,共同开发用于AI推理的下一代内存优化AI加速器。该 公司计划在 2026 年发布一款新产品,并声称"有望实现前所未有的代币/秒/瓦特性能水平"。 作为合作的一部分,两家公司将使用 ZeroPoint 的内存压缩、压缩和内存管理技术来增加基本模 型推理工作流程的内存带宽和容量。 ZeroPoint 首席执行官 Klas Moreau 声称其基于硬件的内存 优化引擎比现有的软件压缩方法快 1,000 倍。 ZeroPoint 的内存压缩 IP 价值主张 首先,压缩和解压缩。其次,压缩生成的 ...
卓驭科技接入通义大模型,联合打造端到端世界模型
阿里云· 2025-04-24 17:13
公司动态 - 卓驭科技宣布接入通义大模型并基于阿里云打造端到端世界模型 [1] - 公司大数据等核心业务系统已接入阿里云 [1] - 卓驭科技总经理沈劭劼与阿里云智能集团副总裁李强共同推动合作 [2] 技术突破 - 端到端世界模型引入强化学习和思维链推理技术 [2] - 模型将城市领航辅助安全性提升一个层级 [2] - 支持千人千面驾驶风格和自然语言交互控制驾驶行为 [2] - 具备复杂场景慢推理的智能化体验 [2] 算力优化 - 采用预训练+后训练结合方式,以"天"为单位迭代 [2] - 基于阿里云PAI平台打造多种GPU融合的算力资源池 [2] - 数据流动和管理成本显著降低 [2] - 模型训练效率相比单GPU集群提升50%以上 [2] - GPU利用率提升至95%以上 [2] 业务进展 - 大数据系统和智能制造核心业务全面搬上阿里云 [2] - 研发领域接入通义灵码和通义千问加速开发 [2] - 代码采纳率达到29% [2]
倒计时 6 天!致全球 GPU Kernel 极客:AMD 的 10 万美金“战书”请查收!
AI科技大本营· 2025-04-24 17:09
-I CSDN I- 2025.06.08 100.000美金 共赴硅谷巅峰之战! 注册报名二维码 致全球GPU kernel极客的一封战书: 亲爱的GPU kernel极客们, 是时候展现真正的实力了!我们诚挚邀请您参加由AMD发起并全程赞助的AMD 2025推理优化挑战赛!这是一个面向全球GPU kernel开发者的盛大赛事,AMD 倾力打造,邀您以代码为刃,挑战Al推理性能极限! 战,你能 斩获 什么? CSDN 智算极速争锋 AM D 2025 推理优化挑 2025.04.15 AMDA × FHE × 6 together we advance 破局时刻表 出名户站 2025 / 15 年日期期货 · 无需本地GPU! 云端算力平台,公平竞技,专注底层算子优化 ( low-level kernel ) 即可参赛! ● 单人亮剑或组队出征(≤3人),无国籍限制。 · 通过AMD官方验证后, 绑定GitHub ID解锁参赛权限。 ● 挑战优化三重DeepSeek算子:FP8 GEMM,MLA with Rope,Fused MoE。 ● 每两周一组,开放PyTorch参考实现及理论最大值性能等辅助开发的 ...
腾讯、华为、微软、阿里专家齐聚一堂,共谈推理优化实践 | AICon
AI前线· 2025-04-23 15:28
在人工智能快速演进的浪潮下,大模型正加速重构各行业的技术底座,而 推理性能优化 正成为应对 算力挑战、内存瓶颈与通信压力的关键突破口。 当前,大模型推理性能优化主要围绕 模型优化、推理加速与工程优化 三大方向展开:通过模型量 化、剪枝与蒸馏等手段降低计算复杂度、提升推理效率,例如 DeepSeek-R1-Distill-Qwen-32B 采用 蒸馏策略,在保持高性能的同时显著压缩资源开销;依托 SGLang、vLLM 等高效推理引擎提升生成 速度与系统吞吐能力;同时结合实际业务场景,合理规划并发策略、优化 GPU 配置,打造具备高可 用性与扩展性的推理服务体系。 在即将于 5 月 23 日 -24 日举办的 AICon 全球人工智能开发与应用大会·上海站 中,我们特别策划了 《大模型推理性能优化策略》专题论坛,由阿里云公共云大模型技术服务负责人 王德山 担任专题出 品人,现已确认多位业内实践者参与分享。以下为嘉宾阵容及即将带来的精彩议题简介~ 向乾彪 – 腾讯推理架构师 姜慧强专注于高效推理和训练方法的探索。在多项国际顶级会议上发表过高水平论文,他的研究领域 涵盖动态稀疏注意力、KV 缓存优化、提示压缩等前沿 ...
腾讯、华为、微软、阿里专家齐聚一堂,共谈推理优化实践 | AICon
AI前线· 2025-04-23 15:28
大模型推理性能优化技术方向 - 大模型推理性能优化围绕模型优化、推理加速与工程优化三大方向展开 [3] - 模型优化手段包括量化、剪枝与蒸馏,例如DeepSeek-R1-Distill-Qwen-32B通过蒸馏策略显著压缩资源开销 [4] - 推理加速依赖SGLang、vLLM等高效引擎提升生成速度与系统吞吐能力 [4] - 工程优化需结合业务场景规划并发策略与GPU配置,构建高可用推理服务体系 [4] 腾讯混元AngelHCF框架实践 - 腾讯推理架构师向乾彪将分享混元大语言模型的推理加速框架AngelHCF [5] - AngelHCF在算子设计、通信优化、架构调整方面取得显著成本与性能优势 [6] - 关键技术包括混元Turbos Hybrid推理优化、Mamba Hybrid模型结构创新 [6] - 通过Kernel/显存/KVCache优化降低资源消耗,并采用超大规模MoE模型并行策略缓解通信瓶颈 [6][7] - 智能调度与计算通信重叠策略确保大规模推理环境高效运行 [7] 华为昇腾推理技术优化 - 华为昇思AI框架开发者张君将探讨大模型推理加速的算子融合、量化及Attention容量压缩技术 [9] - 通过昇腾硬件加速库ATB、图编译技术TorchAir实现模型层/框架层/算子层协同优化 [10] - 动态批处理技术与前沿融合算子设计最大化硬件资源效率 [10] 微软KV缓存长文本优化 - 微软姜慧强聚焦KV缓存优化,解决长文本推理的计算与内存压力 [13][14] - 围绕KV缓存生成、压缩、检索环节优化,并引入SCBench基准测试工具对比性能 [14] - 对比主流LLM供应商的KV缓存技术差异,展望长文本推理未来方向 [15] 阿里云跨层优化实践 - 阿里云李元龙分享从Transformer前向传播到硬件加速的全链路优化 [17] - 整合PyTorch动态图编译、算子优化与CUDA并行计算策略 [17] - 采用动态计算图与稀疏激活模式突破算力瓶颈 [18] AICon大会其他亮点 - 活动涵盖多模态、Agent、端侧智能等前沿技术 [23] - 包括AI原生产品落地、多领域Agent应用、硬件终端创新及多模态大模型实践 [24][25][26] - 50+行业专家解析大模型最新进展 [27]
特赞科技创始人范凌:如何让AI像一群“小黄人”一样默默耕耘?
混沌学园· 2025-04-22 19:31
核心观点 - AI并非真正创造内容,而是以更低成本复制人类的创造能力 [2] - 实现人类与AI高效协作将创造持续商业机会 [2][94] - 内容控制权在平台而非创作者手中,平台决定内容生产、传播和上架 [12][14] 内容平台演进 - 内容平台从早期桌子、报纸发展到广播、电视、电脑和手机 [19] - 智人通过"八卦"口耳相传战胜其他古人类物种 [19] - 平台演进导致内容碎片化、多样化和个性化 [19] AI技术发展 - 生成式AI每两年提升10倍像素生成能力 [23] - 2029年可生成完整电视节目,2031年可生成AI电影 [23] - AI从表达转向思考,如DeepSeek透明化思考过程 [25][78] - 大语言模型让主观世界变得可计算 [64] 内容生产模式 - 内容分为0到1(品牌文化)和1到无穷(转化型)两类 [32][33] - AI应提升1到无穷内容效率,让人专注0到1内容 [34] - 创作者面临预算低、质量好、时间短的不可能三角 [27] - 品牌纠结于做叫卖型内容还是文化型内容 [28] 行业应用案例 - 快消公司用AI分析客户反馈实现产品创新,将开发周期从2年缩短 [37] - 咖啡企业通过内容工厂每天生产4000条视频,单条成本仅一杯速溶咖啡 [39][41][45] - 奢侈品品牌用AI为导购提供创作范例和质量评估 [49] - 电动车品牌运营5000个社媒账号,每天发布5000条不同内容 [45] 内容运营链路 - 企业内容运营涵盖5大场景13条链路 [60] - 包括电商、门店、私域、社媒和海外内容链路 [60] - 智能体在质量监控和内容审核中发挥重要作用 [61][62] 商业智能体应用 - atypica.AI通过多智能体协作完成商业分析任务 [65][72] - 演示案例包括罗技鼠标选题、消费降级分析和无醇葡萄饮营销策划 [71][74][76] - 智能体协作过程涉及9个AI角色,53个步骤,64万token [74] AI对企业影响 - AI将带来企业根本性转型而非仅降本增效 [84] - 中国在AI应用领域可能成为全球解决方案提供者 [84] - 不同行业AI投资回报周期不同,美妆行业回报较高 [84] - AI时代个人可选择成为"打工人"或"经营者" [86][89] 人机协作 - "脑机比"概念关注人类与AI工具协作关系 [91] - AI普及面临能力、意愿和信任三重挑战 [94] - 信任感可能瞬间形成,如Waymo无人驾驶体验 [94]
前百度AI大牛亲述:押注十年,踩坑无数后,签下200家三甲医院
创业邦· 2025-04-21 10:45
医疗科技行业现状 - 医疗领域因数据壁垒高、场景复杂、容错率低成为技术落地的难点,但蕴含巨大商业和社会价值[3] - 行业当前处于AI医生热潮,各企业采用不同技术路线"八仙过海"[23] - 医疗信息化市场内卷加剧,医院因收入下降对信息化投入更谨慎,部分厂商采取免费送软件策略[26] 左医科技公司概况 - 成立于2016年,由前百度NLP负责人张超创立,专注知识图谱与医疗大模型协同[3][5] - 客户覆盖全国200多家三甲医院,其中40%为top100医院,包括北京协和等顶尖机构[5] - 当前商业化重心从B端转向C端,B端聚焦高毛利标准化产品,C端探索会员订阅和健康产品推荐[26][30] 技术路线演进 - 2020年首次将Transformer用于医患对话开发AI Doctor,显著提升交互体验[9][13] - 尝试GPT-2微调遇成本瓶颈,后转向开源模型,最终选择通义千问作为基座模型[14] - 2023年发布医疗垂类大模型,落地四川省人民医院等百强医院[14] - 2024年推出端到端AI Agent,整合CoT推理/工具调用等能力,诊断效果提升15%[16][18] 核心产品与落地 - "重儿·小乙AI家庭医生"在重庆医科大学附属儿童医院落地,集成循证知识库/报告识别/挂号等服务[21] - 儿科循证知识库基于国内外指南/专家共识构建,专业团队核验,单篇论文仅提取10条高价值数据[21] - 与宁夏/北京等地卫健委合作推出"AI家医",通过B端带动C端积累流量[27] 数据壁垒构建 - 数据清洗需反复调整如"和面",关键know-how来自实操积累的"错题集"[20] - 数据来源包括互联网/真实医患对话/诊断生成数据,经专家筛选保留1%高价值信息[21] - 病历数据处理需删除病理解释部分防止模型"漏题"[20] 商业化战略调整 - B端保留预问诊/分导诊/语音转写等高标准化产品,目标90%以上毛利率[26] - C端采用会员订阅制,未来计划基于交互数据推荐健康产品[30] - 聚焦诊前诊中场景,因诊后慢病管理商业闭环难建立[31] 行业趋势判断 - 垂直模型价值在于专有数据壁垒,但通用模型迭代将压缩其生存空间[16] - 医疗AI落地三形态:提示词/工作流/端到端,后者能突破人类能力限制[18] - 医院需求更倾向低错误率、稳定供应的技术而非"满血"性能[36]
AI动态跟踪系列(六):OpenAIo3、豆包新品首发,关注原生Agent与多模态推理
平安证券· 2025-04-17 21:10
报告行业投资评级 - 强于大市(维持) [1] 报告的核心观点 - 近期新模型解题思路在思维链CoT基础上更重视模型原生Agent能力和多模态推理能力,全球大模型领域竞争激烈,看好AI主题投资机会 [3][34] - 当前Agent在企业端落地进度靠前,AI应用关注OA/ERP/编程/办公等领域,Agent拉动推理端及整体算力需求,看好国产AI算力产业链 [3][34] 根据相关目录分别进行总结 OpenAI o3、o4 - mini新增图像深度思考与Agent能力,Codex CLI智能体开源推动AI编程生态开放 - 4月17日OpenAI发布o3和o4 - mini,是其迄今最智能模型,核心突破在于图像深度思考和Agent能力 [3][4] - o3是强大推理模型,在多方面推动前沿发展,在多个基准设新SOTA,困难现实任务重大错误比o1少20% [5] - o4 - mini针对快速、经济高效推理优化,在数学、编码和视觉任务表现好,非STEM任务及数据科学领域优于o3 - mini [5] - 图像推理方面,o3和o4 - mini首次在思维链中用图像思考,实现高级推理与多工具无缝结合,o3提供多模态代理体验 [9] - Agent方面,o3和o4 - mini可访问ChatGPT工具及自定义工具,能推理解决问题并快速生成答案 [10] - o3和o4 - mini性价比高于前身,预计实际使用更智能、便宜 [12] - OpenAI发布轻量级编程智能体Codex CLI,支持零配置启动,运行安全,可让用户从命令行体验多模态推理 [15] 豆包1.5·深度思考模型对标全球推理模型第一梯队,视觉理解模型实现更强视觉定位能力 - 4月17日火山引擎发布豆包1.5·深度思考模型等新品,推理模型性能达或接近全球第一梯队,增加视觉理解能力,APP可“边想边搜” [3][17] - 多模态方面,豆包·文生图模型3.0在权威榜单排全球第一梯队,新版本豆包·视觉理解模型视觉定位和视频理解能力提升 [17][28] - 企业级服务方面,发布OS Agent、GUI Agent大模型(豆包1.5·UI - TARS)和AI云原生·ServingKit推理套件 [17] - 截至2025年3月底,豆包大模型日均tokens调用量超12.7万亿,是2024年12月的3倍、发布时的106倍,2024年火山引擎公有云大模型调用量市场份额46.4%居中国第一 [18] - 豆包1.5·深度思考模型采用MoE架构,总参数200B,激活参数20B,有高并发承载能力和20毫秒极低延迟 [21] - 豆包APP基于该模型定向训练实现“边想边搜”,如推荐露营装备经3轮搜索给出细致推荐 [24] - 该模型具备视觉理解能力,可用于国外餐厅点餐、分析航拍地貌、企业项目管理等 [27] - OS Agent解决方案可让企业和开发者构建轻量级应用,复杂应用可调用豆包1.5·UI - TARS模型,该模型已上线火山方舟平台 [32] - ServingKit推理套件可助企业快速部署模型、优化推理、运维可观测,能提高KV cache命中率和TPS吞吐量,降低GPU消耗 [33] 投资建议 - AI应用方面,AI + 企服建议关注泛微网络、致远互联等;AI + 办公推荐金山办公、福昕软件等,建议关注合合信息 [3][34] - AI算力方面,推荐海光信息、龙芯中科等,建议关注寒武纪、景嘉微等 [3][34]