Workflow
推理
icon
搜索文档
高通收购Alphawave:杀回数据中心市场胜算几何?
21世纪经济报道· 2025-06-16 20:36
高通收购Alphawave的战略布局 - 高通宣布收购半导体IP公司Alphawave,交易隐含企业价值约24亿美元,预计2026年Q1完成 [1] - 收购旨在加码数据中心市场竞争力,Alphawave的高端接口IP是进入AI芯片市场的重要砝码 [1] - 此次收购是继2021年收购Nuvia后,高通完善数据中心能力闭环的又一举措 [1] Alphawave的业务表现与技术优势 - 2024财年营收3.08亿美元(同比下滑4%),但预订额5.2亿美元(同比增长34%),毛利率59%(增长8个百分点) [2] - 已完成向核心数据中心业务转型,数据中心增长抵消了中国市场传统业务收入下滑 [2] - 在半导体设计IP市场排名全球第四,市场份额3.2%,专注于连接类IP产品 [3] - 通过IP、定制芯片、连接产品和chiplet业务解决AI加速器的连接带宽瓶颈 [3] 高通数据中心战略的演进 - 2017年推出基于Arm架构的Centriq 2400服务器处理器但折戟,主要因Arm生态未成熟 [5] - 2021年以14亿美元收购数据中心CPU公司Nuvia [5] - 2025年Computex宣布重返数据中心市场,与英伟达NVLink和沙特Humain公司合作 [6] - 计划结合Cloud AI 100推理加速器和Oryon架构CPU,2025年推出新服务器芯片 [7] 市场机会与竞争格局 - 数据中心向定制化CPU转变,AI推理需求快速增长推动高性能、低功耗计算需求 [2] - 高通可能采取两条路径:推出Arm架构处理器直接竞争,或学习博通的芯片设计服务模式 [4] - Oryon CPU架构的高效能解决方案将在数据中心市场与英伟达、AMD和英特尔竞争 [8] - Arm生态因亚马逊Graviton等产品的推动已变得更成熟,为高通创造机会 [7]
云天励飞-U:推理需求攀升 卡位国产化AI算力机会
证券时报网· 2025-06-16 19:28
公司业绩与业务调整 - 2024年度公司实现营业收入9.17亿元,归属净利润-5.79亿元 [1] - 2025年一季度营业收入2.64亿元,同比增长168%,归属净利润-8564万元,亏损同比减少 [1] - 业务模块优化调整为消费级、企业级和行业级三大场景化板块 [1] - 一季度营收增长主要来自企业级和消费级场景业务收入增加 [1] - 企业级业务包括芯片模组销售和算力集群服务 [1] - 消费级业务包括可穿戴设备和AI交互类产品 [1] AI芯片研发进展 - 已开发DeepEdge10C、DeepEdge10标准版、DeepEdge10Max和DeepEdge200四款芯片 [2] - 2024年推出大模型推理加速卡IPU-X6000 [2] - DeepEdge10芯片采用国产14nmChiplet工艺和RISC-V核 [2] - 芯片架构覆盖8T-256T算力应用,支持7B-130B参数量大模型推理 [2] - 已完成DeepSeekR1系列模型和鸿蒙系统适配 [2] - 在机器人、边缘网关、服务器等领域实现商业化应用 [2] 技术研发与市场趋势 - 打造神经网络处理器NNP400T适配大模型运算 [3] - 2025年将加强面向大模型的专用指令集、算子等技术研发 [3] - 人工智能算力需求从训练计算向推理计算倾斜 [3] - 2024年研发投入近4亿元,同比增长约36% [3] - 部分IPO募投项目延期并调整投资结构 [3] 发展战略与产品规划 - AI推理算力作为基础设施将迎来爆发式增长 [4] - 推出多款消费级产品,建立全渠道营销体系 [4] - 构建"硬件+内容+服务"生态闭环 [4] - 2023年12月推出国内第一款量产AI眼镜 [4] - 通过收购整合硬件能力丰富AIoT产品矩阵 [4]
细粒度视觉推理链引入数学领域,准确率暴涨32%,港中文MMLab打破多模态数学推理瓶颈
量子位· 2025-06-16 18:30
多模态数学推理的挑战与突破 传统方法的局限性 - 传统思维链推理方法在视觉与数学结合场景下表现不佳,易忽略视觉输入中的数学细节导致推理错误[2] - 现有视觉CoT方法存在三大瓶颈:粗粒度图像区域选择破坏数学元素关联性[4]、通用视觉编码器对数学图像感知力不足[5]、过度依赖外部工具导致高成本低通用性[6] MINT-CoT的创新设计 - 提出动态Interleave Token机制,通过计算隐藏层相似度实时选取最相关视觉token,实现文本与数学图像元素的细粒度融合[9] - 突破传统矩形区域限制,可灵活捕捉几何图形、坐标轴等结构化数学元素,支持任意形状视觉区域选择[9] - 采用轻量化架构设计,无需依赖外部工具即可完成端到端训练与推理[9] 数据与训练体系 - 构建5.4万条视觉交错推理样本数据集,通过四步流程实现token级图文对齐标注:网格划分→OCR文本映射→关键词提取→MLLM关联匹配[11] - 设计三阶段渐进训练策略:文本CoT微调→双损失监督的交错模态微调→强化学习优化视觉选择策略[13] 性能表现 - 在Qwen-VL-7B模型上应用MINT-CoT框架后,MathVista/GeoQA/MMStar三大基准分别提升32.59%/26.92%/23.2%[16] - 可视化结果显示模型能自主选择相关视觉token并与文本推理链动态交互,推理逻辑显著优于基线[15] 行业影响 - 该技术首次实现数学场景下视觉与思维链的深度融合,为结构化视觉推理建立新范式[17] - 方法论具备扩展性,未来可迁移至科学图表解析、工程图纸理解等专业领域[17]
推理、训练、数据全链条的工程挑战,谁在构建中国 AI 的底层能力?|AICon 北京
AI前线· 2025-06-16 15:37
大模型系统性问题与国产AI挑战 - 大模型发展面临推理慢、训练不稳、数据迁移难等系统性挑战 这些因素决定技术规模化落地能力 [1] - 国产AI需解决算力适配、系统容错、数据合规等现实问题 特别是摆脱对进口芯片的依赖 [1] - AICon大会将聚焦国产芯片推理适配、开源部署、训练容错机制等七大关键议题 覆盖基础设施建设全貌 [1] 国产算力与推理优化技术 - 清程极智开源赤兔推理引擎 实现在非英伟达Hopper架构及国产芯片上原生运行FP8精度模型 解决硬件成本高企问题 [4] - 华为昇腾推出DeepSeek大模型推理架构 提供性能优化方案与专家并行调度技术 加速国产算力平台部署 [5][6] - 京东零售分享LLM推理优化实践 通过请求调度与流水线执行技术 平衡高吞吐与低延迟的零售级需求 [7][8] 训练系统与开源生态 - 蚂蚁集团开源DLRover框架 解决万卡规模训练的稳定性问题 包含分布式容错与国产卡适配经验 [11] - SGLang推理引擎整合专家并行、推测解码等前沿技术 实现DeepSeek V3等开源模型低成本部署 [9][10] - 阿里巴巴探讨强化学习系统发展 涵盖RLHF架构、自对齐算法及开源生态建设方向 [8][9] 数据基础设施演进 - Zilliz推出向量数据库云原生方案 解决GenAI场景下的数据迁移、BYOC部署和Schema演进问题 [12] - 行业面临传统数据库架构不适应AI需求的问题 需构建企业级向量数据管理平台 [12] 行业动态与人才流动 - 百度大幅扩招AI人才 岗位数量增长超60% 反映行业对顶尖技术人才的激烈争夺 [12] - 阶跃星辰高管转投京东 显示头部企业间核心人才竞争白热化 [12] - ClaudeCode获企业青睐 日均使用成本达1000美元/员工 凸显高性能AI工具的商业价值 [12]
高考数学斩获139分!小米7B模型比肩Qwen3-235B、OpenAI o3
机器之心· 2025-06-16 13:16
大模型数学能力评测 - 七个大模型参与2025年数学新课标I卷测试,Gemini 2.5 Pro以145分位列第一,Doubao和DeepSeek R1以144分并列第二 [2] - 小米7B参数小模型MiMo-VL表现突出,总分139分与Qwen3-235B持平,仅比OpenAI o3低1分 [4] - MiMo-VL在7B参数多模态模型中优势显著,较同类Qwen2.5-VL-7B高出56分 [5] 细分题型表现 - 客观题部分(73分):MiMo-VL单选题得35分(总分40),多选题和填空题均获满分 [8][10][11] - 解答题部分(77分):MiMo-VL得71分位列第五,超越hunyuan-t1-latest和文心X1 Turbo [12] - 测试方法差异:MiMo-VL和Qwen2.5-VL-7B采用截图输入,其他模型使用文本Latex输入 [6] 小米MiMo-VL技术突破 - 模型基于MiMo-7B升级,在数学推理和代码竞赛中超越OpenAI o1-mini和阿里QwQ-32B-Preview [15] - 通过RL训练后,MiMo-7B-RL-0530版本达到与DeepSeek R1和OpenAI o3-mini相近水平 [16] - 多模态能力显著:在OlympiadBench等数学竞赛中领先10倍参数的Qwen-2.5-VL-72B和GPT-4o [20] 技术实现路径 - 采用混合在线强化学习算法(MORL),整合文本推理与多模态感知反馈信号 [27][29] - 预训练数据达2.4T tokens,涵盖图片-文本对、视频-文本对等多元数据类型 [28] - 模型已全面开源,包括技术报告、权重和评估框架 [32][33] 行业竞争格局 - 开源模型MiMo-VL-7B在内部评测中超越GPT-4o成为开源模型第一 [24] - 参数效率突破:7B模型性能比肩235B参数的Qwen3和闭源o3模型 [13][16] - 多模态赛道创新:GUI Grounding任务表现媲美专用模型 [18]
10% KV Cache实现无损数学推理!这个开源方法解决推理大模型「记忆过载」难题
量子位· 2025-06-16 12:49
R-KV团队 投稿 量子位 | 公众号 QbitAI 推理大模型虽好,但一个简单的算数问题能推理整整三页,还都是重复的"废话",找不到重点…… 一种可以把大模型的"碎碎念"转化为可控记忆条目的高效压缩方法,出现了! R-KV开源登场: 显存↓90%、吞吐×6.6、准确率=100% 。 它可以通过实时对token进行排序,兼顾重要性和非冗余性,仅保留信息丰富且多样化的token,从而解决大模型推理时的冗余问题。 让"长时间推理"不再是奢侈品。 项目详情可见文末链接。 R-KV三步走:冗余识别+重要性评估+动态淘汰 链式思考(Chain-of-Thought,CoT)让LLM解题思路清晰可见,却也让推理长度指数级膨胀。 以DeepSeek-R1-Llama-8B为例,一道AIME数学题就能写出 3.2万 个Token:模型权重15.5GB,KV缓存再吃 4.1GB ——显存瞬间见底。 可视化:R-KV vs. SnapKV 现有KV压缩方法(SnapKV、StreamingLLM、H2O等)主要针对 长输入 设计,可一旦模型在输出端开始"碎碎念",相似句子之间互相打高 分注意力,反而让"按注意力删低分"策略失灵: ...
深度|黄仁勋:人形机器人或成下个万亿产业,华为的技术可能已相当于H200
Z Potentials· 2025-06-14 11:58
中美AI博弈下的战略调整 - 公司第二财季销售额达450亿美元(±2%),中国市场相关收入损失约80亿美元,但通过其他产品和地区需求增长实现弥补[3] - 推理型AI成为最强劲增长引擎,ChatGPT、Gemini、Grok等服务的API调用和Agent系统推动推理负载成为巨大应用场景[3] - Blackwell架构和Fei-Lung 72设计为"思考型机器",配合供应链扩张形成核心推动力[4] - 中国市场占全球AI研究人员50%,战略地位关键但短期受政策限制影响业务[5] - H20芯片已达Hopper架构最低规格限制,中国本土竞争对手如华为技术已接近H200水平[6][7] - 华为CloudMatrix系统可扩展性超过GraceBlackwell架构,中国客户转向本土技术栈[7] 技术竞争与产品策略 - 华为AI加速器性能快速提升,已具备与Nvidia高端GPU竞争实力[7] - 中国数据中心芯片市场存在技术替代风险,美国技术退出将迅速被本土方案填补[6] - 产品设计需在政策限制与市场竞争力之间取得平衡,必须为用户创造实际价值[6] 特朗普政策支持 - 支持关税政策推动美国再工业化和制造业回流,公司正在美国多地建设工厂[11] - 赞同撤销"AI扩散规则"以加速全球对美国技术栈的采纳[11] - 认为移民政策应保持对高技术人才开放,移民群体对美国科技产业贡献重大[12] 人形机器人领域合作 - 与Tesla/xAI在数据中心芯片、Optimus机器人芯片等领域深度合作[13] - Optimus人形机器人接近量产阶段,可能成为下一个万亿美元级产业[13] - Elon Musk在Grok、自动驾驶、机器人等领域的工作具有变革性商业潜力[13] 欧洲市场拓展 - 将访问法国、英国、德国、比利时等多国,会见国家元首推动AI基础设施建设[14] - AI已成为国家关键基础设施,各国正加速建设AI工厂项目[14] - 欧洲市场认识到AI技术对社会高效运行的必要性,合作项目快速推进[14]
对抗英伟达,AMD的另一把利器
半导体行业观察· 2025-06-14 11:09
核心观点 - AMD在AI性能竞争中仍落后于Nvidia,正通过战略收购缩小差距,但Nvidia在硬件效率和软件生态系统方面保持显著领先[1][3][7] 战略收购举措 - 近期收购包括Brium、Silo AI、Nod.ai及Untether AI工程团队,旨在增强AI软件、推理优化和芯片设计能力[3] - Brium收购重点提升编译器技术和端到端AI推理优化,影响OpenAI Triton等项目,采用MX FP4/FP6精度格式提升硬件性能[4] - Untether AI工程团队收购聚焦节能推理处理器技术,强化编译器和SoC设计能力,但未收购公司导致其产品失去支持[5][6] 技术差距与竞争态势 - AMD Instinct GPU与Nvidia Blackwell系列存在性能和生态系统差距,需通过软件优化减少硬件依赖[3][4] - 行业认为能源效率和推理性能是下一阶段重点,AMD正招募人才加速推理能力提升[5][6] - Nvidia凭借CUDA软件生态和硬件处理能力保持领先,Blackwell仍被视为AI工作负载的黄金标准[4][7]
SGLang 推理引擎的技术要点与部署实践|AICon 北京站前瞻
AI前线· 2025-06-13 14:42
SGLang 开源推理引擎发展现状 - 截至2025年6月 GitHub Stars达15K 月均下载量突破10万次 [1] - 已被xAI Microsoft Azure NVIDIA AMD LinkedIn 美团等行业巨头采用 [1] - 成为DeepSeek R1官方推荐推理引擎 并实现首个完全开源的大规模专家并行部署方案 [1] 核心技术优势 - 采用PD分离架构控制尾延迟 推测解码提升Token生成速度 KV缓存落盘优化显存 [2] - 实现RadixAttention Overlap Scheduling等高效架构设计 复现PD分离 大规模EP等前沿技术 [3] - 支持离线批处理最大化GPU利用率 线上推理优先保障Token生成速度的差异化部署策略 [4] 并行部署技术挑战 - 专家并行实现中面临通讯与Prefill/Decode传输KV缓存的时间重叠问题 [4] - 网卡资源争抢 CPU负载过大 Python GIL锁释放不及时等工程挑战突出 [4] 社区生态建设 - 开源模式吸引广泛参与 技术分享增强社区认同感 [5] - 超过100k显卡规模的工业部署经验反哺技术演进 [5] 关键技术解析 - PD分离使Decode延迟均匀稳定 允许采用不同并行策略提升资源利用率 [6] - 推测解码通过隐藏层信息一次预测多个Token 显著提升Decode速度 [6] - KV缓存落盘将历史上下文存储至大容量设备 避免重复Prefill计算 [6] 部署实践洞察 - 参数配置调试是影响上线效率的关键环节 需精细化优化而非依赖"开箱即用" [7] - 模型规模持续扩大背景下 多GPU与高效并行策略是实现高性价比部署的必经之路 [7] 行业活动预告 - AICon全球人工智能开发与应用大会将深入解析大模型推理关键技术 [2][7] - 聚焦AI Agent构建 多模态应用 大模型推理优化等前沿议题 [7]
知识类型视角切入,全面评测图像编辑模型推理能力:所有模型在「程序性推理」方面表现不佳
量子位· 2025-06-13 13:07
研究背景 - 东南大学联合马克斯·普朗克信息研究所、上海交通大学、阶跃星辰、加州大学伯克利分校与加州大学默塞德分校的研究团队共同提出KRIS-Bench评测框架 [2] - 首创从知识类型视角系统化评测图像编辑模型的推理能力 [3] - 借鉴布鲁姆认知分类与教育心理学分层教学理念设计评测体系 [4] 评测框架设计 - 基于三大知识范畴:事实性知识(颜色、数量等)、概念性知识(物理化学常识)、程序性知识(多步推理) [8] - 细分为7大推理维度和22种编辑任务覆盖全谱系难度 [6] - 样本总量1267对图像-指令由专家手工打磨数据来源多样化 [12] 评估指标与方法 - 首创四维度自动化评估:视觉一致性、视觉质量、指令跟随、知识合理性 [10][11][13] - 深度知识任务附带手工知识提示以验证模型理解能力 [11] - 评测10款模型包含3款闭源(GPT-Image-1等)和7款开源(OmniGen等) [14] 评测结果 - 闭源旗舰GPT-Image-1表现领先开源黑马BAGEL-Think在知识合理性上有提升但仍有差距 [17] - 多数模型在事实性知识(如数量变化)基础任务上表现欠佳 [17] - 所有模型在程序性推理、自然科学及多步骤合成任务上普遍失分 [17] 行业意义 - 推动图像编辑模型从像素搬运向具备认知能力的视觉智者进化 [16] - 未来目标是在模型中植入物理化学常识与因果推理实现真正的理解 [16]