推理

搜索文档
ICLR 2025|首个动态视觉-文本稀疏化框架来了,计算开销直降50%-75%
机器之心· 2025-04-29 11:22
本文由华东师范大学和小红书联合完成,共同第一作者是华东师范大学在读硕士、小红书 NLP 团队实习生黄文轩和翟子杰,通讯作者是小红书 NLP 团队负责人 曹绍升,以及华东师范大学林绍辉研究员。 多模态大模型(MLLMs)在视觉理解与推理等领域取得了显著成就。然而,随着解码(decoding)阶段不断生成新的 token,推理过程的计算复杂度和 GPU 显存 占用逐渐增加,这导致了多模态大模型推理效率的降低。现有的方法通过减少预填充(prefill)阶段的视觉 token 冗余来实现推理加速。遗憾的是,这种在预填充 阶段实现的视觉 token 稀疏化所带来的加速优势,在解码阶段会逐渐减弱。当解码输出的文本 token 数量增多时,这些方法仍然会遇到性能瓶颈。 为了解决上述问题,团队创新性地提出了一个全新的动态视觉 - 文本上下文稀疏化推理加速框架 ——Dynamic-LLaVA。该框架针对多模态大模型在不同推理模式 下(包括预填充阶段以及有无 KV Cache 的解码阶段),设计了定制化的稀疏化推理方案,以实现多模态大模型的高效推理。实验结果表明,Dynamic-LLaVA 在 几乎不损失视觉理解和生成能力的前提 ...
阿里开源通义千问Qwen3:登顶全球最强开源模型,成本仅需DeepSeek-R1三分之一
IPO早知道· 2025-04-29 11:01
模型性能与架构 - 阿里巴巴开源新一代通义千问模型Qwen3,参数量为235B,激活仅需22B,性能全面超越DeepSeek-R1、OpenAI-o1等全球顶尖模型[1] - Qwen3采用混合专家(MoE)架构,是国内首个"混合推理模型",集成"快思考"与"慢思考"功能,可大幅节省算力消耗[1] - Qwen3预训练数据量达36T,并在后训练阶段进行多轮强化学习,将非思考模式无缝整合到思考模型中[1] 评测表现 - 在AIME25奥数测评中,Qwen3斩获81.5分,刷新开源纪录[1] - 在LiveCodeBench代码能力评测中,Qwen3突破70分大关,表现超过Grok3[1] - 在ArenaHard人类偏好对齐测评中,Qwen3以95.6分超越OpenAI-o1及DeepSeek-R1[2] - Qwen3在BFCL评测中创下70.8的新高,超越Gemini2.5-Pro、OpenAI-o1等顶尖模型[6] 成本与部署 - Qwen3部署成本大幅下降,仅需4张H20即可部署满血版,显存占用仅为性能相近模型的三分之一[2] - Qwen3提供丰富的模型版本,包含2款30B、235B的MoE模型,以及6款密集模型(0.6B至32B)[3] - 30B参数MoE模型实现10倍以上性能杠杆提升,仅激活3B就能媲美上代Qwen2.5-32B模型性能[3] 应用场景 - Qwen3所有模型都是混合推理模型,API可按需设置"思考预算",灵活满足不同场景需求[3] - 4B模型适合手机端,8B可在电脑和汽车端侧部署,32B最受企业大规模部署欢迎[3] - Qwen3原生支持MCP协议,具备强大的工具调用能力,结合Qwen-Agent框架可大幅降低编码复杂性[6] 开源与生态 - Qwen3采用Apache2.0协议开源,支持119多种语言,全球开发者可免费下载商用[6] - 阿里通义已开源200余个模型,全球下载量超3亿次,千问衍生模型数超10万个,成为全球第一开源模型[7]
昆仑万维:一季度营收大幅增长46% AI算力芯片取得突破性进展
证券时报网· 2025-04-29 10:00
财务表现 - 2025年一季度公司实现营业收入17.6亿元,同比增长46% [1] - 研发费用4.3亿元,同比增长23% [1] - AI音乐年化流水收入ARR达1200万美金(月流水100万美金),短剧平台Dramawave年化流水ARR达1.2亿美金(月流水1000万美金) [1] - 海外业务收入16.7亿元,同比增长56%,占营收比重提升至94% [1] - Opera收入同比增长41% [4] AI技术突破 - 多模态推理模型Skywork R1V达到开源SOTA水平 [2] - 视频生成领域SkyReels-V1模型与SkyReels-A1算法位居全球领先,后者实现技术突破性SOTA [2] - AI音乐领域Mureka V6与全球首款融合CoT技术的Mureka O1形成组合优势,Mureka O1登顶行业SOTA [2] AI算力芯片进展 - 控股AI算力芯片企业北京艾捷科芯,完成"算力基础设施—大模型算法—AI应用"全产业链布局 [3] - 攻克多项核心技术难关,整体研发进度过半,向量产迈进 [3] - 艾捷科芯员工数量接近200名,覆盖芯片设计、算法研发、系统集成等专业领域 [3] AI产品规划 - 计划2025年5月中旬在海外发布全球首款生产力场景通用Agent平台Skywork.ai [3] - Skywork.ai包含五大专家级AI Agent,覆盖专业文档、数据表格、演示文稿、播客及网页内容优化 [3] - 支持跨模态内容创作,可高效生成MV、宣传片、有声读物、互动绘本等多媒体内容 [3] 业务战略 - 全球化战略成效显著,国际化布局持续深化 [1] - 未来将持续推进AI算力芯片研发及AI应用矩阵落地 [4]
阿里开源千问3模型 成本仅需DeepSeek-R1三分之一
21世纪经济报道· 2025-04-29 08:24
阿里通义千问3模型发布 - 阿里开源新一代通义千问模型Qwen3,参数量235B,激活仅需22B,成本大幅下降,性能全面超越DeepSeek-R1、OpenAI-o1等全球顶尖模型 [1] - 千问3是国内首个"混合推理模型",集成"快思考"与"慢思考",对简单需求可低算力"秒回"答案,对复杂问题可多步骤"深度思考",大大节省算力消耗 [1] - 千问3采用混合专家(MoE)架构,预训练数据量达36T,并在后训练阶段多轮强化学习,将非思考模式无缝整合到思考模型中 [1] 性能表现 - 千问3在AIME25测评中斩获81.5分,刷新开源纪录;在LiveCodeBench评测中突破70分,表现超过Grok3;在ArenaHard测评中以95.6分超越OpenAI-o1及DeepSeek-R1 [2] - 千问3仅需4张H20即可部署满血版,显存占用仅为性能相近模型的三分之一 [2] - 千问3在BFCL评测中创下70.8的新高,超越Gemini2.5-Pro、OpenAI-o1等顶尖模型 [5] 模型版本与部署 - 千问3提供2款30B、235B的MoE模型,以及0.6B、1.7B、4B、8B、14B、32B等6款密集模型,每款模型均斩获同尺寸开源模型最佳性能 [4] - 千问3的30B参数MoE模型实现了10倍以上的模型性能杠杆提升,仅激活3B就能媲美上代Qwen2.5-32B模型性能 [4] - 32B版本的千问3模型可跨级超越Qwen2.5-72B性能 [4] - 4B模型适合手机端,8B可在电脑和汽车端侧部署,32B最受企业大规模部署欢迎 [4] 应用支持与开源 - 千问3原生支持MCP协议,具备强大的工具调用能力,结合Qwen-Agent框架可大大降低编码复杂性 [5] - 千问3系列模型采用Apache2.0协议开源,支持119多种语言,全球开发者、研究机构和企业可免费下载并商用 [5] - 阿里通义已开源200余个模型,全球下载量超3亿次,千问衍生模型数超10万个,已超越美国Llama [6] - 个人用户可通过通义APP体验千问3,夸克即将全线接入千问3 [6]
过去四周,AI推理爆了,GPU在燃烧,英伟达依旧供不应求
硬AI· 2025-04-29 08:18
行业需求与市场动态 - 大型语言模型对推理芯片的需求激增,导致英伟达GPU供不应求,需求遍及所有地区 [3][4] - token生成量自年初以来增长5倍以上,给生态系统带来巨大压力,推动对处理工作负载的投资激增 [4] - AI公司用户数量呈爆炸式增长,例如Open Router等API公司数据显示,GPU资源争夺激烈,甚至出现"最后一块GB200"在2025年仅剩一块的状况 [4] 英伟达的供应与业绩 - 英伟达Blackwell芯片(尤其是GB200/300型号)供应受限,短期内无法满足爆炸式需求 [6] - Hopper GPU需求虽改善,但云客户5-6年折旧周期可能导致投资回报率不理想 [6] - 美元上行、供应紧张和出口限制叠加,引发市场对英伟达短期盈利的担忧 [6] 摩根士丹利的观点与调整 - 摩根士丹利将英伟达目标价从162美元轻微下调至160美元,主要反映同行组整体估值下降,而非公司基本面变化 [3][6] - 下调目标价体现对英伟达短期业绩的谨慎态度,但长期增长潜力依然强劲 [3][8] - 截至发稿,英伟达股价为111美元,较大摩目标价高45%左右 [6] 推理需求的关键性 - 摩根士丹利认为推理需求是关键,由使用模型并产生收入的部分驱动,证明推理模型的扩展是真实存在的 [4] - 推理需求与仅依赖风险投资的训练需求有本质区别 [4]
上交大等探索键值压缩的边界:MILLION开源框架定义模型量化推理新范式,入选顶会DAC 2025
机器之心· 2025-04-29 07:04
研究背景 - 大语言模型在复杂任务中应用广泛,但对计算和存储资源提出巨大挑战,特别是在长上下文场景中键值缓存成为存储瓶颈 [2] - 半精度LLaMA-2-7B模型权重约14GB,在上下文长度128K时键值缓存占据64GB,总和接近NVIDIA A100的80GB显存容量上限 [2] - 键值量化受异常值干扰导致模型性能显著下降,现有量化方案无法有效解决异常值问题 [2][5] 技术方案 - 提出MILLION方案,基于乘积量化的键值缓存压缩和推理加速设计 [2] - 采用非均匀量化通过聚类实现量化区间不等长,更合理分配编码提升量化效率 [12] - 将高维向量空间分解为多个低维子空间进行独立向量量化,有效利用通道间互信息 [14] - 子空间维度为2或4是较好的平衡点,融合通道量化效果优于独立通道量化 [14] 系统实现 - 采用三阶段推理系统设计:离线训练、在线预填充、在线解码 [17] - 在线解码阶段采用分块注意力机制,分开计算历史注意力和自注意力 [18] - 使用宽数据向量化加载方式将多个乘积量化编码打包为宽数据,提高带宽利用率 [20] - 优化表查找阶段的空间局部性,提高L2缓存命中率 [20] 实验结果 - 在困惑度指标上,MILLION与处理异常值的SOTA方案输出质量保持一致 [25] - 在长对话问答任务中,MILLION在4倍键值缓存压缩效率下保持几乎无损表现 [26] - 在32K上下文场景下实现4倍键值缓存压缩比和2倍端到端加速比 [28][30] - 注意力层剖析显示MILLION在访存和内核函数方面对比baseline有显著优势 [30] 创新贡献 - 深入分析键值缓存分布特征和异常值问题 [32] - 提出基于乘积量化的非均匀量化算法 [32] - 设计高效的推理系统及内核实现 [32] - 在32K上下文场景中同时达成4倍压缩率和2倍加速比 [32]
北大物院200人合作,金牌得主超50人!PHYBench:大模型究竟能不能真的懂物理?
机器之心· 2025-04-28 16:04
项目背景与团队 - 北京大学物理学院联合人工智能研究院等多个院系推出全新评测基准PHYBench,由朱华星老师、曹庆宏副院长统筹指导,学生核心团队完成基准设计、项目管理及数据整合 [2] - 项目汇聚200余名学生参与题目编写与测试,包含至少50位全国物理竞赛金牌得主及国际奥赛获奖者,保障了高质量产出 [2] PHYBench核心设计 - 包含500道高质量物理题,覆盖高中物理、大学物理及物理奥赛难度,基于真实物理场景设计 [2][8] - 采用创新评估指标EED Score(表达式树编辑距离),相比传统Accuracy指标具有更细粒度区分能力,500题区分效果相当于1500道0/1评分题目 [10] - 数据集规模在同类高难度评测基准中领先(GSM8K 8.5K题,OlympiadBench 8K题,USAMO仅6题) [8] 评测结果 - 人类专家平均正确率61.9%(EED评分70.5%),前25%受试者达71.4%,显著领先最强AI模型Gemini 2.5 pro(正确率36.9%,EED评分49.5%) [12] - 主流模型表现分层:Gemini 2.5 pro和o3等强推理模型领先,DeepSeek-V3基座模型表现亮眼,QwQ-32B等小型蒸馏模型表现不佳 [14] 能力分析框架 - 提出PP×RR分析模型:物理感知(PP)环节暴露符号理解缺陷,鲁棒推理(RR)环节显示草稿冗长且易犯低级错误 [16][17] - 典型错误包括量纲混淆(占比38.7%)、符号误用(21.3%)等物理感知问题,以及代数错误(17.5%)等推理缺陷 [16] 行业意义与展望 - 突破现有基准依赖生僻知识点或抽象数学题的局限,建立更贴近实际场景的评估体系 [2] - 计划拓展跨学科内容和未解科学谜题,推动AI向具备物理世界认知能力的"智能伙伴"发展 [20]
Q2财报公布在即 宏观不确定性冲击下高通(QCOM.US)会作何指引?
智通财经· 2025-04-28 15:30
业绩预测 - 高通将于美东时间4月30日公布第二财季业绩 华尔街预测营收同比增长13%至106亿美元 调整后每股收益同比增长16%至2美元 [1] - QCT业务(半导体)营收预计同比增长15%至92亿美元 其中智能手机相关营收同比增长11%至69亿美元 汽车相关营收同比增长48%至9亿美元 物联网相关营收同比增长17%至15亿美元 [1] - QTL业务(技术许可)营收预计同比增长2%至14亿美元 [1] 历史业绩 - 第一财季营收同比增长17%至117亿美元 大幅超出市场预期的109亿美元 调整后每股收益3美元 超出预期的3美元 [1] - QCT业务首次实现单季营收突破100亿美元 智能手机相关营收同比增长13%至76亿美元 汽车相关营收同比增长61%至10亿美元 [1] 战略布局 - 随着AI设备时代到来 推理任务从云端转移到边缘端 高通在竞争中占据优势 [2] - 高通在美国市场800美元以上Windows个人电脑中占有约10%份额 预计到2026年将扩大至超过100款商用设计 [2] - AI正渗透至智能眼镜 汽车辅助驾驶系统和工业物联网等领域 高通业务线持续扩大 [2] 市场关注 - 投资者关注关税对高通的影响 将密切关注业绩指引 [3] - 瑞银预计高通第二财季业绩符合预期 但第三财季指引可能低于季节性水平 环比下降低个位数百分比 [3] - 高通约66%营收来自中国 手机业务面临关税不确定性影响 [3]
过去四周,AI推理爆了,GPU在燃烧,英伟达依旧供不应求
华尔街见闻· 2025-04-27 18:38
投资者情绪与需求变化 - 过去四周投资者情绪因宏观经济和供应链风险恶化 但英伟达GPU核心需求因大型语言模型对推理芯片需求飙升且遍及所有地区 [1] - token生成量自年初以来增长5倍以上 给生态系统带来巨大压力并推动处理工作负载的投资激增 [1] - 多家AI公司报告用户数量爆炸式增长 例如Open Router等API公司因推理软件需求被迫争抢GPU资源 [1] 英伟达芯片供需状况 - 英伟达Blackwell芯片供应受限 尤其是GB200/300型号无法满足爆炸式需求 [2] - Hopper GPU需求有所改善 但云客户5-6年折旧周期导致投资回报率不理想 [2] - 美元上行、供应紧张和出口限制叠加 引发市场对英伟达短期盈利担忧 [2] 摩根士丹利对英伟达的评估 - 摩根士丹利将英伟达目标价从162美元下调至160美元 主要反映同行组整体估值下降而非公司基本面变化 [2] - 截止发稿英伟达股价为111美元 较大摩目标价高45%左右 [2] - 摩根士丹利认为供应限制和毛利率压力影响市场情绪 但对长期增长潜力保持信心 [4] 财务预测调整 - 摩根士丹利将2026财年收入预测上调10.7% 每股收益上调11.9% 并认为这些数字可能仍非常保守 [5]
“人工智能+”行业发展蓝皮书
安泰经管学院· 2025-04-27 14:05
报告行业投资评级 未提及 报告的核心观点 全球正经历由人工智能驱动的“技术 - 经济”范式重构,其影响力超越传统 ICT 技术,与前沿技术产业融合将催生新赛道;报告梳理人工智能发展现状与趋势,剖析其在行业应用中的问题与挑战,为相关部门和企业提供决策参考,探讨其助推传统产业转型升级和引领未来产业创新发展的路径[4] 根据相关目录分别进行总结 引言:全球化视野看人工智能 - 人工智能起源于 1956 年达特茅斯会议,技术范式历经规则、统计、深度神经网络三个阶段,2012 年进入深度学习时代,2017 年 Transformer 架构推动大语言模型发展,其重大突破源于探索精神、基础理论与工程实践的协同[10][11] - 全球 AI 技术呈多极化竞争态势,美、中、欧通过模型研发与政策扶持争夺主导权,如美国“星际之门”项目计划投资 5000 亿美元,欧盟“投资人工智能”倡议调动 2000 亿欧元[15] - 2025 年巴黎人工智能行动峰会呼吁建立全球治理体系,中国积极参与国际对话,倡导技术普惠与风险共担[15] - AI 普及提升生产效率的同时会引发结构性风险和伦理问题,国际学界呼吁加强伦理研究并构建治理框架[16] - AI 可持续发展需兼顾能源效率与社会公平,业界探索绿色计算与低资源算法,普惠应用成关键议题,WTO 报告预测全球均衡应用 AI 可使 2040 年前贸易增速翻倍[17] 第 1 章 AI 算法“大模型”:实现通用智能的重要桥梁 国内外大模型技术发展态势 - 大模型开辟通用人工智能新路线,是科技制高点和中美竞争焦点,OpenAI 引领本轮革命,产品不断突破,2024 年技术迭代爆发[20][21] - 美国 Anthropic、Google、Meta 及 xAI 等企业在大模型领域发力,形成“OpenAI 领跑,Anthropic、Google 和 xAI 追赶,Meta 开源”的竞争态势[22] - 2023 年中国开启“百模大战”,百度、阿里等企业和科研机构推出众多模型,2025 年初 DeepSeek 发布两款模型,突破“算力军备竞赛”模式,重构全球竞争格局[22][24][25] 大模型的核心技术 - Transformer 架构是大模型基石,通过多头注意力机制和位置编码处理序列数据,解决传统 RNN 局限性,在语言和多模态模型中广泛应用[28][30] - 大模型训练分预训练、微调、强化学习三个阶段,预训练学习通用知识,微调适配特定任务,强化学习提升解题能力和输出质量[30][33][34] - 交互提示技术有零样本学习、少样本学习、思维链提示三种模式,提示工程核心技巧是“结构化表达”[37] - 推理时间扩展技术实现从“直觉反应”到“深思熟虑”的转变,包括多步推理迭代、计算资源动态调控、强化学习驱动优化三个创新方向[39] - 知识检索增强、工具调用能力、多专家协同可增强模型专业能力,扩散模型通过逐步去噪恢复原始数据,在 AIGC 多领域广泛应用[43][45][46] 大模型技术发展趋势展望 - 大模型向多模态融合和涌现演进,实现多维信息联合理解与生成,但面临跨模态对齐等技术难关[49] - 大模型需提升高阶推理能力以解决复杂任务,在科学智能和工业智能领域发挥作用,同时期待更多新技术范式加速通用人工智能到来[49][50] 结语 - 大模型是实现通用人工智能的主流路线,全球竞争激烈,中国科研创新力量加速追赶并在部分领域超越,但通用人工智能技术路径未收敛,大模型面临诸多挑战[51] - 中国人工智能发展需技术突破,在国际合作与竞争中找到平衡,全球需开放协作加速通用人工智能实现[52] 第 2 章 AI 数据:驱动智能时代的核心引擎 模型突破推动数据需求升级 - 人工智能模型发展伴随数据需求进化,对数据数量和质量要求提高,“Chinchilla Scaling Law”表明模型参数和数据量应同比例增长[70] - 大模型对数据需求在质量颗粒度、模态、训练数据依赖方面重构,倒逼数据生产链技术升级,包括合成数据崛起、数据价值链重构、隐私与合规技术平衡等[72][74][76] - 学术界对大模型规模化法则有效性产生分歧,垂直领域高质量数据与合成数据可能成数据规模新增长点[80] 驱动因素推动数据生产革新 - 大模型需求倒逼数据生产技术革新,包括自动化标注、合成数据生成、隐私保护等技术,推动数据生产方式从劳动密集型转向技术密集型[81] - 大模型数据处理流程包括去重、提取、清洗过滤、标注增强四个阶段,各阶段相辅相成[82][84][86] - 未来数据生产可能在高保真合成数据生成、零样本标注、去中心化 Data DAO 生态、全球治理与标准化等方面取得突破[87] 技术演进推动数据生态重构 - 全球人工智能数据产业形成多层次协同体系,数据生态从线性供应链向网状价值网演进,2023 年全球数据交易规模约 1261 亿美元,预计 2030 年达 3708 亿美元[89] - 数据开源使获取方式更便捷,开源平台向全栈生态升级,形成“数据生产 - 开放共享 - 标准反哺”正向循环[90][91] - 全球数据生态经历技术与监管博弈,合规约束成为驱动技术和生态发展的核心变量,企业设立独立数据资产管理部门推动数据集生态向价值创造转变[93] 全球竞争推动数据战略迭代 - 数据主权和标准主导权成为大国科技竞争关键,中、美、欧采取不同策略,国际竞争重点从技术转向标准制定[94][95] - 全球数据交易活跃,政策推动国内数据市场建设,技术在可信流通、融合计算、隐私计算等方面取得进展,推动数据要素开放协作[97] - 面对数据竞争,需从数据主权、产业发展、生态构建三方面入手,实现国产技术自主可控,推动产业创新和国际标准制定[98] 结语 - 数据是 AI 时代核心燃料和战略资源,中国需发挥数据要素作用,实现从“数据大国”到“数据强国”的转变,但面临制度、技术和安全等问题[100]