Workflow
端侧模型
icon
搜索文档
Qwen紧追OpenAI开源4B端侧大模型,AIME25得分超越Claude 4 Opus
量子位· 2025-08-07 08:56
核心观点 - Qwen团队最新发布两款4B端侧模型Qwen3-4B-Instruct-2507和Qwen3-4B-Thinking-2507,在性能上实现显著突破,尤其在小模型尺寸下超越部分大模型表现 [2][3][5][7] - 两款模型分别针对通用任务和专家级推理任务优化,支持256K长上下文并具备端侧部署优势 [7][8][16][17][24] - Qwen3-4B-Thinking-2507在AIME25数学测评中得分81.3,超越Gemini 2.5 Pro和Claude 4 Opus [4][5][23] 模型性能突破 Qwen3-4B-Instruct-2507 - 通用能力超越闭源模型GPT-4.1-nano,与30B MoE模型Qwen3-30B-A3B性能接近但参数量仅其1/7.5 [13][14][15] - 关键指标:MMLU-Redux得分84.2(vs GPT-4.1-nano 80.2),GPQA得分62.0(vs 50.3),LiveBench 20241125得分63.0(vs 41.5) [18] - 增强多语言覆盖和长文本理解能力,支持扩展至1M上下文 [17] Qwen3-4B-Thinking-2507 - 专攻复杂推理任务,AIME25得分81.3超越前代65.6分及Qwen3-30B-A3B的70.9分 [23][25] - 推理性能提升显著:HMMT25得分55.5(vs 前代42.1),ZebraLogic得分80.2(vs 35.2) [18][25] - 在Agent任务中全面碾压前代,如TAU1-Retail得分66.1(vs 33.9),TAU2-Airline得分58.0(vs 28.0) [25] 技术特性与行业影响 - 端侧适配性:支持树莓派等设备,提供GGUF量化版本和llama.cpp部署方案 [2][8][27][28] - 模型效率:4B密集模型性能接近30B MoE模型,重新定义小模型能力边界 [11][15][23] - 开源策略:通过抱抱脸和魔搭社区提供模型下载,与OpenAI同期开源形成竞争 [26][34][35] 开发者支持 - 部署工具链完整:支持Ollama、LMStudio、MLX-LM等主流框架 [27] - 优化建议:针对内存限制设备推荐缩短上下文长度,复杂推理任务建议使用>131K词元 [28][29] - Prompt设计规范:提供数学题逐步推理和选择题JSON结构化回答模板 [31] 行业动态 - 发布时间点卡位OpenAI开源窗口,引发开发者社区高度关注 [34][35] - 性能对比:Qwen3-4B系列在多项基准测试中优于GPT-4.1-nano和Claude 4 Opus [18][25] - 市场期待:用户呼吁Qwen团队加速发布Qwen3-8B系列模型 [31][33]
长文本推理 5 倍提速!面壁MiniCPM4 端侧模型发布,0.5B模型效果秒杀同级
AI前线· 2025-06-12 14:07
模型发布与性能 - 新一代"面壁小钢炮" MiniCPM4 0端侧模型发布 包含8B和0 5B两种参数规模 其中8B稀疏闪电版带来端侧性能大跃升 0 5B版本适配广泛终端场景 [1] - MiniCPM4 0-8B是首个原生稀疏模型 5%极高稀疏度加持系统级创新技术 在MMLU CEval MATH500 HumanEval等基准测试中以仅22%训练开销 性能比肩Qwen-3-8B 超越Gemma-3-12B [2] - MiniCPM4 0-0 5B在MMLU CEval BBH HumanEval等基准测试中性能超越同级Qwen-3-0 6B Llama 3 2 Gemma3 并通过原生QAT技术实现几乎不掉点的int4量化 推理速度达600 Token/s [4] 技术架构创新 - 采用新一代InfLLMv2稀疏注意力架构 稀疏度从行业普遍的40%-50%降至5% 注意力层仅需1/10计算量完成长文本计算 算子底层重写进一步提升速度与精准性 [14] - 引入高效双频换挡机制 根据任务特征自动切换注意力模式 长文本启用稀疏注意力降低计算复杂度 短文本切换至稠密注意力确保精度与速度 [17] - 开发并开源InfLLMv2高效训练与推理算子 提出高效LogSumExp估计算法 相比DeepSeek NSA算法节省60%计算开销 [16] 性能表现对比 - 在MMLU测试中 MiniCPM4-8B得分为75 83 高于Qwen3-8B的75 90和Gemma3-12B的73 36 [5] - 在CEval测试中 MiniCPM4-8B得分81 36 显著高于Qwen3-8B的80 35和Gemma3-12B的62 23 [5] - 在HumanEval测试中 MiniCPM4-8B得分85 37 接近Qwen3-8B的85 98 高于Gemma3-12B的83 54 [5] 端侧优化与部署 - 实现长文本缓存大幅锐减 128K长文本场景下仅需Qwen3-8B 1/4缓存存储空间 量化版模型瘦身达90% [8] - 自研CPM cu推理框架实现5倍速度提升 集成高效稀疏注意力算子 投机采样和量化技术 [19][21] - 已适配Intel 高通 MTK 华为昇腾等主流芯片 可在vLLM SGLang llama cpp等开源框架部署 [10] 训练与数据策略 - 采用Ultra-FineWeb高知识密度数据筛选机制 实现90%验证成本降低 处理15万亿token数据仅需1000小时CPU时间 [28] - 应用风洞2 0方案 将超参数配置搜索实验次数降低50% 采用Chunk-wise Rollout技术提升GPU资源利用率 [29] - 仅用22%训练开销即达到同尺寸开源模型能力水平 训练策略包括FP8训练和MTP监督信号等前沿技术 [28][30]
面壁MiniCPM4端侧模型发布:长文本推理 5 倍提速,0.5B 模型拿下新SOTA
AI科技大本营· 2025-06-10 17:31
模型发布 - 2025智源大会发布新一代端侧模型MiniCPM4 0 包含8B稀疏闪电版和0 5B版本 前者是首个原生稀疏模型 5%极高稀疏度实现端侧长文本处理能力 后者适配广泛终端场景 [1] - MiniCPM4 0-8B在MMLU CEval MATH500 HumanEval等基准测试中以仅22%训练开销实现性能比肩Qwen-3-8B 超越Gemma-3-12B [2][6] - MiniCPM4 0-0 5B在MMLU CEval BBH HumanEval等测试中性能超越同级Qwen-3-0 6B Llama 3 2 Gemma3 并通过原生QAT技术实现600 Token/s极速推理 [2] 性能突破 - 代号"前进四"的MiniCPM4 0实现长文本推理速度5倍常规加速 最高220倍加速(显存受限场景) 注意力机制采用高效双频换挡技术 长文本用稀疏 短文本用稠密 [4] - 在128K长文本场景下 MiniCPM4 0-8B仅需Qwen3-8B 1/4的缓存存储空间 量化版实现90%模型瘦身 性能保持稳健 [9] - 8B版本微调出MCP Client和MiniCPM4-Surve两个特定能力模型 后者在内容质量评估中与OpenAI Deep Research持平 [11] 技术创新 - 采用新一代稀疏注意力架构InfLLMv2 稀疏度降至5% 注意力层仅需1/10计算量完成长文本处理 相比DeepSeek NSA节省60%计算开销 [16][18][20] - 自研CPM cu推理框架实现5倍速度提升 集成FR-Spec轻量投机采样技术 通过词表裁剪策略优化低频词汇处理 [22] - 开发P-GPTQ前缀敏感量化方法 在INT4量化设置下性能退化最小 同时训练BitCPM三值量化模型 0 5B版本在知识任务表现优异 [23][26] 行业应用 - 已实现Intel 高通 MTK 华为昇腾等主流芯片适配 支持vLLM SGLang llama cpp等开源框架部署 性能超过同尺寸开源模型Qwen-3-8B [12] - 端侧长文本突破使个人助理产品能处理用户隐私信息 如聊天记录 位置数据 多模态感知场景如自动驾驶需100K以上上下文长度 [14] - 跨平台部署框架ArkInfer解决端侧芯片碎片化问题 提供高效推理速度并作为多功能兼容层 [27] 研发体系 - 采用Ultra-FineWeb高知识密度数据筛选机制 验证成本降低90% 处理15万亿token数据仅需1000小时CPU时间 [29] - 应用风洞2 0方案在小模型上搜索最优超参数 实验次数降低50% 采用FP8训练和MTP监督信号等前沿技术 [30] - 全平台下载量累计破1000万 基于"大模型密度定律"持续提升知识密度与智能水平 [32]
0.5B以小搏大拿下端侧模型新SOTA:4090可跑,长文本处理5倍常规加速丨清华&面壁开源
量子位· 2025-06-10 15:35
模型性能与效率 - MiniCPM4提供8B和0.5B两种参数规模,仅使用同级别开源模型22%的训练开销就达到同级别最优性能 [1] - MiniCPM4-8B是首个开源原生稀疏模型,5%极高稀疏度支持长文本和深思考在端侧运行 [2] - 在MMLU等基准测试中,MiniCPM4-8B性能比肩Qwen-3-8B,超越Gemma-3-12B;0.5B版本超越同级Qwen-3-0.6B等模型 [3] - 在端侧芯片上实现长文本处理5倍常规加速与极限场景百倍加速 [4] 技术创新架构 - 采用高效稀疏注意力架构InfLLM v2,保持性能同时实现高效长上下文处理 [8] - InfLLM v2不引入额外参数,短序列推理速度不受影响 [10] - 相比NSA减少60%上下文选择计算成本 [11] - 上下文分块分区域处理,实现注意力层智能化选择机制 [14] 推理加速技术 - 构建轻量化CUDA推理框架CPM.cu与跨平台部署框架ArkInfer [20] - 提出FR-Spec词表剪枝技术,降低75%计算开销,实现2倍生成加速 [26][28][29] - 开发前缀感知GPTQ方法,排除初始词元干扰提升量化质量 [31][32] - 采用位置感知校准策略,消除初始词元统计偏差 [33] 数据与训练优化 - 仅使用8T词元达到Qwen3用36T词元的效果 [56] - 提出UltraClean高能力密度数据筛选方法,构建1T+高质量中英文语料 [61][71] - 开发UltraChat-v2合成数据框架,覆盖知识应用等五大技能领域 [77] - ModelTunnel v2预训练策略搜索仅需32GPU机时,大幅降低超参数搜索开销 [88] 应用场景表现 - 在Jetson AGX Orin上实现7倍解码加速,长序列处理优势明显 [108][109] - MiniCPM4-8B超越Gemma3-12B和Phi4-14B,0.5B版本超越Llama3.2-1B [114] - 训练数据量仅为Qwen3的22%但性能相当 [116] - 在128K上下文窗口达到100%准确率,稀疏度仅5% [119]
开启端侧长文本时代!面壁全新架构,让小钢炮最快提升220倍
机器之心· 2025-06-09 16:03
端侧大模型技术突破 - 面壁智能发布MiniCPM 4.0模型,实现行业首个系统级上下文稀疏语言模型创新,稀疏度达5%,开启端侧长文本时代[3][4] - MiniCPM 4.0分为8B和0.5B两个版本,8B版本在长文本推理速度上比Qwen-3-8B等模型快5倍,极限场景下最高220倍加速[5] - 在128K长文本场景下,8B版本仅需Qwen3-8B 1/4的缓存存储空间,大幅降低资源需求[5][16] 性能表现 - MiniCPM 4.0-8B在MMLU、CEval等基准测试中性能对标Qwen-3-8B,超越Gemma-3-12B[10] - 0.5B版本实现每秒600 token高速推理,性能超越Qwen-3 0.6B[11] - 采用"高效双频换挡机制",根据任务自动切换稀疏/稠密注意力模式,实现不同任务的高效响应[13] 技术创新 - 提出InfLLM v2可训练稀疏注意力层,稀疏度从行业40%-50%降至5%,计算量仅为1/10[26][29] - 自研CPM.cu推理框架实现5倍速度提升,BitCPM量化算法实现4-bit量化,模型瘦身90%仍保持性能[31][32] - 开发UltraClean数据过滤策略,验证成本下降90%,处理15万亿token数据仅需1000小时CPU时间[33] 行业影响 - 模型已在英特尔、高通、华为昇腾等主流芯片平台完成适配,支持多种开源框架部署[18] - 与DeepSeek形成技术互补,面壁专注端侧稀疏化方案,DeepSeek强化云端模型能力[42][43] - 提出大模型"密度定律",认为语言模型能力密度每100天翻一番[49] 未来发展 - 计划近期推出更多MiniCPM系列基础模型及多模态模型[51] - 模型已在可信调查问卷生成、工具使用等场景展现广泛可用性[38] - 技术突破将推动手机、车机等端侧AI模型更新,可能重塑应用生态[19]
国泰海通|电子:Deepseek R1更新,商业场景拓展加速
Deepseek R1模型性能升级 - 深度思考能力对标国际顶尖模型OpenAI-o3和Gemini-2-5-Pro-0506 在数学、编程与通用逻辑等多个基准测评中整体表现接近[3] - 蒸馏训练性能显著提升 基于Deepseek-R1-0528思维链训练的Qwen3-8B Base模型在AIME2024数学测试中性能仅次于原模型 与Qwen3-235B相当[3] - 幻觉率降低45-50% 在改写润色、阅读理解等场景表现优化 同时支持议论文、小说等文体的长篇内容生成及工具调用[3] 商业化应用前景 - 性能迭代有望提升用户渗透率和使用频次 带动国产算力产业链需求增长[4] - 蒸馏模型在端侧设备表现优异 加速大模型在手机、PC、眼镜等终端设备的落地应用[4] 行业影响 - 模型更新被视为行业催化剂 推动国产大模型技术持续迭代[5] - 技术突破可能重塑AI赋能终端设备的竞争格局[4]
「AI新世代」茅台基金参投!面壁智能完成新一轮数亿元融资,大模型“吸金”几家欢喜几家愁
华夏时报· 2025-05-22 22:46
资本风向转变 - 今年以来AI行业资本风向明显转变,"投应用优于投模型"成为新共识,纯技术融资窗口正在关闭 [1][7] - 曾经风光无限的"AI六小虎"多数陷入融资静默,仅智谱和面壁智能在2025年公布新融资 [1][5] - 2025年AIGC领域融资数量61笔(截至5月22日),与2024年154笔、2023年153笔相比单笔金额显著缩小 [7] 面壁智能融资与战略 - 面壁智能最新数亿元融资由洪泰基金、国中资本等联合投资,重点布局"端侧大脑"在千行百业的规模化应用 [2] - 公司成立以来完成四轮融资:2023年天使轮(知乎领投)、2024年4月数亿元(春华创投领投)、2024年12月数亿元(龙芯创投等领投)、2025年最新轮 [2] - 核心产品为端侧模型MiniCPM系列,已迭代至全模态版本MiniCPM-o 2.6,差异化避开通用基座大模型竞争 [3] - 重点拓展汽车领域:2025年3月进军智能座舱,4月与英特尔/中科创达合作,本月与德赛西威发布端侧大模型语音方案 [5] 智谱的逆势崛起 - 智谱2025年连续获得超20亿元战略融资:杭州城投等投资10亿元(3月3日)、华发集团5亿元(3月13日)、成都高新区3亿元(3月19日)、北京AI基金追加2亿元(4月) [8] - 当前估值达360亿元,融资策略转向"股东即客户"模式,通过政务/产业场景实现商业落地 [8] - 启动上市辅导备案,成为大模型寒冬中少数持续获得资本支持的案例 [8] 行业生态剧变 - DeepSeek崛起引发两大转折点:垂直小模型数量增长超百倍,大模型调用成本下降近百倍 [7] - 技术门槛降低催生"单人AI超级应用公司"趋势,轻量级团队可用十万元成本开发应用 [7][8] - 行业将形成2-3个"基础模型平台+海量垂直应用"格局,DeepSeek、阿里等少数玩家主导底层,其他企业需快速切入场景求生 [9] 企业转型案例 - 零一万物拥抱DeepSeek技术,百川智能专注AI医疗,体现应用层转型趋势但2025年均未公布新融资 [7] - 面壁智能通过端侧模型绑定终端场景(AI Phone/PC/汽车等),成为资本青睐的应用代表 [3][5]
华泰证券|机器人产业跟踪
2025-06-30 09:02
纪要涉及的行业和公司 - **行业**:机器人产业、汽车行业、芯片行业 - **公司**:小鹏汽车、瑞芯微、恒玄、全志科技、德州仪器、恩利公司、谷歌、英伟达、特斯拉、浙江宏泰、荣泰公司、科达利公司、照明、中新福材、小米、华为云平台、金阳股份、蒙丽尔、绿谐波、秦川集团旗下的汉江机床、日发精机、华辰装备、秦川机床、浙海德曼、纽威数控、博古 [1][2][3][8] 纪要提到的核心观点和论据 小鹏汽车机器人进展 - 小鹏汽车在机器人领域进展迅速,软件自研和自动驾驶技术领先,硬件供应链降本优势明显,预计 2026 年量产 ToB 端机器人 [1][2] - 2025 年上海车展发布的 AI 机器人通过视觉学习实现自主行走,步态优雅,演示效果超预期,此前市场预期较低 [2] - 硬件采用丝杠、高自由度手部和轴向磁通电机等创新技术,成为国内首个大批量使用丝杠的企业,轴向磁通电机功率密度高,有望解决量产痛点 [3][4] 2025 年上海车展情况 - 人流和车型数量减少,部分重要车型提前或延后亮相 [5] - 自主品牌在新能源和智能化方面迭代显著,超越合资品牌,传统自主车企新车型数量和质量优于新势力 [5] - 中大型 SUV 和 MPV 市场预计五六月明显复苏 [5] 机器人产业关注环节 - 市场对操作系统、SoC 芯片和大模型等偏软环节关注度提升,端侧模型基于 DeepSeek 开源模型蒸馏取得进展,海外对 BCC 下一代模型预期较高 [1][6][7] 芯片环节发展 - 2025 年一季度机器人 SoC 公司业绩亮眼,收入和净利润大幅增长,AI 驱动下端侧系统级芯片需求快速增长 [1][8] - 瑞芯微等公司推出新产品并计划推出下一代产品,利润弹性较大 [1][8] MCU 模拟芯片市场变化 - MCU 模拟芯片市场回暖,德州仪器季报显示工业下游需求回升,国内恩利公司有布局 [1][9] - MCU 需求受机器人潜在需求拉动,国产化替代周期加快将提升传统需求增速 [1][9] 海外大厂动态 - 谷歌将在 5 月 IO 大会展示 RT - One 和 RT - Two 机器人模型,揭示未来对机器人端侧模型的展望 [10] - 英伟达 5 月发布季报,其重点布局的机器人端侧场景进展值得关注 [10] 特斯拉动作及影响 - 发布微型丝杠和健身方案,对国内产业链评估并明确订单意向,推进国产化替代链发展 [3][11] T 链产业变化 - 荣泰公司在结构件轻量化和微型丝杠领域卡位优势明显,T 链零部件领域逐步清晰 [12] - 科达利公司在谐波减速器领域取得进展,预计二季度或年终有供应突破 [12][13] 轻量化材料供应企业 - 照明、中新福材等公司在轻量化材料供应方面表现突出,照明获得项目定点需求并明确合作 [14] 国内机器人产业链发展 - 国内机器人相关产业链将迎来 Demo 产品展示、融资合作和供应生态链明晰等积极变化 [15] - 小米产业链中的金阳股份与小米深度合作,有望拓展合作领域 [15] 二季度国内机器人公司预期 - 二季度国内机器人相关公司将有订单突破,谐波减速器领域企业有望取得进展 [16] - 小鹏、小米等公司产品展示和市场反响将推动相关供应商重新定价 [16] 人形机器人丝杠设备情况 - 北京机床展上人形机器人丝杠设备需求旺盛,国内机床公司订单充足但供不应求 [17] - 国内磨床设备价格低于日本三井,企业倾向购买本土磨床 [17][18] - 国内企业推动专用磨床研发和车铣复合加工方式,提高效率并降低成本 [18][19] - 人形机器人专用车床相比通用卧式车床价值更高,能缩短加工时间和降低成本 [20] - 以车代磨能否全面取代前端工序需观察下游产品验证情况 [21] 其他重要但是可能被忽略的内容 - 端侧模型能在几十 TOPS 算力下运行几十亿参数的模型,未来几个月内相关变化可能逐步显现 [7] - 博古等未上市公司与国内丝杠企业合作,通过硬车工艺将生产时间压缩到 10 至 20 分钟 [18]