Workflow
模型量化
icon
搜索文档
OpenAI发布ChatGPT世代首个开源模型gpt-oss,4060Ti都能跑得动。
数字生命卡兹克· 2025-08-06 06:08
行业动态 - Google发布世界模型Genie 3 该模型引发行业高度关注 被视为游戏和VR领域的重要突破[3] - Anthropic发布Claude Opus 4 1 在编程能力上持续进化 被解读为针对OpenAI的竞争行为[5][7] OpenAI开源模型GPT-oss - 公司首次在ChatGPT时代发布开源模型 包含120B和20B两个MoE架构版本[9][12][14] - 模型采用Apache 2 0许可 允许自由使用 120B版本参数117B 激活参数5 1B 20B版本参数20 9B 激活参数3 6B 均支持128K上下文[14][15][16][17] - 原生支持4-bit量化技术 20B模型仅需12 8GB存储空间 可在16GB显卡运行 120B模型可在80G单卡运行[18][20][25][26] - 采用MXFP4量化格式 性能损失极小 与英伟达NVFP4技术类似[24][27][29] 模型性能表现 - 在MMLU测试中 120B和20B版本分别获得90 0和85 3分 接近OpenAI商业版本[32] - 在GPQA Diamond测试中分别获得80 1和71 5分 在AIME数学竞赛中表现优异[32][38] - 在Codeforces编程测试中分别获得2622和2516分 优于DeepSeek R1但逊于商业版本[32] - 在写作能力测试中 20B版本表现优于同尺寸开源模型 但逊于商业大模型[67][69] 应用场景 - 提供在线试用平台gpt-oss com 并已接入OpenRouter API服务[39][40] - 支持本地部署 可通过Ollama工具运行 20B版本响应速度极快[44][49][50][51] - 在代码生成和数学推理方面表现突出 但存在一定幻觉问题[74][75] - 被视为改变开源社区格局的重要产品 可能推动行业竞争格局变化[80][81]
端侧大模型20250801
2025-08-05 11:18
行业与公司 **行业**:端侧AI大模型发展(手机、PC、边缘设备等硬件载体)[1][2][3] **涉及公司**: - **海外**:Meta(LAMA系列)、微软(Phi-3系列)、谷歌(Gemini/Gamma)、苹果(A18芯片)、高通(骁龙8G3/8G4芯片)[1][3][15][16][17] - **国内**:腾讯(混元模型)、阿里(通义千问)、字节(豆包)、DeepSeek(征流技术)[22][23][25][26][27] --- 核心观点与论据 **1 端侧AI的驱动因素** - **硬件升级**:芯片NPU算力提升(如苹果A18、高通骁龙8G4支持7B至100亿参数模型运行,算力达35-50 TPS)[1][3][13] - **架构优化**:MOE(混合专家)和分组查询注意力技术降低内存占用(如微软Phi-3.5仅调用1-2个专家而非全部16个)[5][6][7][20] - **知识密度提升**:模型量化(高精度浮点数转低精度整数)、动态剪枝(适配数据集剪枝冗余参数)[8][9][11][12] **2 国内外技术路径对比** - **海外领先**:Meta LAMA系列为端侧模型底座,微软Phi-3.5擅长多语言任务,谷歌Gamma基于Gemini优化部署安卓设备[15][16][20][21] - **国内跟随与细分突破**: - 腾讯混元13B支持快慢思考模式(算力自适应),阿里通义千问205在演讲稿生成媲美人类[25][26] - DeepSeek通过征流技术压缩模型(小模型性能接近大模型)[10][22] **3 应用场景与商业化** - **硬件载体**:AI手机(Pixel集成Gamma)、AI PC(微软Windows平台)、AI眼镜(Meta)[17] - **国内落地**:字节豆包支持浏览器自动化(订酒店、票据识别),腾讯小程序为入口场景[27] --- 其他重要内容 - **隐私与协同**:端云协同弥补端侧算力限制,同时保障数据隐私[13] - **性能对比**:谷歌Gamma 7B模型评测优于LAMA2同参数模型[21] - **开源影响**:Meta LAMA免费开源推动行业标准建立[15][18] (注:原文未提及具体财务数据或百分比变化,故未引用)
面壁MiniCPM4端侧模型发布:长文本推理 5 倍提速,0.5B 模型拿下新SOTA
AI科技大本营· 2025-06-10 17:31
模型发布 - 2025智源大会发布新一代端侧模型MiniCPM4 0 包含8B稀疏闪电版和0 5B版本 前者是首个原生稀疏模型 5%极高稀疏度实现端侧长文本处理能力 后者适配广泛终端场景 [1] - MiniCPM4 0-8B在MMLU CEval MATH500 HumanEval等基准测试中以仅22%训练开销实现性能比肩Qwen-3-8B 超越Gemma-3-12B [2][6] - MiniCPM4 0-0 5B在MMLU CEval BBH HumanEval等测试中性能超越同级Qwen-3-0 6B Llama 3 2 Gemma3 并通过原生QAT技术实现600 Token/s极速推理 [2] 性能突破 - 代号"前进四"的MiniCPM4 0实现长文本推理速度5倍常规加速 最高220倍加速(显存受限场景) 注意力机制采用高效双频换挡技术 长文本用稀疏 短文本用稠密 [4] - 在128K长文本场景下 MiniCPM4 0-8B仅需Qwen3-8B 1/4的缓存存储空间 量化版实现90%模型瘦身 性能保持稳健 [9] - 8B版本微调出MCP Client和MiniCPM4-Surve两个特定能力模型 后者在内容质量评估中与OpenAI Deep Research持平 [11] 技术创新 - 采用新一代稀疏注意力架构InfLLMv2 稀疏度降至5% 注意力层仅需1/10计算量完成长文本处理 相比DeepSeek NSA节省60%计算开销 [16][18][20] - 自研CPM cu推理框架实现5倍速度提升 集成FR-Spec轻量投机采样技术 通过词表裁剪策略优化低频词汇处理 [22] - 开发P-GPTQ前缀敏感量化方法 在INT4量化设置下性能退化最小 同时训练BitCPM三值量化模型 0 5B版本在知识任务表现优异 [23][26] 行业应用 - 已实现Intel 高通 MTK 华为昇腾等主流芯片适配 支持vLLM SGLang llama cpp等开源框架部署 性能超过同尺寸开源模型Qwen-3-8B [12] - 端侧长文本突破使个人助理产品能处理用户隐私信息 如聊天记录 位置数据 多模态感知场景如自动驾驶需100K以上上下文长度 [14] - 跨平台部署框架ArkInfer解决端侧芯片碎片化问题 提供高效推理速度并作为多功能兼容层 [27] 研发体系 - 采用Ultra-FineWeb高知识密度数据筛选机制 验证成本降低90% 处理15万亿token数据仅需1000小时CPU时间 [29] - 应用风洞2 0方案在小模型上搜索最优超参数 实验次数降低50% 采用FP8训练和MTP监督信号等前沿技术 [30] - 全平台下载量累计破1000万 基于"大模型密度定律"持续提升知识密度与智能水平 [32]
低成本下的高性能模型,是悖论还是可能?
机器之心· 2025-06-01 01:15
低成本下的高性能模型 - 用户感知的模型性能下降现象普遍存在,表现为逻辑减弱、错误响应增多等问题,引发对AI公司有意降低模型性能以节省成本的质疑[2] - DeepSeek-R1满血版需要四台8卡一体机支持,硬件成本高达六七百万元,部分厂商采用蒸馏版或量化至4比特参数以降低成本,导致推理能力下降[3][4] - 满血版DeepSeek-R1参数达6710亿,FP8精度需8卡A100一体机运行,但量化至4比特后性能显著降低,用户质疑服务真实性[4] - 行业测算显示,满血版DeepSeek-R1服务每月机器成本4.5亿元,按现行收费标准亏损4亿元,采用AMD芯片方案仍亏损超2亿元[4] - 市场竞争加剧促使大厂采用低价免费策略,MaaS模式普遍亏损,厂商被迫通过模型蒸馏、量化等技术手段降低成本[5][6] 模型降本技术路径 - 行业普遍采用模型量化(如16位转8位)、剪枝和知识蒸馏等技术降低计算复杂度与内存占用,但可能引入误差导致输出精度下降[6] - 低成本方案中高端用户难以获取真正满血版模型,免费或低价服务多采用简化版或蒸馏版模型以平衡成本[6] - 量化通过降低权重数值精度减少硬件需求,但精度损失与性能下降形成核心矛盾[6] 行业竞争与成本压力 - 互联网大厂宣称接入相同满血版模型,但实际服务体验存在显著差异,反映成本控制策略分化[2] - 潞晨科技指出DeepSeek模型高昂成本使服务商利润空间趋零,部分厂商通过降低精度实现扭亏为盈[4] - 低价竞争环境下,厂商需持续探索非精度换性能的替代方案以维持运营[5]