Workflow
端侧模型
icon
搜索文档
面壁智能CEO发全员信:成立汽车业务线、让端侧模型更多上“车”
中国经营报· 2025-08-15 22:56
公司战略与组织调整 - 公司于7月下旬进行新一轮组织架构调整 专门成立汽车业务线一级组织 旨在实现压强式突破 将MiniCPM端侧模型应用到更多汽车上 [1] - 公司CEO指出2025年大模型进入中场战事阶段 应用落地集中走向实战 商业化成为关注焦点 [1] - 公司已与吉利 长安马自达 上汽大众 一汽大众 长城 极氪等汽车品牌达成合作 [1] 产品与技术优势 - 公司MiniCPM端侧系列模型累计下载量超过1300万次 [2] - 端侧模型部署在终端设备运行 不需要依赖云端服务器处理推理任务 [2] - 端侧模型为汽车智能座舱提供意图理解能力 结合舱内外感知能力 实现从被动响应向主动智能转变 [3] - 端侧模型上车可使车辆在无网络环境下保持完整功能体验 确保响应迅速和隐私安全 [3] 行业竞争格局 - 科技大厂纷纷布局小尺寸模型赛道 包括阿里通义千问开源多款小尺寸模型 腾讯混元开源0.5B到7B端侧系列模型 OpenAI开源包括较小尺寸GPT-oss-20B在内的两款模型 [2] - 百度 科大讯飞 商汤 腾讯 阿里巴巴等科技企业都在向汽车端布局 [4] - 行业专家指出汽车终端是大模型必争之地 AI大模型具有通用性 可通过语音功能实现与汽车中控系统交互 未来可能与自动驾驶融合 [4] 商业化进展 - 搭载公司端侧模型的首款量产车型长安马自达新能源车EZ-60将于8月底上市 [1] - 公司在政法领域延伸模型服务 助力北京市司法局研发行政复议垂直大模型上线运行 覆盖从立案到结案全流程 被列入北京数字服务十大标杆成果 [4] 战略定位与竞争优势 - 公司较早锚定小参数模型和端侧模型的战略方向 [2] - 公司认为更多创业公司和巨头涌入端侧赛道印证了其选择赛道的正确性与前景 [2] - 公司核心压力在于需要在新入局者追赶技术优势时 更快建立商业优势并转化为商业成功 [2]
面壁李大海谈端侧模型竞争:元年开启,巨头涌入印证前景无限可能
环球网· 2025-08-15 15:48
行业趋势与战略判断 - 公司CEO提出2025年将迎来"端侧元年" 标志着机遇大门开启但市场格局尚在成形初期[1] - 端侧模型优势及"端云协同"成为行业共识 越来越多大模型厂商开始关注端侧领域[1] - 行业呈现多元化发展态势 除公司外阿里通义千问 腾讯混元开源多款小尺寸模型 OpenAI首次开源两款模型包括尺寸较小的GPT-oss-20B[1] 公司竞争定位与战略 - 公司认为压力并非来自友商竞争 更多创业公司和巨头涌入印证了赛道正确性与前景无限可能[1] - 公司核心压力在于将技术优势转化为商业优势 需要极致追求技术与用户价值的平衡[1] - 公司确立"高效"为核心竞争力 追求"同等性能我最小 同等参数我最强"的端侧模型方案[1] 技术突破与行业贡献 - 研究团队发现并提出描述大模型知识密度的"密度法则(Densing Law)" 在大模型规模法则遇到挑战时开辟新的认知视角[1] - 2024年初面壁小钢炮MiniCPM端侧模型诞生 以2.4B参数能力超越Mistral 7B模型实现以小博大[2] - 系列端侧模型累计下载量超过1300万 与高通 NVIDIA MTK Intel 华为 瑞芯微电子等国内外主流芯片厂商方案全面适配[2] 商业化进展与落地应用 - MiniCPM模型作为"端侧大脑"核心在汽车 手机 PC 家居等终端领域成功落地[2] - 在智能化汽车的新一代人机交互(AI座舱)方面形成特色优势[2] - 2024年7月下旬公司进行新一轮组织升级 专门成立一级组织"汽车业务线"通过压强式突破推动MiniCPM模型广泛上车[2]
面壁智能成立汽车业务线,首款MiniCPM车型月底上市
每日经济新闻· 2025-08-15 15:45
公司动态 - 面壁智能CEO李大海发出全员信,披露公司7月下旬进行了新一轮组织升级,专门成立一级组织——汽车业务线 [1] - 公司已与吉利、大众、长安、长城、广汽等车企开展合作 [1] - 搭载面壁MiniCPM端侧模型的首款量产车型——长安马自达战略级新能源车MAZDA EZ-60预计本月底上市 [1] 行业合作 - 面壁智能与多家知名车企建立合作关系,包括吉利、大众、长安、长城、广汽 [1] - 公司技术将首次应用于量产新能源车型MAZDA EZ-60 [1]
Qwen紧追OpenAI开源4B端侧大模型,AIME25得分超越Claude 4 Opus
量子位· 2025-08-07 08:56
核心观点 - Qwen团队最新发布两款4B端侧模型Qwen3-4B-Instruct-2507和Qwen3-4B-Thinking-2507,在性能上实现显著突破,尤其在小模型尺寸下超越部分大模型表现 [2][3][5][7] - 两款模型分别针对通用任务和专家级推理任务优化,支持256K长上下文并具备端侧部署优势 [7][8][16][17][24] - Qwen3-4B-Thinking-2507在AIME25数学测评中得分81.3,超越Gemini 2.5 Pro和Claude 4 Opus [4][5][23] 模型性能突破 Qwen3-4B-Instruct-2507 - 通用能力超越闭源模型GPT-4.1-nano,与30B MoE模型Qwen3-30B-A3B性能接近但参数量仅其1/7.5 [13][14][15] - 关键指标:MMLU-Redux得分84.2(vs GPT-4.1-nano 80.2),GPQA得分62.0(vs 50.3),LiveBench 20241125得分63.0(vs 41.5) [18] - 增强多语言覆盖和长文本理解能力,支持扩展至1M上下文 [17] Qwen3-4B-Thinking-2507 - 专攻复杂推理任务,AIME25得分81.3超越前代65.6分及Qwen3-30B-A3B的70.9分 [23][25] - 推理性能提升显著:HMMT25得分55.5(vs 前代42.1),ZebraLogic得分80.2(vs 35.2) [18][25] - 在Agent任务中全面碾压前代,如TAU1-Retail得分66.1(vs 33.9),TAU2-Airline得分58.0(vs 28.0) [25] 技术特性与行业影响 - 端侧适配性:支持树莓派等设备,提供GGUF量化版本和llama.cpp部署方案 [2][8][27][28] - 模型效率:4B密集模型性能接近30B MoE模型,重新定义小模型能力边界 [11][15][23] - 开源策略:通过抱抱脸和魔搭社区提供模型下载,与OpenAI同期开源形成竞争 [26][34][35] 开发者支持 - 部署工具链完整:支持Ollama、LMStudio、MLX-LM等主流框架 [27] - 优化建议:针对内存限制设备推荐缩短上下文长度,复杂推理任务建议使用>131K词元 [28][29] - Prompt设计规范:提供数学题逐步推理和选择题JSON结构化回答模板 [31] 行业动态 - 发布时间点卡位OpenAI开源窗口,引发开发者社区高度关注 [34][35] - 性能对比:Qwen3-4B系列在多项基准测试中优于GPT-4.1-nano和Claude 4 Opus [18][25] - 市场期待:用户呼吁Qwen团队加速发布Qwen3-8B系列模型 [31][33]
长文本推理 5 倍提速!面壁MiniCPM4 端侧模型发布,0.5B模型效果秒杀同级
AI前线· 2025-06-12 14:07
模型发布与性能 - 新一代"面壁小钢炮" MiniCPM4 0端侧模型发布 包含8B和0 5B两种参数规模 其中8B稀疏闪电版带来端侧性能大跃升 0 5B版本适配广泛终端场景 [1] - MiniCPM4 0-8B是首个原生稀疏模型 5%极高稀疏度加持系统级创新技术 在MMLU CEval MATH500 HumanEval等基准测试中以仅22%训练开销 性能比肩Qwen-3-8B 超越Gemma-3-12B [2] - MiniCPM4 0-0 5B在MMLU CEval BBH HumanEval等基准测试中性能超越同级Qwen-3-0 6B Llama 3 2 Gemma3 并通过原生QAT技术实现几乎不掉点的int4量化 推理速度达600 Token/s [4] 技术架构创新 - 采用新一代InfLLMv2稀疏注意力架构 稀疏度从行业普遍的40%-50%降至5% 注意力层仅需1/10计算量完成长文本计算 算子底层重写进一步提升速度与精准性 [14] - 引入高效双频换挡机制 根据任务特征自动切换注意力模式 长文本启用稀疏注意力降低计算复杂度 短文本切换至稠密注意力确保精度与速度 [17] - 开发并开源InfLLMv2高效训练与推理算子 提出高效LogSumExp估计算法 相比DeepSeek NSA算法节省60%计算开销 [16] 性能表现对比 - 在MMLU测试中 MiniCPM4-8B得分为75 83 高于Qwen3-8B的75 90和Gemma3-12B的73 36 [5] - 在CEval测试中 MiniCPM4-8B得分81 36 显著高于Qwen3-8B的80 35和Gemma3-12B的62 23 [5] - 在HumanEval测试中 MiniCPM4-8B得分85 37 接近Qwen3-8B的85 98 高于Gemma3-12B的83 54 [5] 端侧优化与部署 - 实现长文本缓存大幅锐减 128K长文本场景下仅需Qwen3-8B 1/4缓存存储空间 量化版模型瘦身达90% [8] - 自研CPM cu推理框架实现5倍速度提升 集成高效稀疏注意力算子 投机采样和量化技术 [19][21] - 已适配Intel 高通 MTK 华为昇腾等主流芯片 可在vLLM SGLang llama cpp等开源框架部署 [10] 训练与数据策略 - 采用Ultra-FineWeb高知识密度数据筛选机制 实现90%验证成本降低 处理15万亿token数据仅需1000小时CPU时间 [28] - 应用风洞2 0方案 将超参数配置搜索实验次数降低50% 采用Chunk-wise Rollout技术提升GPU资源利用率 [29] - 仅用22%训练开销即达到同尺寸开源模型能力水平 训练策略包括FP8训练和MTP监督信号等前沿技术 [28][30]
面壁MiniCPM4端侧模型发布:长文本推理 5 倍提速,0.5B 模型拿下新SOTA
AI科技大本营· 2025-06-10 17:31
模型发布 - 2025智源大会发布新一代端侧模型MiniCPM4 0 包含8B稀疏闪电版和0 5B版本 前者是首个原生稀疏模型 5%极高稀疏度实现端侧长文本处理能力 后者适配广泛终端场景 [1] - MiniCPM4 0-8B在MMLU CEval MATH500 HumanEval等基准测试中以仅22%训练开销实现性能比肩Qwen-3-8B 超越Gemma-3-12B [2][6] - MiniCPM4 0-0 5B在MMLU CEval BBH HumanEval等测试中性能超越同级Qwen-3-0 6B Llama 3 2 Gemma3 并通过原生QAT技术实现600 Token/s极速推理 [2] 性能突破 - 代号"前进四"的MiniCPM4 0实现长文本推理速度5倍常规加速 最高220倍加速(显存受限场景) 注意力机制采用高效双频换挡技术 长文本用稀疏 短文本用稠密 [4] - 在128K长文本场景下 MiniCPM4 0-8B仅需Qwen3-8B 1/4的缓存存储空间 量化版实现90%模型瘦身 性能保持稳健 [9] - 8B版本微调出MCP Client和MiniCPM4-Surve两个特定能力模型 后者在内容质量评估中与OpenAI Deep Research持平 [11] 技术创新 - 采用新一代稀疏注意力架构InfLLMv2 稀疏度降至5% 注意力层仅需1/10计算量完成长文本处理 相比DeepSeek NSA节省60%计算开销 [16][18][20] - 自研CPM cu推理框架实现5倍速度提升 集成FR-Spec轻量投机采样技术 通过词表裁剪策略优化低频词汇处理 [22] - 开发P-GPTQ前缀敏感量化方法 在INT4量化设置下性能退化最小 同时训练BitCPM三值量化模型 0 5B版本在知识任务表现优异 [23][26] 行业应用 - 已实现Intel 高通 MTK 华为昇腾等主流芯片适配 支持vLLM SGLang llama cpp等开源框架部署 性能超过同尺寸开源模型Qwen-3-8B [12] - 端侧长文本突破使个人助理产品能处理用户隐私信息 如聊天记录 位置数据 多模态感知场景如自动驾驶需100K以上上下文长度 [14] - 跨平台部署框架ArkInfer解决端侧芯片碎片化问题 提供高效推理速度并作为多功能兼容层 [27] 研发体系 - 采用Ultra-FineWeb高知识密度数据筛选机制 验证成本降低90% 处理15万亿token数据仅需1000小时CPU时间 [29] - 应用风洞2 0方案在小模型上搜索最优超参数 实验次数降低50% 采用FP8训练和MTP监督信号等前沿技术 [30] - 全平台下载量累计破1000万 基于"大模型密度定律"持续提升知识密度与智能水平 [32]
0.5B以小搏大拿下端侧模型新SOTA:4090可跑,长文本处理5倍常规加速丨清华&面壁开源
量子位· 2025-06-10 15:35
模型性能与效率 - MiniCPM4提供8B和0.5B两种参数规模,仅使用同级别开源模型22%的训练开销就达到同级别最优性能 [1] - MiniCPM4-8B是首个开源原生稀疏模型,5%极高稀疏度支持长文本和深思考在端侧运行 [2] - 在MMLU等基准测试中,MiniCPM4-8B性能比肩Qwen-3-8B,超越Gemma-3-12B;0.5B版本超越同级Qwen-3-0.6B等模型 [3] - 在端侧芯片上实现长文本处理5倍常规加速与极限场景百倍加速 [4] 技术创新架构 - 采用高效稀疏注意力架构InfLLM v2,保持性能同时实现高效长上下文处理 [8] - InfLLM v2不引入额外参数,短序列推理速度不受影响 [10] - 相比NSA减少60%上下文选择计算成本 [11] - 上下文分块分区域处理,实现注意力层智能化选择机制 [14] 推理加速技术 - 构建轻量化CUDA推理框架CPM.cu与跨平台部署框架ArkInfer [20] - 提出FR-Spec词表剪枝技术,降低75%计算开销,实现2倍生成加速 [26][28][29] - 开发前缀感知GPTQ方法,排除初始词元干扰提升量化质量 [31][32] - 采用位置感知校准策略,消除初始词元统计偏差 [33] 数据与训练优化 - 仅使用8T词元达到Qwen3用36T词元的效果 [56] - 提出UltraClean高能力密度数据筛选方法,构建1T+高质量中英文语料 [61][71] - 开发UltraChat-v2合成数据框架,覆盖知识应用等五大技能领域 [77] - ModelTunnel v2预训练策略搜索仅需32GPU机时,大幅降低超参数搜索开销 [88] 应用场景表现 - 在Jetson AGX Orin上实现7倍解码加速,长序列处理优势明显 [108][109] - MiniCPM4-8B超越Gemma3-12B和Phi4-14B,0.5B版本超越Llama3.2-1B [114] - 训练数据量仅为Qwen3的22%但性能相当 [116] - 在128K上下文窗口达到100%准确率,稀疏度仅5% [119]
开启端侧长文本时代!面壁全新架构,让小钢炮最快提升220倍
机器之心· 2025-06-09 16:03
端侧大模型技术突破 - 面壁智能发布MiniCPM 4.0模型,实现行业首个系统级上下文稀疏语言模型创新,稀疏度达5%,开启端侧长文本时代[3][4] - MiniCPM 4.0分为8B和0.5B两个版本,8B版本在长文本推理速度上比Qwen-3-8B等模型快5倍,极限场景下最高220倍加速[5] - 在128K长文本场景下,8B版本仅需Qwen3-8B 1/4的缓存存储空间,大幅降低资源需求[5][16] 性能表现 - MiniCPM 4.0-8B在MMLU、CEval等基准测试中性能对标Qwen-3-8B,超越Gemma-3-12B[10] - 0.5B版本实现每秒600 token高速推理,性能超越Qwen-3 0.6B[11] - 采用"高效双频换挡机制",根据任务自动切换稀疏/稠密注意力模式,实现不同任务的高效响应[13] 技术创新 - 提出InfLLM v2可训练稀疏注意力层,稀疏度从行业40%-50%降至5%,计算量仅为1/10[26][29] - 自研CPM.cu推理框架实现5倍速度提升,BitCPM量化算法实现4-bit量化,模型瘦身90%仍保持性能[31][32] - 开发UltraClean数据过滤策略,验证成本下降90%,处理15万亿token数据仅需1000小时CPU时间[33] 行业影响 - 模型已在英特尔、高通、华为昇腾等主流芯片平台完成适配,支持多种开源框架部署[18] - 与DeepSeek形成技术互补,面壁专注端侧稀疏化方案,DeepSeek强化云端模型能力[42][43] - 提出大模型"密度定律",认为语言模型能力密度每100天翻一番[49] 未来发展 - 计划近期推出更多MiniCPM系列基础模型及多模态模型[51] - 模型已在可信调查问卷生成、工具使用等场景展现广泛可用性[38] - 技术突破将推动手机、车机等端侧AI模型更新,可能重塑应用生态[19]
国泰海通|电子:Deepseek R1更新,商业场景拓展加速
Deepseek R1模型性能升级 - 深度思考能力对标国际顶尖模型OpenAI-o3和Gemini-2-5-Pro-0506 在数学、编程与通用逻辑等多个基准测评中整体表现接近[3] - 蒸馏训练性能显著提升 基于Deepseek-R1-0528思维链训练的Qwen3-8B Base模型在AIME2024数学测试中性能仅次于原模型 与Qwen3-235B相当[3] - 幻觉率降低45-50% 在改写润色、阅读理解等场景表现优化 同时支持议论文、小说等文体的长篇内容生成及工具调用[3] 商业化应用前景 - 性能迭代有望提升用户渗透率和使用频次 带动国产算力产业链需求增长[4] - 蒸馏模型在端侧设备表现优异 加速大模型在手机、PC、眼镜等终端设备的落地应用[4] 行业影响 - 模型更新被视为行业催化剂 推动国产大模型技术持续迭代[5] - 技术突破可能重塑AI赋能终端设备的竞争格局[4]
「AI新世代」茅台基金参投!面壁智能完成新一轮数亿元融资,大模型“吸金”几家欢喜几家愁
华夏时报· 2025-05-22 22:46
资本风向转变 - 今年以来AI行业资本风向明显转变,"投应用优于投模型"成为新共识,纯技术融资窗口正在关闭 [1][7] - 曾经风光无限的"AI六小虎"多数陷入融资静默,仅智谱和面壁智能在2025年公布新融资 [1][5] - 2025年AIGC领域融资数量61笔(截至5月22日),与2024年154笔、2023年153笔相比单笔金额显著缩小 [7] 面壁智能融资与战略 - 面壁智能最新数亿元融资由洪泰基金、国中资本等联合投资,重点布局"端侧大脑"在千行百业的规模化应用 [2] - 公司成立以来完成四轮融资:2023年天使轮(知乎领投)、2024年4月数亿元(春华创投领投)、2024年12月数亿元(龙芯创投等领投)、2025年最新轮 [2] - 核心产品为端侧模型MiniCPM系列,已迭代至全模态版本MiniCPM-o 2.6,差异化避开通用基座大模型竞争 [3] - 重点拓展汽车领域:2025年3月进军智能座舱,4月与英特尔/中科创达合作,本月与德赛西威发布端侧大模型语音方案 [5] 智谱的逆势崛起 - 智谱2025年连续获得超20亿元战略融资:杭州城投等投资10亿元(3月3日)、华发集团5亿元(3月13日)、成都高新区3亿元(3月19日)、北京AI基金追加2亿元(4月) [8] - 当前估值达360亿元,融资策略转向"股东即客户"模式,通过政务/产业场景实现商业落地 [8] - 启动上市辅导备案,成为大模型寒冬中少数持续获得资本支持的案例 [8] 行业生态剧变 - DeepSeek崛起引发两大转折点:垂直小模型数量增长超百倍,大模型调用成本下降近百倍 [7] - 技术门槛降低催生"单人AI超级应用公司"趋势,轻量级团队可用十万元成本开发应用 [7][8] - 行业将形成2-3个"基础模型平台+海量垂直应用"格局,DeepSeek、阿里等少数玩家主导底层,其他企业需快速切入场景求生 [9] 企业转型案例 - 零一万物拥抱DeepSeek技术,百川智能专注AI医疗,体现应用层转型趋势但2025年均未公布新融资 [7] - 面壁智能通过端侧模型绑定终端场景(AI Phone/PC/汽车等),成为资本青睐的应用代表 [3][5]