端侧大模型

搜索文档
面壁智能获新一轮数亿元融资:端侧大模型技术与商业化持续突破
格隆汇· 2025-05-21 13:19
融资情况 - 公司成功完成新一轮数亿元融资,由洪泰基金、国中资本、清控金信和茅台基金联合投资[1] - 2024年起已完成三轮数亿元级别融资:2024年4月由春华创投领投,2024年12月由龙芯创投等联合领投,2025年5月完成最新一轮融资[1] - 公司成为市场上极少数能持续顺利融资的企业,彰显市场对其"端侧路线"战略的高度认可[1] 商业化进展 - 在汽车行业加速落地,发布全球首个车端纯端侧智能助手"小钢炮超级助手cpmGO",实现本地处理语音、视觉、车控推理[2] - 2025年4月与长安马自达合作推出MAZDA EZ-60车型,标志端侧大模型在汽车座舱领域商业化进入新阶段[2] - 已与长安汽车、上汽大众、长城汽车等头部车企达成多款车型定点合作,并与高通、英特尔等产业链企业深度协同[2] 垂直领域应用 - 法律领域参与最高人民法院"法信法律基座大模型"研发,助力深圳中院上线"司法审判垂直大模型",试运行以来辅助立案29.1万件、生成文书初稿1.16万份[3] - 教育领域与清华大学合作推出AI伴学助手"清小搭",学生结业率超40%,为传统MOOC的10倍,计划推广"全自动课堂MAIC"模式[3] 技术研发 - MiniCPM系列模型表现突出:MiniCPM-o 2.6以80亿参数实现全模态实时交互,MiniCPM-V 2.6以80亿参数实现200亿参数以下多模态理解能力领先[4] - MiniCPM系列平台累计下载量突破1000万次,在Hugging Face平台获"最多下载、最受欢迎中国大模型"称号[4] - 公司端侧模型在图像理解、语音处理等领域达到国际领先水平,推动端侧智能技术发展[4]
面壁智能完成新一轮亿级融资
搜狐财经· 2025-05-21 10:37
融资动态 - 公司完成新一轮数亿元融资 由洪泰基金、国中资本、清控金信和茅台基金联合投资 [1] - 2024年以来已连续完成3轮融资 显示资本市场对其技术路线的高度认可 [1] 技术突破 - 2024年9月发布MiniCPM 3 0模型 4B参数性能超越GPT-3 5 [1] - 2024年8月发布MiniCPM-V 6模型 8B参数实现20B以下多模态理解3项SOTA 达到GPT-4V水平 [1] - 2025年1月发布MiniCPM-o 2 6模型 8B规模实现全模态实时交互 [1] - 形成全模态/多模态/基座模型完整矩阵 持续刷新端侧大模型能力边界 [1] 市场表现 - MiniCPM系列获评2024年Hugging Face"最多下载、最受欢迎中国大模型" [1] - 平台累计下载量突破1000万次 [1] 商业化落地 - 推出全球首个车端纯端侧智能助手"小钢炮超级助手cpmGO" [2] - 参与研发最高人民法院"法信法律基座大模型" [2] - 与清华大学合作推出AI学生成长助手"清小搭" 覆盖全校本科生 [2] 战略规划 - 本轮融资将用于构筑技术/产品壁垒 加速行业赋能与生态拓展 [2] - 推动"端侧大脑"在千行百业规模化应用 [2]
手机流畅处理128K长文本,vivo端侧新算法突破内存限制 | ACL 2025
量子位· 2025-05-20 13:12
vivo端侧大模型团队 投稿 量子位 | 公众号 QbitAI 在端侧设备上处理长文本常常面临计算和内存瓶颈。 vivo AI研究院 推出的EdgeInfinite算法专为端侧设备设计,让设备处理超长文本时更加高效流畅,该方法能够在不到10GB GPU内存的设 备上处理长达128K tokens的输入。 该研究成果已中稿ACL 2025。 以下是更多详细内容介绍。 EdgeInfinite:解决端侧设备长文本处理的高效算法 端侧LLM在实际应用中会遇到很多长文本输入的场景(例如通话摘要和个人文档总结),但由于端侧设备的资源限制,现有的LLM在部署到 端侧后都无法处理很长的上下文。 这是由于现在LLM都是基于Transformer架构,其计算耗时和内存占用会随着输入长度增加而显著增长,尤其当需要将Transformer类模型 部署到端侧设备上时,面临的挑战会愈发突出。 为了解决这类问题, vivo AI研究院 提出了一种用于端侧设备的长文本算法—— EdgeInfinite ,该算法通过一个可训练的 门控记忆模块 将记忆压缩算法集成到了 Transformer架构 中。 本方法与原生的Transformer架构 ...
AI原生手机之战:三大阵营的对决
36氪· 2025-05-07 20:23
行业趋势 - 2024年中国AI手机出货量同比激增591%,渗透率从2023年的3%跃升至22%,预计2025年将突破1.18亿台,占整体市场的40.7% [4] - 全球600美元以上高端机型占比突破30.9%,其中AI功能贡献了75%的溢价能力 [4] - 头部厂商研发投入占比攀升至12%-15%,远超传统硬件创新周期 [4] - 行业面临硬件创新枯竭、用户换机周期拉长至51个月的困境,集体押注AI [5] 技术演进 - AI手机需具备端侧大模型算力、系统级AI融合、场景化主动服务等特征,与早期仅搭载语音助手或美颜算法的「伪AI手机」不同 [8] - AI在手机中的表现类似于自动驾驶技术在新能源汽车上的应用落地,分为辅助驾驶和高阶辅助驾驶 [9] - 影像革命从传统比拼主摄范围转向AI驱动的视频创作,涉及芯片、算法、光学重构等全新技术方案体系 [10] - 交互升级体现在智能体的任务调度与复杂处理,如荣耀Magic7的「YOYO智能体」可全流程执行购买咖啡等任务 [10] 厂商动态 - OPPO Find X8系列推出AI一键闪记功能,荣耀x70i具备AI拍照聚焦、任意门等功能,华为畅享80主打AI通话 [2] - vivo X200系列搭载「蓝心大模型」,夜景动态范围提升3倍,OPPO Find系列采用「AI导演模式」自动剪辑15秒短视频 [10] - 华为通过鸿蒙系统与麒麟芯片的软硬协同实现预判能力,如通勤时自动预加载导航App [11] - 苹果首次披露「Apple Intelligence」体系,将大模型能力深度嵌入iOS 18,支持自然语言调用跨应用服务 [13] 硬件与生态 - 2025年Q1智能硬件AI芯片出货量同比激增420%,未硬件AI化的机型均价同比下跌12% [16] - 高通骁龙8 Gen4预留「AI算力池」,华为向第三方开放「盘古大模型」接口,吸引超2000家应用接入鸿蒙生态 [17] - 联发科天玑9400通过NPU能效优化,AI摄影功耗下降80%,荣耀Magic7系列搭载专业通信芯片HONOR C2,弱网信号提升20% [16] 竞争格局 - 苹果坚持自研和本地化合作,端侧闭环,但被批评在AI方向过于保守 [17][19] - 华为主打端云协同,通过自主研发芯片与云端盘古大模型处理复杂任务 [20] - 小米、OV、荣耀为代表的开放派拥抱第三方大模型,构建「智能体商店」生态 [20] - 华为因鲲鹏、异腾等算力平台及20%的研发投入强度,被认为最有机会领跑AI手机市场 [22] 未来挑战 - 厂商需在算力、生态和场景的平衡中获得优势,仅聚焦传统场景将陷入同质化泥潭 [22] - 未来5年无法构建AI原生能力的品牌可能被动退场 [22] - AI手机是否是终极命题仍存疑,未来智能终端设备形态可能颠覆现有手机概念 [23]
ICML 2025 Spotlight|华为诺亚提出端侧大模型新架构MoLE,内存搬运代价降低1000倍
机器之心· 2025-05-07 08:33
核心观点 - Mixture-of-Experts(MoE)在推理时仅激活每个token所需的一小部分专家,凭借稀疏激活特点成为当前LLM主流架构,但整体参数规模仍大于同等性能的Dense模型,在显存资源受限的端侧部署场景面临挑战 [1] - 现有专家卸载(Expert Offloading)方案存在两大缺陷:频繁加载不同专家导致显著推理延迟,批量解码场景可能需加载整层所有专家加剧显存压力 [11] - 研究人员提出Mixture-of-Lookup-Experts(MoLE),通过将专家输入改为embedding token并采用查找表替代矩阵运算,从根本上规避频繁加载开销 [5][6] 技术原理 - MoLE核心思想是预先计算所有可能的输入-输出对应关系并存储为查找表,用简单查找操作代替矩阵运算,需满足专家模块输入来自离散有限集合且检索过程不依赖密集计算 [5] - embedding token天然具备离散有限特性,数量与词表大小一致,可通过token ID直接寻址,满足查找表构建要求 [6] - 训练阶段MoLE与标准MoE有三点区别:输入调整为embedding token、激活所有路由专家、仅使用语言建模损失 [8][9][10] 推理优化 - 推理前MoLE通过预构建查找表完成专家模块重参数化,以embedding层权重矩阵作为专家输入计算完整映射集合 [15] - 查找表构建完成后删除原始路由专家模块,存储在下层设备中,推理时根据token ID直接检索专家输出 [16] - MoLE推理时仅保留共享专家模块,计算量与Dense模型相当,传输开销比MoE减少数个量级,存储需求与单个专家模块同数量级 [17] 实验验证 - 在Pile数据集100B-token子集上训练160M/410M/1B参数模型,控制MoE和MoLE训练参数量相等 [20] - 相同条件下MoLE性能与MoE相当且显著优于Dense,传输开销减少千倍以上 [21] - V100评测显示MoLE推理延迟与Dense基本一致,批量解码场景下延迟稳定,显著优于MoE [22] 性能分析 - 专家数量提升时模型性能同步提升,但专家隐层维度增大到一定程度后性能受限于查找表固定大小达到饱和 [25][26] - 消融实验证实MoLE训练无需辅助损失,查找表可压缩至3-bit精度(如NF3格式)而性能基本不变 [24][27] - MoLE通过激活所有专家弥补输入缺乏上下文信息的缺陷,共享专家和路由保留上下文理解能力 [26][27]
智能车速度刷新:仅10个月,首个纯端侧大模型上车量产!
量子位· 2025-04-24 18:29
核心观点 - 端侧大模型在汽车智能座舱领域实现突破性进展,面壁智能的cpmGO产品以纯端侧部署、高效低成本、全场景覆盖等特性刷新行业纪录 [4][7][10] - 行业正从云端依赖转向端云协同,端侧大模型凭借隐私安全、即时响应、弱网稳定等优势成为智能汽车"数字脑干" [38][41][48] - 汽车智能化进入"效能比"竞争阶段,端侧方案有效解决算力内卷和云端服务高成本痛点 [42][43][44] 产品技术 - cpmGO是行业首个纯端侧大模型驱动的智能助手,具备91%执行准确率、毫秒级响应、100%数据不离车等特性 [10][27][30] - 采用自研MiniCPM模型,尺寸不足1B-8B却实现GPT-4V级别效果,通过知识密度压缩技术平衡性能与功耗 [7][28][37] - 整合多模态感知(视觉/语音/GUI)和主动服务Agent,实现从环境感知到意图执行的端到端闭环,动作准确率超91% [30][33][36] - 纯端侧设计支持隧道/山区等弱网环境全功能运行,解决云端方案87%失效率的行业痛点 [29][42][44] 行业突破 - 从研发到量产仅用10个月,打破汽车行业按年计算的传统周期 [3][4][14] - 与十余家芯片厂商(高通/英特尔/英伟达等)深度适配,建立端侧开发生态 [10][40] - 已落地长安马自达/上海大众/长城等整车厂及德赛西威等Tier1厂商 [13][38] - 与英特尔联合发布首个车载GUI智能体,与中科创达共建AI原生操作系统 [38][40] 趋势洞察 - 大模型知识密度每3.3个月翻番,同等性能下参数每100天减半,推动端侧部署加速 [39] - 车机芯片快速适配Transformer架构,推理速度持续提升支撑端侧进化 [39][41] - 端侧模型将取代云端成为任务分发的"第一大脑",推动汽车向"机器人"形态演进 [38][48] - 行业正从算力竞赛转向效能竞争,端侧方案可降低整车5%-8%智能化成本 [42][43]