大模型压缩 - 财报，业绩电话会，研报，新闻

大模型压缩

搜索文档

虎嗅· 2025-09-02 13:21

公司背景与融资情况 - Multiverse Computing成立于2019年最初聚焦量子计算软件解决金融领域投资组合优化和风险管理问题[5] - 公司完成5轮融资 2024年3月A轮融资2500万欧元一年多后B轮融资达1.89亿欧元估值从1.08亿美元涨至5亿美元一年增长5倍成为西班牙最大AI初创公司之一[2][4][6] - 团队40%成员拥有博士学位核心成员横跨金融量子物理与科技创业三大领域 CEO恩里克拥有数学计算机医学博士与MBA背景曾任西班牙Unnim银行副CEO[5] 技术突破与产品发布 - 核心技术CompactifAI采用量子物理张量网络方法能将大模型体积压缩80-95% 准确率仅下降2-3个百分点[8][11] - 2025年8月发布两款超小模型：SuperFly（苍蝇脑）基于1.35亿参数SmolLM模型压缩至9400万参数 ChickBrain（小鸡脑）将Llama 3.1 8B模型压缩至3.2B参数（压缩率60%）[12][13] - 压缩后模型推理速度提升4-12倍推理成本降低50-80% 在AWS云服务上每百万tokens处理费用从0.14美元降至0.10美元节省30%成本[16][18] 商业应用与合作伙伴 - 提供三种商业服务模式：AWS API访问私有部署许可以及通过服务提供商交付压缩模型[16] - 主要客户为大型互联网和软件企业AI团队应用于客服聊天机器人代码自动补全和文本分析等场景[17] - 与苹果三星 Sony HP等硬件巨头洽谈合作计划将超小模型嵌入下一代终端设备契合苹果轻量化本地模型战略[19] 行业竞争与市场定位 - 2024年起科技巨头纷纷布局小模型：Meta发布13亿参数LLaMA微型模型 Google推出2亿-7亿参数Gemma 微软Phi系列用14亿参数模型在数学编码任务超越50倍体积大模型[19] - AI推理优化成为创投圈新竞技场初创公司Neural Magic Deci OctoML等聚焦模型加速和自动选型赛道[20] - 公司技术壁垒面临挑战端侧模型需要配合设备计算资源能耗和发热等工程化问题且极度依赖原有模型能力[21][23] 技术原理与性能表现 - CompactifAI采用张量网络方法通过张量分解和矩阵低秩近似重构参数逻辑实现高维压缩并保留几乎所有信息[8][10] - 压缩后模型可在PC 手机汽车等设备运行将原需8张A100 GPU运行的LLM压缩至1-2张GPU甚至CPU上实时推理[16][18] - 已发布多个压缩模型版本包括Llama 4 70B精简版Llama 4 Scout Slim以及Llama 3系列和Mistral小模型精简版[11]