小模型

搜索文档
从大模型叙事到“小模型时代”:2025年中国产业AI求解“真落地”
36氪· 2025-09-03 18:19
小模型市场增长与规模 - 全球小语言模型市场规模预计从2025年9.3亿美元增至2032年54.5亿美元,年复合增长率28.7% [4] - 68%的企业已部署小模型,超过45%的企业实现成本优化与准确率双提升 [4] - 国内厂商小模型发布占比从2023年23%提升至2025年56%以上,成为增长最快细分赛道 [5] 小模型技术优势与特性 - DeepSeek-R1采用专家混合技术,仅激活部分网络,显著降低推理资源占用 [1] - 小模型实现本地化部署,如1.7B模型可运行于家用路由器8GB内存,无需高端GPU [3] - 相比大模型,小模型推理成本下降90%以上,响应时间从2-3秒缩短至500毫秒内 [12] 企业应用场景与案例 - 深圳福田区部署70名AI数智员工,处理240个政务场景,公文格式修正准确率超95%,审核时间缩短90% [1] - 金融与法律领域因专用训练和高解释性更倾向采用小模型,如保险理赔使用3B模型实现零人工干预 [15][19] - 边缘计算场景中,小模型部署于工厂端与手机端,实现低延迟与低带宽消耗,如SlimLM系列在Galaxy S24运行 [15] 厂商动态与产品发布 - 2025年多家厂商发布小于10B参数模型,包括阿里Qwen3系列(0.6B/1.7B/4B/8B)、腾讯Hunyuan-Tiny系列(0.5B/1.8B/4B/7B)和华为PanGu7B [6] - 厂商提供全栈解决方案,如阿里Qwen-Agent提供模块化插件,腾讯混元Lite降低部署门槛 [24] - 开源社区推动行业化适配,如DeepSeek医疗问答模型和MiniCPM教育场景集成 [24] 小模型与大模型的协同架构 - 企业采用混合架构,小模型处理流程化任务(如OCR字段提取),大模型处理复杂场景(如欺诈识别) [19][20] - 1B-3B模型用于移动端与边缘设备,7B-9B模型成为中大型企业私有化部署主力,30B+模型仅用于特定复杂场景 [21][22] - 研究显示40%-70%的Agent调用可通过小模型完成,MetaGPT等开源项目已验证此趋势 [13] 实施挑战与工程门槛 - 小模型泛化能力较弱,依赖高质量数据,金融行业原始语料清洗后可用率不足10% [16] - 系统集成要求高,需对接知识库与API,检索模块不准会导致回答偏差 [16] - 企业存在沉没成本顾虑,2024年LLM托管云基础设施投资达570亿美元,是API市场规模的10倍 [17]
苹果看上的公司,靠量子“邪修”给模型“瘦身”
虎嗅APP· 2025-09-02 22:00
公司融资与估值增长 - 公司完成5轮融资 最新B轮融资额达1.89亿欧元[6] - 2024年3月完成2500万欧元A轮融资 估值1.08亿美元[6] - 一年后估值飙升至5亿美元 涨幅达5倍[6][8] - 成为西班牙最大AI初创公司之一[6][10] 核心技术CompactifAI - 采用量子物理张量网络方法压缩模型 体积减少80%-95%[6][13][14] - 准确率仅下降2-3个百分点[14] - 压缩后模型推理速度提升4-12倍[17] - 推理成本降低50%-80%[17] - 支持在PC、手机、汽车等终端设备运行[6][17] 产品应用案例 - SuperFly模型压缩自1.35亿参数SmolLM2 仅剩9400万参数[6][15] - ChickBrain模型压缩自18B参数Llama3 降至3.2B参数[6][15] - Llama 4 Scout Slim在AWS调用成本降至每百万tokens 0.10美元[17] - 相比原版每百万tokens节省30%费用[17] 商业模式 - 通过AWS API提供压缩模型服务[17] - 提供企业级私有部署许可[17] - 通过服务提供商交付定制化压缩模型[17] - 主要客户为大型互联网企业AI团队[18] 行业竞争格局 - Meta发布13亿参数LLaMA微型模型[22] - Google推出2亿-7亿参数Gemma模型[22] - 微软Phi系列14亿参数模型在专业任务超越大模型[22] - 初创公司Neural Magic、Deci等聚焦模型效率优化[22][23] - 与苹果、三星、Sony等硬件巨头洽谈终端设备合作[22] 技术壁垒与挑战 - 方法基于量子多体系统数学技巧 具强泛化性[11][14] - 需将大模型基础算子抽象为通用压缩工作流[14] - 端侧模型需适配不同设备的计算资源与能耗[23] - 当前技术依赖现有模型压缩 非自主训练小模型[24]
1年涨五倍,被苹果看上的“模型瘦身”公司靠谱吗?
虎嗅· 2025-09-02 13:21
公司背景与融资情况 - Multiverse Computing成立于2019年 最初聚焦量子计算软件解决金融领域投资组合优化和风险管理问题[5] - 公司完成5轮融资 2024年3月A轮融资2500万欧元 一年多后B轮融资达1.89亿欧元 估值从1.08亿美元涨至5亿美元 一年增长5倍 成为西班牙最大AI初创公司之一[2][4][6] - 团队40%成员拥有博士学位 核心成员横跨金融 量子物理与科技创业三大领域 CEO恩里克拥有数学 计算机 医学博士与MBA背景 曾任西班牙Unnim银行副CEO[5] 技术突破与产品发布 - 核心技术CompactifAI采用量子物理张量网络方法 能将大模型体积压缩80-95% 准确率仅下降2-3个百分点[8][11] - 2025年8月发布两款超小模型:SuperFly(苍蝇脑)基于1.35亿参数SmolLM模型压缩至9400万参数 ChickBrain(小鸡脑)将Llama 3.1 8B模型压缩至3.2B参数(压缩率60%)[12][13] - 压缩后模型推理速度提升4-12倍 推理成本降低50-80% 在AWS云服务上每百万tokens处理费用从0.14美元降至0.10美元 节省30%成本[16][18] 商业应用与合作伙伴 - 提供三种商业服务模式:AWS API访问 私有部署许可以及通过服务提供商交付压缩模型[16] - 主要客户为大型互联网和软件企业AI团队 应用于客服聊天机器人 代码自动补全和文本分析等场景[17] - 与苹果 三星 Sony HP等硬件巨头洽谈合作 计划将超小模型嵌入下一代终端设备 契合苹果轻量化本地模型战略[19] 行业竞争与市场定位 - 2024年起科技巨头纷纷布局小模型:Meta发布13亿参数LLaMA微型模型 Google推出2亿-7亿参数Gemma 微软Phi系列用14亿参数模型在数学编码任务超越50倍体积大模型[19] - AI推理优化成为创投圈新竞技场 初创公司Neural Magic Deci OctoML等聚焦模型加速和自动选型赛道[20] - 公司技术壁垒面临挑战 端侧模型需要配合设备计算资源 能耗和发热等工程化问题 且极度依赖原有模型能力[21][23] 技术原理与性能表现 - CompactifAI采用张量网络方法 通过张量分解和矩阵低秩近似重构参数逻辑 实现高维压缩并保留几乎所有信息[8][10] - 压缩后模型可在PC 手机 汽车等设备运行 将原需8张A100 GPU运行的LLM压缩至1-2张GPU甚至CPU上实时推理[16][18] - 已发布多个压缩模型版本包括Llama 4 70B精简版Llama 4 Scout Slim以及Llama 3系列和Mistral小模型精简版[11]
人形机器人,需要多少算力?
创业邦· 2025-08-30 18:08
人形机器人行业趋势 - 人形机器人被视为科技产品终极形态 受到科技领域高度关注 [7] - 马斯克2021年官宣入局后仅用一年就造出原型机 推动行业从边缘走向主流 [7][10] - 英伟达创始人黄仁勋通过Jetson系列计算平台持续提升机器人端侧算力 [9][15] 英伟达技术布局 - 2014年发布首款Jetson TK1计算平台 算力不足1TFLOPS 开启嵌入式AI战略转型 [9][11] - 计算平台历经Xavier、Orin、Thor三代演进 算力提升至2070 TFLOPS [13][15] - Jetson AGX Xavier被京东、美团用于物流机器人 发那科用于工业机械臂 [13] - Orin平台(100 TFLOPS)支撑智元、宇树等人形机器人产品 [15] - 提出"物理AI"新概念 拓展虚拟世界之外的硬件生态 [15] 端侧算力需求现状 - 当前人形机器人端侧算力需求集中在100-200 TFLOPS范围 [17] - 100T算力可满足抓取、分拣等简单动作及AI推理需求 [17][19] - 复杂多传感器数据融合及端到端模型需更高算力或云端辅助 [19] 小模型技术路径 - 波士顿动力Atlas采用4.5亿参数小模型(Transformer架构) 处理30Hz图像/感官/语言输入 [21] - 小模型降低计算负载 释放算力用于实时数据处理 [21] - 英伟达主张"小模型是智能体未来" 通过专业微调小模型执行特定任务比通用大模型更高效 [21] - 该范式可优化推理调度 成为未来十年产业化落地的关键路径 [22]
人形机器人,需要多少算力?
36氪· 2025-08-28 15:02
英伟达Jetson系列算力平台演进 - 推出专为人形机器人设计的Jetson T5000端侧算力平台 算力高达2070 TFLOPS [1][2] - Jetson系列计算平台自2014年TK1起步 算力从不足1 TFLOPS持续演进至2070 TFLOPS [6][8] - 三代核心计算平台Xavier、Orin和Thor支撑机器人产业发展 Xavier应用于京东美团物流机器人及发那科工业机械臂 [8] 人形机器人算力需求现状 - 当前人形机器人端侧算力需求集中在100-200 TFLOPS范围 主要执行抓取分拣等简单动作 [14][16] - 复杂多模态传感器数据处理需更高算力 现有方案依赖云端算力补充或采用端侧小模型路径 [16][19] - 波士顿动力Atlas采用4.5亿参数小模型 实现30Hz图像与多模态数据实时处理 [19] 行业技术路径发展 - 端侧小模型成为重要技术方向 英伟达论文指出小模型通过硬件优化可高效执行智能体任务 [19][21] - 多专业微调小模型协同方案优于通用大模型 适用于人形机器人等对算力敏感领域 [21][23] - 物理AI新概念提出 体现英伟达从虚拟世界向物理世界扩展的技术野心 [12] 头部企业行业影响 - 马斯克通过特斯拉人形机器人项目将概念重新推向主流 一年内推出原型机 [2][4] - 英伟达Orin系列提供100 TFLOPS算力 支撑智元宇树等企业人形机器人产品 [10] - 黄仁勋2014年即将AI与机器人纳入企业战略 提前布局嵌入式AI计算赛道 [6]
英伟达新模型上线,4B推理狂飙53倍,全新注意力架构超越Mamba 2
36氪· 2025-08-27 10:03
产品发布 - 英伟达推出全新Jet-Nemotron小模型系列 包含2B和4B两个版本[1][2] - 该系列由全华人团队打造 核心创新为后神经架构搜索(PostNAS)与新型线性注意力模块JetBlock[1][8] - 相比前代产品 公司近期密集布局小模型领域 上周刚发布9B大小的NVIDIA Nemotron Nano 2模型[5][7] 技术架构 - PostNAS采用训练后架构探索与适配方法 在预训练Transformer模型基础上构建 大幅降低开发新架构的成本和风险[9][10] - 该方法首先确定全注意力层最佳放置位置 再搜索改进的注意力块设计[9][14] - JetBlock模块将动态卷积与硬件感知架构搜索结合 在保持训练和推理吞吐量的同时实现显著准确率提升[18] 性能表现 - 在H100 GPU上推理吞吐量最高提升53.6倍 其中Jet-Nemotron-2B相对Qwen 3-1.7B在长上下文场景解码吞吐量可达50倍提升[1][4][5] - 在六个核心维度(MMLU-pro、Math、Retrieval、Commonsense、Code、Long)表现全面领先 雷达图呈现"六边形战士"特征[4] - 具体数据:Jet-Nemotron-4B在GSM8K数学测试达78.7分 显著高于Qwen3-1.7B的62.8分;在代码测试EvalPlus达65.6分 优于对比模型[21] 效率优化 - KV缓存大小是影响长上下文和长生成吞吐量的最关键因素 PostNAS硬件感知搜索能发现更多参数同时保持相似生成吞吐量的架构[16] - Jet-Nemotron-4B在64k上下文长度下缓存大小仅154MB 远小于Qwen3-1.7B的7168MB 最大吞吐量达1271 token/s[21] - 架构优化使模型在保持高准确率的同时 实现数量级的吞吐量提升 特别是在长上下文场景优势更加明显[5][16]
琶洲“模术”秀专访:大模型不必“大而全”,也可“小而美”
南方都市报· 2025-08-22 11:30
公司背景与创始人经历 - 公司创始人张胜是我国IT行业早期从业者 1997年深入学习计算机专业 1999年创办《电脑自做》杂志后进入赛迪集团担任多项高管职务[3] - 公司于2013年在广州成立 明确"为未来服务机器人做大脑"目标 专注NLP技术领域攻关[3] - 公司核心自研产品"灵聚人工大脑"结合语义分析、知识图谱和认知计算技术 具备生成式和检索式知识表达能力[3] 技术发展与行业定位 - 公司作为NLP技术服务商已为华为、阿里巴巴、软银机器人、小米等头部企业提供智能交互服务 覆盖智能家居、智能音箱、服务机器人等产品[4] - 行业技术发展迅速 DeepSeek开源改变AI大模型发展模式 拥有独立数据和应用场景的企业开启轻量化AI创业[4] - 公司聚焦细分场景实际需求 开发灵聚灵脑迅灵大模型 基于20亿组三元组知识图谱实现100%精确生成[5][8] 产品特性与竞争优势 - 采用"小模型"路线 参数规模控制在十亿级别(对比通用模型千亿参数)实现成本可控与灵活部署[5] - 实现高并发快速响应 通过经典NLP技术赋能大模型 用有限算力支撑大体量用户并发请求[10] - 结合开放域NLU与精准生成式模型 在无屏幕语音交互场景实现7秒内精准答案生成[7][8] 应用场景与商业策略 - 技术应用于企业对话式AI、数字人、服务机器人及AIoT产品 实现自然语言交互无需屏幕输入[4] - 推出灵聚Agent框架和大模型个性化定制服务 实现精准生成、高并发响应和高稳定性[7][10] - 从B端向C端业务延伸 从行业级深入至具体场景 探索AI应用更多可能性[10] 行业发展环境 - 琶洲地区提供良好产业支持政策 云集头部公司 为AI创业公司创造优质发展环境[11] - 头部公司对优质数据投入"无上限预算" 创业公司需聚焦细分行业具体场景寻求突破[4]
英伟达开源9B参数小模型,比Qwen3快6倍
量子位· 2025-08-19 13:25
小模型技术发展 - 英伟达推出新型小型语言模型Nemotron Nano v2 该9B模型在复杂推理基准测试上准确率与Qwen3-8B相当或更高 速度提升6倍 [1][7] - 模型设计目标为兼顾推理与非推理任务的统一模型 支持"思考"预算控制 用户可指定允许"思考"的token数量 [8] - 模型采用生成推理过程后输出答案的机制 允许跳过中间推理步骤但可能降低复杂推理准确率 展示推理过程可显著提升答案质量 [10][11] 模型性能表现 - 在NeMo-Skills套件测试中 AIME25达72.1% MATH500达97.8% GPQA达64.0% LiveCodeBench达71.1% [16] - 指令遵循和长上下文测试表现优异 IFEval达90.3% RULER 128K测试达78.9% BFCL v3和HLE基准也有提升 [16] - 模型经过FP8精度预训练 使用20万亿token 采用Warmup-Stable-Decay学习率调度 后训练包含SFT/GRPO/DPO/RLHF [19][21] 开源与数据发布 - 公司首次开源用于创建模型的绝大部分数据 包括预训练语料库 [4][23] - 发布两个基础模型NVIDIA-Nemotron-Nano-12B-v2-Base和NVIDIA-Nemotron-Nano-9B-v2-Base 均支持128k上下文长度 [22] - 预训练数据集包含66万亿token 分为Nemotron-CC-v2/Nemotron-CC-Math-v1/Nemotron-Pretraining-Code-v1/Nemotron-Pretraining-SFT-v1四个类别 [26][27] 技术实现细节 - 模型压缩后支持在单个NVIDIA A10G GPU(22GiB内存)进行128k token上下文推理 采用基于Minitron的压缩策略 [25] - 通过截断思维链训练解决模型在预设思维链外"思考"的问题 实现精确的思考预算控制 [12] - 预训练阶段计算量达1.45E+24 FLOPS 能耗708.3MWh 后训练阶段计算量7.25E+22 FLOPS 能耗35.6MWh [5] 行业战略布局 - 公司构建Nemotron生态 采取开源策略 近期连续发布Llama Nemotron Super v1.5和Nemotron Nano v2 [29][30] - 开源模型对标国内Qwen3系列 展现与国外科技巨头闭源路线差异化的战略选择 [32] - 模型当前支持在线试用 公司持续强化在AI领域的技术影响力 [22][33]
4o-mini华人领队也离职了,这次不怪小扎
量子位· 2025-08-19 09:17
核心人才流动 - OpenAI核心研究员Kevin Lu离职 加入Thinking Machine Lab [1][2][3] - Kevin Lu曾领导OpenAI 4o-mini项目开发 并参与o1-mini和o3模型研发 [7][9] - Thinking Machine Lab已集结多位OpenAI前核心成员 包括John Schulman、Barrett Zoph等 [4][22] 技术研究方向 - Kevin Lu专长强化学习和小模型 其论文《决策Transformer》引用量达2254次 [10][11] - 研究观点认为互联网数据比Transformer架构更重要 强调序列数据预测价值 [13][14] - 提出强化学习未来方向在于新数据源和奖励机制创新 [15] 初创公司动态 - Thinking Machine Lab完成20亿美元种子轮融资 估值达120亿美元 [17][19] - 公司由OpenAI前CTO Mira Murati创立 团队覆盖AI主要研究方向 [18][22] - 在硅谷人才争夺中保持团队稳定 拒绝10亿美元薪酬挖角 [20] 产品与技术成果 - 4o-mini为多模态推理小模型 支持图文输入和长上下文 具有高效低成本特点 [7] - Kevin Lu参与开发的o1-mini和o3模型体现其小模型专长 [9] - Thinking Machine Lab尚未公开技术成果 引发行业期待 [21]
英伟达新研究:小模型才是智能体的未来
量子位· 2025-08-18 17:16
大模型与小模型对比 - 大语言模型在Agent任务中处理重复、专业化子任务时消耗大量计算资源,成本高、效率低、灵活性差 [1] - 小语言模型在性能够用的前提下,使Agent任务执行更经济灵活 [2] - 实测显示6.7B参数的Toolformer调用API后性能超越175B的GPT-3 [3] - 7B参数的DeepSeek-R1-Distill推理表现优于Claude3.5和GPT-4o [4] 小模型优势 - 体积小巧,可在GPU上高效共享资源,并行运行多个工作负载并保持性能隔离 [8] - 更低显存占用,支持超分配机制,提升并发能力 [9] - GPU资源可灵活划分,实现异构负载弹性调度和整体资源优化 [10] - 优先调度小模型的低延迟请求,预留资源应对大模型调用,优化整体吞吐与成本控制 [11] 任务优化与部署 - Agent任务多为重复性、可预测、范围明确的操作(如文档总结、信息提取、模板编写、工具调用) [14][16] - 为每个子任务选择专业微调的小模型,避免大模型资源浪费 [15][16] - 运行70亿参数小模型比700-1750亿参数大模型便宜10-30倍 [20] - 小模型计算资源占用低,适合本地或边缘部署,大模型依赖中心化云计算 [20] 争议与挑战 - 反对观点认为大模型通用理解能力更强,在专业任务中表现更佳 [22] - 小模型可通过微调达到可靠性,且复杂问题可分解为简单子任务,降低对大模型通用能力的需求 [23][24] - 质疑小模型经济性:大规模部署时大模型的规模经济可能更优 [26] - 行业惯性使创新仍集中在大模型,小模型面临基础设施适配、市场认知度低、评估标准缺失等挑战 [28][29] 转型方法 - 采集大模型运行数据,脱敏后保留使用模式 [32] - 聚类工作负载识别常见子任务 [33] - 选择小模型并匹配GPU分配策略,定制数据微调后部署 [34] - 构建持续反馈闭环优化性能和资源利用率 [35] 行业讨论 - 简单任务(如Amazon产品退款)使用小模型更具成本效益 [36] - 小模型在偏离预设流程时可能不够鲁棒,需预先考虑更多变数 [37] - 小模型遵循"一个程序只做好一件事"的设计哲学,但功能多样性可能增加操作复杂度 [37][38][39]