Workflow
百元级硬件流畅运行百亿参数大模型!上交&本智激活开源端侧原生大模型
量子位·2025-07-27 17:01

端侧AI行业趋势 - 手机厂商如iPhone、华为、三星、小米、OPPO等均在将大模型嵌入手机,端侧AI成为竞争焦点 [2] - 端侧AI的核心优势在于保护用户隐私,通过本地计算避免数据上传云端 [2] - 行业面临技术挑战,即使苹果的Apple Intelligence计划也因技术难度推迟至明年 [2][3] SmallThinker技术突破 - 上海交通大学IPADS研究所与初创公司本智激活联合推出端侧原生大模型SmallThinker [4] - 模型包含SmallThinker-4B-A0.6B和SmallThinker-21B-A3B两个尺寸,专为端侧算力设计 [4][5] - 4B模型在1GB内存下推理速度达19.41 tokens/s,21B模型在RK3588开发板上比Qwen-14B快21倍 [5] 模型架构创新 - 采用端侧原生设计,避免传统模型的"降智"压缩 [6][7] - 核心技术包括双层稀疏架构、专家路由前置和混合稀疏注意力 [9][12][17] - 混合稀疏注意力使KV缓存占用降低76%,支持16K长文本处理 [17] 性能表现 - 4B模型基于2.5T Tokens数据预训练,21B模型基于7.5T Tokens数据预训练 [23][24] - 在1GB内存限制下,4B模型推理速度达19.91 tokens/s,比Qwen3-1.7B快19倍 [26][27] - 21B模型在8GB内存PC上推理速度达20.30 tokens/s,比Qwen3-30B快2倍 [29] 生态与未来发展 - 模型兼容主流推理框架和硬件平台,包括国产鸿蒙系统 [18] - 配套的PowerInfer推理框架GitHub星标达8.2K,曾登顶全球趋势榜 [19][20] - 未来计划通过扩大训练规模提升模型能力,并发展个性化智能体 [32][33]