百元级硬件流畅运行百亿参数大模型！上交&本智激活开源端侧原生大模型

端侧AI行业趋势 - 手机厂商如iPhone、华为、三星、小米、OPPO等均在将大模型嵌入手机，端侧AI成为竞争焦点 [2] - 端侧AI的核心优势在于保护用户隐私，通过本地计算避免数据上传云端 [2] - 行业面临技术挑战，即使苹果的Apple Intelligence计划也因技术难度推迟至明年 [2][3] SmallThinker技术突破 - 上海交通大学IPADS研究所与初创公司本智激活联合推出端侧原生大模型SmallThinker [4] - 模型包含SmallThinker-4B-A0.6B和SmallThinker-21B-A3B两个尺寸，专为端侧算力设计 [4][5] - 4B模型在1GB内存下推理速度达19.41 tokens/s，21B模型在RK3588开发板上比Qwen-14B快21倍 [5] 模型架构创新 - 采用端侧原生设计，避免传统模型的"降智"压缩 [6][7] - 核心技术包括双层稀疏架构、专家路由前置和混合稀疏注意力 [9][12][17] - 混合稀疏注意力使KV缓存占用降低76%，支持16K长文本处理 [17] 性能表现 - 4B模型基于2.5T Tokens数据预训练，21B模型基于7.5T Tokens数据预训练 [23][24] - 在1GB内存限制下，4B模型推理速度达19.91 tokens/s，比Qwen3-1.7B快19倍 [26][27] - 21B模型在8GB内存PC上推理速度达20.30 tokens/s，比Qwen3-30B快2倍 [29] 生态与未来发展 - 模型兼容主流推理框架和硬件平台，包括国产鸿蒙系统 [18] - 配套的PowerInfer推理框架GitHub星标达8.2K，曾登顶全球趋势榜 [19][20] - 未来计划通过扩大训练规模提升模型能力，并发展个性化智能体 [32][33]