Workflow
SmallThinker
icon
搜索文档
百元级硬件流畅运行百亿参数大模型!上交&本智激活开源端侧原生大模型
量子位· 2025-07-27 17:01
端侧AI行业趋势 - 手机厂商如iPhone、华为、三星、小米、OPPO等均在将大模型嵌入手机,端侧AI成为竞争焦点 [2] - 端侧AI的核心优势在于保护用户隐私,通过本地计算避免数据上传云端 [2] - 行业面临技术挑战,即使苹果的Apple Intelligence计划也因技术难度推迟至明年 [2][3] SmallThinker技术突破 - 上海交通大学IPADS研究所与初创公司本智激活联合推出端侧原生大模型SmallThinker [4] - 模型包含SmallThinker-4B-A0.6B和SmallThinker-21B-A3B两个尺寸,专为端侧算力设计 [4][5] - 4B模型在1GB内存下推理速度达19.41 tokens/s,21B模型在RK3588开发板上比Qwen-14B快21倍 [5] 模型架构创新 - 采用端侧原生设计,避免传统模型的"降智"压缩 [6][7] - 核心技术包括双层稀疏架构、专家路由前置和混合稀疏注意力 [9][12][17] - 混合稀疏注意力使KV缓存占用降低76%,支持16K长文本处理 [17] 性能表现 - 4B模型基于2.5T Tokens数据预训练,21B模型基于7.5T Tokens数据预训练 [23][24] - 在1GB内存限制下,4B模型推理速度达19.91 tokens/s,比Qwen3-1.7B快19倍 [26][27] - 21B模型在8GB内存PC上推理速度达20.30 tokens/s,比Qwen3-30B快2倍 [29] 生态与未来发展 - 模型兼容主流推理框架和硬件平台,包括国产鸿蒙系统 [18] - 配套的PowerInfer推理框架GitHub星标达8.2K,曾登顶全球趋势榜 [19][20] - 未来计划通过扩大训练规模提升模型能力,并发展个性化智能体 [32][33]
本智激活完成数千万元种子轮融资,加速端侧 AI 全面落地
钛媒体APP· 2025-07-24 10:31
公司背景与技术实力 - 孵化自上海交通大学并行与分布式系统研究所(IPADS),该研究所在操作系统、分布式系统领域国际领先,近10年CSRankings操作系统领域全球第一 [2] - 核心团队由IPADS教师及博士生组成,创始人兼CEO为上海交通大学副教授、博导糜泽羽 [2] - 在端侧大模型、端侧Infra底层系统领域具备世界一流技术实力,主导PowerInfer、SmallThinker等全球影响力开源项目 [2] 端侧AI技术突破与创新 - 提出"端侧原生"全栈设计,从底层重构软硬件技术体系,实现不依赖模型压缩的端侧智能 [3] - 实现端侧大模型、端侧Infra与硬件优化的协同设计,保护100%隐私的同时将AI融入日常 [3] - PC端突破:PowerInfer系统在消费级NVIDIA GTX 4090 GPU上运行千亿参数模型,性能达数据中心级A100 GPU的90%,推理速度提升最高11.69倍 [3][4] - 手机端突破:PowerInfer-2通过TurboSparse稀疏化方法在智能手机流畅运行470亿参数模型,推理速度超越llama.cpp达29倍 [4] - 端侧原生大模型算法创新:2025年将发布全球首批端侧原生大模型,专为端侧设备算力限制设计,实现百亿参数模型在百元级硬件运行 [5] 技术成果与行业影响 - SmallThinker开源30亿参数长链推理大模型,发布7天内HuggingFace下载量突破10万次,文本生成类大模型榜排名第一 [5] - PowerInfer开源后连续两天蝉联GitHub国际开源项目趋势榜第一 [4] - 投资机构评价:云启资本认为公司打通模型与端侧算力技术断点,BV百度风投认可其"模型-系统-硬件"协同优化能力,光源资本称其技术积累全球领先 [6] 行业趋势与市场定位 - 端侧智能解决云端AI三大痛点:隐私焦虑、高昂成本与延迟、缺乏深度个性化 [3] - 行业共识:端侧智能是连接虚实世界关键入口,将推动AI PC、AI手机等新型终端形态 [6] - 公司定位:全球极少数具备顶尖研发能力与量产交付经验的端侧AI厂商 [6]