文章核心观点 - AI正从回答问题走向交付结果,导致算力需求爆炸式增长,云端推理面临成本高、延迟和隐私问题,因此算力负载必须向端侧转移 [3] - 万格智元通过自研非GPU推理引擎,实现在消费级硬件上高效运行300亿、500亿等超大模型,旨在让终端设备拥有对标云端性能的本地“大脑”,推动AI普惠 [4][5] - 公司已完成数千万元种子轮融资,其技术突破(如300亿参数模型仅需4GB内存,推理速度达30 tokens/s)使过去不成立的本地AI应用场景成为可能,目标是成为AI时代的“算力供水商” [5][24][30] 行业背景与趋势 - AI Agent时代来临,任务从简单对话转向结果交付(如写文档、订机票),导致token消耗可能呈百倍、千倍甚至万倍增长,算力需求发生真正意义上的爆炸 [3][18] - 当前行业共识认为端侧只能运行小模型且性能需妥协,真正的能力依赖云端,但云端按token计费的模式导致“用得越多、付得越多”的成本难题无解 [3][4][21] - 大多数现有端侧方案仍基于GPU优化,与消费级硬件(内存、显存、成本、功耗受限)的实际情况不匹配,在消费级设备上实现有效大模型推理的工作整体偏少 [17][28] 公司技术与产品 - 核心产品为cPilot端侧算力引擎,通过自研的非GPU推理引擎、算子优化和流式并行模块调度,让超大模型在性能受限的消费硬件上高效运行 [4] - 已实现300亿参数模型在仅4GB内存开销下,推理吞吐率达到30 tokens/s,使本地设备在性能与速度上能够对标云端GPT-4o级别模型 [5][24] - 产品旨在打破端侧只能跑小模型的旧认知,目标是在终端侧实现“终端版贾维斯”,主要应用场景为AI PC、机器人和本地个人助理(纯本地的Claude Code和Manus) [4][15][16] 竞争优势与市场定位 - 差异化在于能在消费级硬件(如16GB内存的普通电脑)条件下,以极低成本和可用速度实现大模型推理,目前在该领域处于领先地位 [28] - 并非为了端侧运行而刻意使用小模型,而是直接将真正的大模型(30B、50B)放到端上运行,优先保证性能足够解决真实需求,再解决长期成本问题 [9][22] - 商业模式上,端侧推理使用户摆脱按token付费,理论上模型服务可免费或极低成本,同时从系统架构层面保障了数据隐私 [21][27] 创始人背景与公司愿景 - 创始人王冠博为清华大学计算机专业博士三年级学生,研究方向为端智能与大模型基础设施,本科期间以全院第一成绩保送清华,拥有丰富的竞赛和科研经历 [10][13] - 公司创立初衷是希望让人人都用得起Agent和大模型,通过端侧推理从根本上解决算力负载和成本问题 [21] - 长期愿景是实现“人人都用得起大模型、人人都用得起算力”,让大模型算力像水一样便宜甚至免费,成为AI时代的“算力供水商”,推动普惠AI [5][32] 公司进展与融资 - 公司于近日完成来自市场化头部基金的数千万元种子轮融资,正推动“端侧普惠算力”路线加速落地 [5][30] - 技术成果已使本地设备具备对标主流云端模型的现实可能,并开启了众多过去因成本与延迟限制而不成立的AI应用场景 [5][27] - 团队由相识七年、有极强粘合度和信任基础的同学构建,除产品外,也注重公司生存、企业文化及员工获得感 [15][29]
独家 | 清华00后博士融资数千万,打造全球现象级端侧算力引擎,性能领跑行业
Z Potentials·2025-12-26 11:43