Workflow
AI Ping(AI评)
icon
搜索文档
清华教授翟季冬:Benchmark正在「失效」,智能路由终结大模型选型乱象
雷峰网· 2026-01-23 15:47
文章核心观点 - 当前AI模型与算力市场存在“选择悖论”,模型基准测试分数与用户真实需求脱节,服务商在性能、价格、稳定性上的差异导致企业选型负担沉重、成本高企 [2][7] - 清程极智公司开发的AI Ping平台旨在成为算力界的“大众点评”,通过系统性评测与智能路由,帮助用户在众多模型和服务商中做出高性价比选择,以解决行业信息不对称问题 [3][12] - AI基础设施(Infra)行业的核心价值在于通过软件技术优化算力利用效率,其生命力源于持续的模型演进、算力架构融合以及多样化的推理场景需求,商业化路径包括软硬件整机服务与算力平台整合 [20][21][27] 模型与算力市场的“选择悖论” - 模型基准测试的高分不一定匹配用户真实需求,同款模型在不同MaaS平台上的效果可能差异巨大,部分服务商为降低成本会进行“阉割级”量化(如从FP8变为INT4),影响输出表现 [2][8] - 影响模型使用体验的因素多维:服务商API服务吞吐量差异巨大,例如DeepSeek-v3.2模型在不同供应商的吞吐覆盖从15到200 token/s,相差10倍以上;支持的输入输出长度从8k到160k不等,相差20倍 [8] - 服务商的算力部署地理位置会影响调用延迟,例如用户在北京调用位于上海或深圳的模型,体验会有很大差异 [9] - 各服务商定价策略和促销活动导致成本相差甚远,而用户需求本身也是多维度的,有的看重性价比,有的追求稳定性或响应速度 [10] - 将模型选型的主动权完全交给用户是巨大挑战,对企业级用户而言,选择不当会引发巨大的成本鸿沟:同样预算,调用大模型可能仅支持十万次请求,而小模型可达百万次量级 [2][10] 清程极智的解决方案:AI Ping平台 - AI Ping是一款智能路由产品,旨在成为算力界的“大众点评”,通过持续评测国内MaaS供应商,对比同款模型在不同厂商的延迟、带宽、吞吐效率与价格成本差异 [12][13] - 智能路由能力分为两层:一是在众多API服务提供者中选择最佳服务商(服务商路由),二是在众多大模型中选择最佳模型(模型路由) [13] - 产品开发初期面临精准匹配模型的难题,因为需要积累海量用户历史数据,而目标市场(个人开发者和中小企业)对产品质量要求极高,八十分水准在他们眼中几乎等同于不合格 [13][14] - 团队通过“笨办法”冷启动:一方面为供应商进行大量基准测试,另一方面联合上下游企业在真实场景中积累用户数据 [14] - 为满足企业高吞吐需求,平台需具备强大的算力整合能力及国产算力接入能力,清程极智将其自研的“赤兔”推理引擎与AI Ping对接,完成算力资源整合调度 [14] - 平台采用类似“团购”的逻辑,通过聚合海量用户需求,以更大体量与算力厂商议价,形成马太效应:数据越集中,模型匹配越精准,用户成本越低,同时帮助算力厂商盘活资源 [3][17] - AI Ping已得到行业认可,例如硅基流动创始人袁进辉曾引用其测评结果向用户解释不同版本算力的指标差异 [18][19] AI基础设施(Infra)行业的价值与商业化路径 - AI Infra行业的核心焦虑在于如何赚到更多钱,商业化逻辑在于通过服务软件有效整合算力并提供给用户 [20][21] - 清程极智的核心竞争力是中间软件层技术(如编译、通信库、并行加速),其定位是与芯片厂商合作,在芯片系统软件之上做增量,让大模型在芯片上发挥极致效率 [22] - 公司探索的商业化路径包括:1) 将软件与硬件打包为整机服务,解决用户买了国产卡却难落地的问题;2) 通过AI Ping等平台与算力厂商合作,提升国产算力易用性 [23] - 行业对Infra价值的认知正在转变,例如DeepSeek通过模型架构设计和Infra软件技术,以极少的算力卡和极低成本训练出大规模模型,并开源了大量算力加速类Infra软件,使市场意识到其重要性 [24] AI基础设施行业的未来与挑战 - 行业存在一种担忧:AI Infra的价值可能只存在于国产算力群雄逐鹿阶段,一旦算力架构定型、大模型技术收敛,其必要性会大打折扣 [25] - 然而,Infra的生命力源于底层架构与上层软件的双重迭代,只要模型还在演进、算力架构还在融合发展,其需求就会持续存在 [27] - 模型侧尚未完全收敛:文生图、文生视频等多模态模型兴起,DeepSeek V4将引入更多稀疏性技术难题,AI for Science等新应用领域也在倒逼底层需求变革 [27] - 国内算力市场架构不统一,厂商众多,有的选择对标英伟达的SIMT架构,有的主攻SIMD架构,且许多厂商正走架构融合路线(如华为在SIMD中融入SIMT,英伟达则相反),这决定了AI Infra的不可替代性 [28][29] - 适配不同架构需要大量本土化改造,例如开源工具Triton在适配国产芯片时必须经过大量改造 [29] - 未来推理场景全面爆发将带来新挑战:芯片峰值算力与实际利用率存在巨大鸿沟,一块标称300TFLOPS算力的芯片,在大模型训练或推理中实际利用率往往只有10%-20%,即便英伟达在预训练场景下利用率也仅达50%上下 [30] - AI Infra未来的核心攻坚方向是如何针对文字、图像、视频等不同推理场景,实现硬件性能的最大化释放并满足极高时延要求 [30] - 行业还在探索“冷赛道”如AI for Science,这些领域短期内难见商业回报,但对科技发展至关重要,且对软硬件协同能力提出更高要求,这也体现了Infra行业穿越周期的本真价值 [30][31]