真钱买假模型？187篇论文被「套壳API」坑惨，准确率暴跌

文章核心观点 - 第三方大模型“影子API”服务市场存在普遍的模型欺诈行为，供应商通过替换底层模型等手段欺骗用户，对学术研究的严谨性和公信力构成了严重威胁 [1][8][10] 影子API市场的现状与规模 - 受限于高昂定价、支付壁垒和区域限制，直接访问GPT-5、Gemini 2.5等前沿大模型困难，催生了庞大的第三方代理服务市场，即“影子API” [8] - CISPA的研究人员追踪了17个影子API服务，发现它们已被引用进187篇学术论文中，其中约62%被ACL、CVPR和ICLR等顶级会议录用 [11][14] - 最受欢迎的一个影子API已积累5966次论文引用，其相关GitHub项目获得近6万个星标 [14] - 17个服务中，多达11个基于OneAPI或NewAPI等开源系统搭建，且仅有一家拥有正规ICP备案，绝大多数为个人运营的黑盒，缺乏透明度 [14] 影子API的性能欺诈与安全风险 - 在医疗基准MedQA测试中，官方Gemini-2.5-flash模型准确率为83.82%，而通过影子API测试的准确率断崖式下跌至平均36.95%，存在高达47个百分点的性能缺口 [19] - 在法律基准LegalBench测试中，所有受评估的影子API表现均落后于官方端点40.10%到42.73% [20] - 在高难度逻辑推理任务AIME 2025测试中，某热门影子API提供的Gemini-2.5-pro准确率暴跌40.00%，DeepSeek-Reasoner准确率急降38.89% [23] - 在安全性测试中，影子API面对越狱攻击的表现毫无规律，有时严重低估有害内容风险（有害性评分比官方模型低0.23），有时又将有害性放大近一倍 [26] 模型欺诈的检测方法与证据 - 研究人员使用大模型指纹识别框架LLMmap和模型相等性测试来验证模型真实身份 [29] - 在所有被评估的24个具体模型端点中，有45.83%的端点未能通过指纹验证，另有12.50%的端点与官方模型存在巨大的余弦距离偏差，这意味着超过半数的服务在底层悄悄替换了模型 [29] - 分析显示，官方API延迟稳定规律，而影子API延迟经常剧烈抖动，其波动率甚至会超过官方基准的2倍以上 [30] 供应商的经济欺骗手段 - 信息溢价：收取高昂的旗舰版费用，却在后台用能力相似但更便宜的模型替换，例如以7倍以上的惊人差价提供不同版本模型 [31][32] - 折扣替换：以官方原价收费，但把高端的闭源大模型替换成低成本的开源模型，例如用户购买GPT-5，后台实际运行的却是GLM-4-9B [31][32] - 加价倒卖：在官方价格基础上加收服务费，同时依旧在后台替换底层模型以赚取多重差价 [31][32] - 用户按官方标准费率（例如1000次请求约14.84美元）支付，但实际得到的有效token价值只有5.70美元到7.77美元，供应商借此赚取暴利 [31][33] 对学术研究的严重影响与成本 - 学术界若将掺水的影子API用于严肃的数据标注、算法评估或文献总结，将严重动摇整个AI研究大厦的公信力 [35] - 保守估计，即便只有30%的受影响论文需要重新运行实验，仅修复这187篇已知论文中由模型替换带来的数据污染，就需要花费11.5万至14万美元的计算和人工成本 [35] - 这还未计算那些引用了这些问题论文的5966项后续研究，它们可能已在不知不觉中继承并放大了底层错误 [35] 给研究者的建议 - 论文作者建议，应当完全避免在严肃的研究工作流中使用任何未经严格验证的影子API [36] - 如果迫不得已必须使用，在正式收集数据前必须引入强制性审核协议，包括运行至少24次指纹探测、进行500个样本分布测试以比对p值，以及通过多次独立会话来检查延迟和方差是否异常 [36]