文章核心观点 - 第三方大模型“影子API”服务市场存在普遍的模型欺诈行为,供应商通过替换底层模型等手段欺骗用户,对学术研究的严谨性和公信力构成了严重威胁 [1][8][10] 影子API市场的现状与规模 - 受限于高昂定价、支付壁垒和区域限制,直接访问GPT-5、Gemini 2.5等前沿大模型困难,催生了庞大的第三方代理服务市场,即“影子API” [8] - CISPA的研究人员追踪了17个影子API服务,发现它们已被引用进187篇学术论文中,其中约62%被ACL、CVPR和ICLR等顶级会议录用 [11][14] - 最受欢迎的一个影子API已积累5966次论文引用,其相关GitHub项目获得近6万个星标 [14] - 17个服务中,多达11个基于OneAPI或NewAPI等开源系统搭建,且仅有一家拥有正规ICP备案,绝大多数为个人运营的黑盒,缺乏透明度 [14] 影子API的性能欺诈与安全风险 - 在医疗基准MedQA测试中,官方Gemini-2.5-flash模型准确率为83.82%,而通过影子API测试的准确率断崖式下跌至平均36.95%,存在高达47个百分点的性能缺口 [19] - 在法律基准LegalBench测试中,所有受评估的影子API表现均落后于官方端点40.10%到42.73% [20] - 在高难度逻辑推理任务AIME 2025测试中,某热门影子API提供的Gemini-2.5-pro准确率暴跌40.00%,DeepSeek-Reasoner准确率急降38.89% [23] - 在安全性测试中,影子API面对越狱攻击的表现毫无规律,有时严重低估有害内容风险(有害性评分比官方模型低0.23),有时又将有害性放大近一倍 [26] 模型欺诈的检测方法与证据 - 研究人员使用大模型指纹识别框架LLMmap和模型相等性测试来验证模型真实身份 [29] - 在所有被评估的24个具体模型端点中,有45.83%的端点未能通过指纹验证,另有12.50%的端点与官方模型存在巨大的余弦距离偏差,这意味着超过半数的服务在底层悄悄替换了模型 [29] - 分析显示,官方API延迟稳定规律,而影子API延迟经常剧烈抖动,其波动率甚至会超过官方基准的2倍以上 [30] 供应商的经济欺骗手段 - 信息溢价:收取高昂的旗舰版费用,却在后台用能力相似但更便宜的模型替换,例如以7倍以上的惊人差价提供不同版本模型 [31][32] - 折扣替换:以官方原价收费,但把高端的闭源大模型替换成低成本的开源模型,例如用户购买GPT-5,后台实际运行的却是GLM-4-9B [31][32] - 加价倒卖:在官方价格基础上加收服务费,同时依旧在后台替换底层模型以赚取多重差价 [31][32] - 用户按官方标准费率(例如1000次请求约14.84美元)支付,但实际得到的有效token价值只有5.70美元到7.77美元,供应商借此赚取暴利 [31][33] 对学术研究的严重影响与成本 - 学术界若将掺水的影子API用于严肃的数据标注、算法评估或文献总结,将严重动摇整个AI研究大厦的公信力 [35] - 保守估计,即便只有30%的受影响论文需要重新运行实验,仅修复这187篇已知论文中由模型替换带来的数据污染,就需要花费11.5万至14万美元的计算和人工成本 [35] - 这还未计算那些引用了这些问题论文的5966项后续研究,它们可能已在不知不觉中继承并放大了底层错误 [35] 给研究者的建议 - 论文作者建议,应当完全避免在严肃的研究工作流中使用任何未经严格验证的影子API [36] - 如果迫不得已必须使用,在正式收集数据前必须引入强制性审核协议,包括运行至少24次指纹探测、进行500个样本分布测试以比对p值,以及通过多次独立会话来检查延迟和方差是否异常 [36]
真钱买假模型?187篇论文被「套壳API」坑惨,准确率暴跌
机器之心·2026-03-07 09:18