IMMACULATE
搜索文档
拒绝「降智、减配、乱收费」:面向LLM API的可信验证框架
机器之心· 2026-03-23 17:46
行业背景与问题 - 大语言模型已成为各类AI应用的重要基础设施,绝大多数用户通过云端API服务调用模型能力,例如OpenAI、Anthropic和Google等公司提供的服务[7] - 这种黑盒服务模式引发了根本性的信任危机:用户无法验证服务提供商是否真正执行了其声称的模型[9] - 从经济角度看,服务商存在通过多种方式降低计算成本或增加收费的动机,包括:使用更小、更便宜的模型进行模型替换;使用低精度计算进行过度量化;报告比实际更多的token使用量进行过度计费[10] - 这些违规行为产生的输出往往是语义上正确但整体质量较低的结果,用户难以直接检测,国内外开发者社区已有大量用户报告LLM服务“降智”现象,即订阅服务一段时间后模型表现明显下滑[1][10] - 服务商还可能出于竞争或策略考虑,对特定用户群体提供差异化或低质量服务,这严重破坏了模型服务的公平性与可信度[3][10] 解决方案:IMMACULATE审计框架 - 研究团队提出了一种名为IMMACULATE的全新审计框架,旨在解决黑盒LLM API的信任问题[5] - 该框架无需访问模型内部结构,也不依赖专用可信硬件,即可检测云服务商是否真实执行了其声称的模型推理过程,并是否如实报告token使用量[5] - 其核心技术基础是可验证计算,这是一类密码学技术,使服务器能够在不泄露内部计算过程或模型参数的情况下证明计算结果的正确性[12] - 核心思想是无需验证所有请求,只需随机审计少量请求即可检测系统是否存在大规模违规行为,这基于一个关键的经济事实:如果服务商希望通过违规行为获取经济收益,就必须在相当比例的请求上进行违规执行[12][14] - 工作流程包括:用户正常发送请求;服务端返回回答与token使用量;审计者随机选择部分请求进行审计;服务端提供可验证计算证明;审计者根据统计指标判断执行是否可信[15] 关键技术:Logit Distance Distribution - 验证LLM推理过程面临GPU推理存在数值非确定性的挑战,即使在完全相同的模型和输入下,不同运行之间的浮点误差也可能导致输出略有不同[17] - 大语言模型的推理过程包含连续计算和离散决策两类步骤,连续计算受浮点误差与并行调度影响具有数值非确定性,而离散决策的输出是完全确定的[17] - 由于生成过程是自回归的,连续计算中极小的数值偏差也可能导致后续离散决策变化,从而使整个推理路径发生分叉,这使得传统需要逐步复现完整推理过程的验证方法难以直接应用[17] - IMMACULATE利用了这一结构特性:固定离散决策路径,仅比较连续计算的偏差,具体方法是比较部署模型与参考模型在每一步产生的logits向量之间的距离分布,这一分布被称为Logit Distance Distribution[18] - 核心思想是不直接验证每一步推理是否完全一致,而是衡量实际执行模型与参考模型之间的logit偏差分布,如果系统正常运行,logit偏差只来自数值误差,偏差分布稳定且集中;如果存在违规行为,偏差分布会明显扩大或偏移[19][20][21] 实验效果与系统开销 - 实验结果表明,在随机审计机制下,仅需约3000次审计请求,即可在高概率下检测到违规行为[23] - 对于模型替换攻击,检测率最高超过90%[28] - 对于量化攻击,检测率可达1%–10%[28] - 系统开销极低:在vLLM推理引擎下,吞吐影响小于1%[24][28] - 计算证明仅在极少请求上触发,用户仅需1%的额外开销就能验证黑盒LLM API的执行完整性[3][24] 总结与意义 - IMMACULATE提出了一种面向黑盒LLM API的可验证审计框架,通过结合随机化审计、可验证计算以及新的Logit Distance Distribution指标,该方法能够在不访问模型内部、无需可信硬件的情况下检测云端LLM服务的执行完整性[5][26] - 该研究表明,大规模LLM服务的透明性与可信度可以通过轻量级审计机制得到显著提升,为未来AI基础设施的可信运行提供了一条可行路径[27]