全部文章

2026年4月22日 · TrueLLMs

你的 LLM 中转可能在骗你什么

ICLR 2025 Model Equality Testing 发现 31 个生产端点中有 11 个相对参考分布偏离。对你的账单意味着什么。

2024 年末,Gao et al. 向 ICLR 2025 提交论文,结论安静但惊人。他们测试 31 个均宣称同一 Llama 族权重的生产端点——混有官方 API 与第三方网关——相对 Meta 参考分布。其中 11 个在 Maximum Mean Discrepancy 双样本检验下 p < 0.05。

十一分之三十一。论文谨慎指出这意味着响应分布不同,而非提供商一定作弊。量化、微调、系统提示、区域路由与后处理都会造成偏移。但三分之一样本在无明示下出现任何一种偏移仍值得警惕,论文 Model Equality Testing: Which Model is this API Serving? 值得一读。

结构性原因

LLM 中转的单位经济极其残酷。用户为 gpt-5 每百万 token 支付 $X。中转运营商直连 OpenAI 时支付上游成本。毛利是 X − 成本。拓宽毛利只有四种路径:

  1. 向上游谈批量折扣——合法,难。
  2. 激进缓存——合法与否取决于披露。
  3. 抬高返回给你的 usage ——欺诈。
  4. 你要贵模型时偷偷换便宜模型——欺诈。

TrueLLMs 抓后两种。我们对前两种不置评。我们只给数据。

实际审计长什么样

直连 OpenAI API 的干净跑法:12 维全绿,置信度近 0。典型聚合网关:8 绿、2 黄、2 红,置信度约 35。糟糕网关:logprobs 不可用(红旗)、tokenizer 边界不一致(不匹配)、LLMmap 将响应分类为与声称不符的厂商、ITT 节奏缺少声称模型常见的推测解码双峰。置信度封顶 70。

封顶是故意的。没有 logprobs 时,足够精巧的中转仍可骗过最强的主动探针。该情形我们写「可能被替换」而非「确认被替换」,并附上原始证据供你判断。

若审计一片红该怎么办

三件事,按顺序:

  1. 换时段重跑。部分中转在负载下路由不同。
  2. 对官方上游跑同一审计。确认该模型的干净指纹长什么样。
  3. 向中转开工单并附上证据。靠谱提供商会解释或修复。

参考文献

  • Gao et al. Model Equality Testing: Which Model is this API Serving? ICLR 2025. arXiv:2410.20247.
  • Pasquini et al. LLMmap: Fingerprinting Large Language Models. USENIX Security 2025. arXiv:2407.15847.
  • Alhazbi et al. LLMs Have Rhythm. 2025. arXiv:2502.20589.

跑一次审计 针对你自己的中转。大约一分钟,数据留在浏览器。