How do I know if my LLM proxy is serving the model it claims?

Run TrueLLMs against the proxy. The scored model uses tokenizer-family fingerprinting, capability-floor checks, MMD with your trusted reference endpoint, cache-replay detection, and sparse-token stress. LLMmap, ITT rhythm, latency, self-identification, canaries, context window, and stylometry are diagnostics only.

What is the difference between absolute and differential mode?

Absolute mode uses only the audited endpoint and runs tokenizer fingerprinting, capability floor, and usage-inflation checks. Differential mode also uses your trusted official reference endpoint, enabling MMD and capability deltas. The reference key is kept in memory only and is not persisted, printed, or logged.

What is token usage inflation?

When a proxy reports more prompt or completion tokens than the model's actual tokenizer would produce. TrueLLMs computes a local token count using js-tiktoken (or a model-appropriate estimator) and compares it to the usage block returned by the API. Ratios near 1.0 are normal; consistent ratios above 1.05 are suspicious.

Does TrueLLMs send my API key anywhere?

In Direct mode the browser talks to the proxy directly using your key, and the key never reaches the TrueLLMs server. In Proxy mode the key is forwarded through an in-process Next.js route handler that does not log or persist it, but it does briefly transit our server. If your endpoint supports CORS, prefer Direct mode.

Which papers does TrueLLMs draw from?

LLMmap (Pasquini et al., USENIX Security 2025), Model Equality Testing (Gao et al., ICLR 2025), and inter-token-times work (Alhazbi et al., 2025). TrueLLMs treats LLMmap and ITT as report-only diagnostics and scores MMD only with a trusted reference endpoint.

Can I run TrueLLMs in CI?

Every detection module is a pure TypeScript function with no UI dependencies. Import them from a Node script, feed in TestResult arrays, and assert on the verdict. See the methodology page for the recommended thresholds.

Does TrueLLMs work for self-hosted models?

Yes, as long as the endpoint speaks OpenAI Chat Completions. For self-hosted Llama 4 or Qwen 3.5 Max behind vLLM/TGI, point the Base URL at your gateway and the same audit pipeline applies.

方法论

最后审阅：2026 年 5 月。本页记录当前审计模型：5 个合计 100 分的计分维度、7 个只展示不计分的诊断维度，以及两种运行模式。切词器家族指纹通过 o200k_base 确定性覆盖 OpenAI 旗舰系列（GPT-4o 至 GPT-5.x）。对于切词器闭源的 Claude 与 Gemini，差分模式以可信参照端点返回的 prompt_tokens 斜率作为真模型切词器的精确计数——无需本地切词器。图像模型（如 gpt-image-2）不在本框架内：没有 chat 的 prompt_tokens 切词、无文本能力题、MMD 也是文本分布检验。图像模型防掺水需另一套方法（图像统计/延迟指纹），当前不支持。

为什么要审计中转站？

LLM 中转与聚合网关常见两类问题：一是在 usage 区块抬高 token 计数使账单虚高；二是在用户不知情时用更便宜模型顶替所请求的模型。单次响应很难看出端倪，正确分析单位应是一小批探针及其统计特征。

TrueLLMs 在浏览器中运行这批探针。不持久化密钥、不保留响应，并打印每条信号的推导过程与原始数据，便于你核验结论。

两段审计流程

Usage 审计将 API 返回的 usage.prompt_tokens 与 usage.completion_tokens，同本地复算和确定性切词器家族斜率探针对比。它检测 token 计数注水；单独不能证明模型身份。

身份审计是记分卡，不是独立检验的贝叶斯合并。只有 5 个维度影响最终模型偷换分数：切词器家族指纹、能力地板、MMD、缓存重放、Sparse-Token 压力测试。其余维度保留为诊断，计分权重为 0。

12 个维度

切词器家族指纹 — 计分权重 35%
能力地板 — 计分权重 20%
MMD 分布等价检验 — 计分权重 20%
缓存重放检测 — 计分权重 15%
Sparse-Token 压力测试 — 计分权重 10%
LLMmap 指纹 — 计分权重 0%
ITT 节奏指纹 — 计分权重 0%
响应延迟与速率 — 计分权重 0%
自我识别探测 — 计分权重 0%
金丝雀 Prompt — 计分权重 0%
上下文窗口探测 — 计分权重 0%
风格计量 — 计分权重 0%

计分维度与诊断维度

计分维度可以推动顶部 verdict。诊断维度保留用于解释行为，但不计分：LLMmap、ITT 节奏、延迟、自我识别、金丝雀 Prompt、上下文窗口、风格计量，均可能被 system prompt 或输出改写伪造，或依赖估算/mock 参照数据。

绝对模式与差分模式

绝对模式只使用被测端点：切词器家族指纹、能力地板、usage 注水审计；不会虚构 MMD baseline。差分模式使用被测端点加用户自己的可信官方参照端点，启用 MMD 与能力差分，是最强的“是否真货”检验。参照 key 仅保存在内存中，不落盘、不打印、不写日志。切词器指纹测的是服务端 token 计费切词器家族，通常等于所服务模型的原生切词器，但网关可能用规范化计费切词器；因此单独 mismatch 只算 likely 证据，不算 confirmed 证据。

LLMmap 作为诊断

我们沿用 LLMmap 论文中的探针族：Fingerprinting Large Language Models（Pasquini et al., USENIX Security 2025, arXiv:2407.15847）。在 TrueLLMs 中该表面仅作诊断，帮助解释拒绝模板、指令冲突处理、确定性谜题行为与工具边界，但不再参与计分。

实现诚实声明。原论文在响应嵌入上训练深度对比分类器，报告在 42 个 LLM 版本上约 95% 厂商识别准确率。

本版本仅提供词法/结构模板启发式，不是训练分类器，也不声称达到论文准确率。请把该维度视为只读诊断。

TrueLLMs 为探针集设两道安全闸：政策敏感探针默认关闭；响应文本仅用于特征提取。中转或 system prompt 可以改写这些输出，因此 LLMmap 可以辅助排查，但不能单独确认偷换。

差分模式中的 MMD

来自论文 Model Equality Testing: Which Model is This API Serving?（Gao et al., ICLR 2025, arXiv:2410.20247）。双样本检验将响应视为分布样本并运行 Maximum Mean Discrepancy。TrueLLMs 只有在用户提供可信参照端点样本且样本量足够时才计分；否则报 unavailable。

我们计算 MMD²（Hamming 核），取每条响应前 100 个字符，不做 tokenizer、也不做大小写折叠，再用按 prompt 块分层的置换估计零分布。拒绝零假设只表示两端点响应分布不同；量化、微调、系统提示与后处理都可能造成偏移。

已有更新方法——基于秩的一致性检验——报告优于 MMD 与 KS 基线（Auditing Black-Box LLM APIs with a Rank-Based Uniformity Test, arXiv:2506.06975, 2025）。本站当前仍使用 MMD，该方向列为后续更新。

如何启用。在同一浏览器会话中配置被测端点与可信官方参照端点，运行差分模式。参照 API key 只在本次运行内留在内存中。

参照 key 不落盘、不打印、不写日志。置换前按 prompt 块配对，因此 prompt 混合差异不会制造虚假 MMD baseline。

分块节奏作为诊断

启发于 LLMs Have Rhythm: Fingerprinting Large Language Models Using Inter-Token Times and Network Traffic Analysis（Alhazbi et al., 2025, arXiv:2502.20589）。TrueLLMs 测量流式 SSE 数据块在读端的到达间隔，提取简单节奏特征，并以计分权重 0 的诊断形式展示。

诚实披露。我们测的是读端看到的 SSE 分块到达间隔，不是模型内部真实 inter-token 时间。TCP 合并、SSE 刷新节奏、网关缓冲、网络负载与时间戳分辨率都会加噪。当前每模型节奏库应视为诊断上下文，而非计分基线。

如何启用。在配置面板开启 stream: true 并运行审计。直连模式下客户端本地测量 SSE 到达；代理模式下解析服务端发出的 audit.timing SSE 事件。数值进入 TestResult.chunkTimestamps，ITT 诊断自动消费。

Sparse-Token 压力测试

MiniMax 2026 年 5 月对“马嘉祺”案例的调查显示一种生成侧不对称：低频 token 仍可通过输入 embedding 被理解，但 lm_head 漂移可能使模型难以把它们生成出来。TrueLLMs 将其作为弱的、厂商无关的生成侧指纹。

TrueLLMs 发送压力探针，要求模型逐字复述脆弱 token 串：罕见 CJK 人名、中文 SEO 垃圾、日语口语及相关低频形式。失配分为 omit、substitute、partial、refuse、blank。该维度可作为“所服务 SFT 管线行为异常”的弱计分信号，但不能单独识别具体厂商。

诚实范围。我们尚无覆盖所有前沿模型家族的大规模实测失配表。该维度只贡献 10 分，应视为辅助证据，而非模型身份认证。

权重重平衡

默认计分权重只在 5 个计分维度之间合计 100。某个计分维度不可用时，其权重按比例分摊到其余可用计分维度。诊断维度权重为 0，不参与重平衡。

绝对模式下没有可信参照端点，MMD 因而不可用。诊断维度不可用不会改变分数。切词器家族 mismatch 是最强单个确定性信号，但它测的是计费切词器家族，因此必须有另一项计分维度佐证，顶部 verdict 才应视为 confirmed。

局限与诚实披露

只有 5 个维度计分。其余 7 个用于诊断与取证，不参与顶部置信度。
切词器指纹测的是服务端 token 计费切词器家族。它通常等于所服务模型的原生切词器，但网关可用另一套切词器做规范化计费。
MMD 与能力差分需要用户提供可信参照端点。没有参照时，TrueLLMs 不会伪造 baseline。
非对抗稳健。若中转识别探针集，仅对这些探针透传真模型，我们今天无力防御。
单条信号说明不了什么。MMD 显著、切词器家族 mismatch、或随机采样下重复输出逐字相同，都可能有多个合理解释。标签报告模式；含义由你判断。

TrueLLMs 不是什么

不是欺诈指控。我们报告“可能被替换”或“确认被替换”的证据模式，不说“骗局”。
不是持续监控。账单或端点行为异常时手动跑一次即可。
不能、也无法证明正向身份。干净跑一次仍可能与“完美守法中转”一致。

参考文献

Pasquini et al. LLMmap: Fingerprinting Large Language Models. USENIX Security 2025. arXiv:2407.15847.
Gao et al. Model Equality Testing: Which Model is this API Serving? ICLR 2025. arXiv:2410.20247.
Alhazbi et al. LLMs Have Rhythm: Fingerprinting Large Language Models Using Inter-Token Times and Network Traffic Analysis. 2025. arXiv:2502.20589.
MiniMax. Sparse-token 遗忘与 lm_head 漂移：“马嘉祺”案例。内部调查纪要，2026 年 5 月。
OpenAI. tiktoken：OpenAI 模型的 BPE tokenizer。github.com/openai/tiktoken.
Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs. arXiv:2504.04715, 2025.
Auditing Black-Box LLM APIs with a Rank-Based Uniformity Test. arXiv:2506.06975, 2025.
IMMACULATE: A Practical LLM Auditing Framework via Verifiable Computation. arXiv:2602.22700, 2026.
Log Probability Tracking of LLM APIs. arXiv:2512.03816, 2025.

试一试

打开审计工具，对你的中转跑一遍“快速”预设。大约一分钟。