返回审计工具

方法论

最后审阅:2026 年 5 月。本页记录当前审计模型:5 个合计 100 分的计分维度、7 个只展示不计分的诊断维度,以及两种运行模式。切词器家族指纹通过 o200k_base 确定性覆盖 OpenAI 旗舰系列(GPT-4o 至 GPT-5.x)。对于切词器闭源的 Claude 与 Gemini,差分模式以可信参照端点返回的 prompt_tokens 斜率作为真模型切词器的精确计数——无需本地切词器。图像模型(如 gpt-image-2)不在本框架内:没有 chat 的 prompt_tokens 切词、无文本能力题、MMD 也是文本分布检验。图像模型防掺水需另一套方法(图像统计/延迟指纹),当前不支持。

为什么要审计中转站?

LLM 中转与聚合网关常见两类问题:一是在 usage 区块抬高 token 计数使账单虚高;二是在用户不知情时用更便宜模型顶替所请求的模型。单次响应很难看出端倪,正确分析单位应是一小批探针及其统计特征。

TrueLLMs 在浏览器中运行这批探针。不持久化密钥、不保留响应,并打印每条信号的推导过程与原始数据,便于你核验结论。

两段审计流程

Usage 审计将 API 返回的 usage.prompt_tokens 与 usage.completion_tokens,同本地复算和确定性切词器家族斜率探针对比。它检测 token 计数注水;单独不能证明模型身份。

身份审计是记分卡,不是独立检验的贝叶斯合并。只有 5 个维度影响最终模型偷换分数:切词器家族指纹、能力地板、MMD、缓存重放、Sparse-Token 压力测试。其余维度保留为诊断,计分权重为 0。

12 个维度

  1. 切词器家族指纹 — 计分权重 35%
  2. 能力地板 — 计分权重 20%
  3. MMD 分布等价检验 — 计分权重 20%
  4. 缓存重放检测 — 计分权重 15%
  5. Sparse-Token 压力测试 — 计分权重 10%
  6. LLMmap 指纹 — 计分权重 0%
  7. ITT 节奏指纹 — 计分权重 0%
  8. 响应延迟与速率 — 计分权重 0%
  9. 自我识别探测 — 计分权重 0%
  10. 金丝雀 Prompt — 计分权重 0%
  11. 上下文窗口探测 — 计分权重 0%
  12. 风格计量 — 计分权重 0%

计分维度与诊断维度

计分维度可以推动顶部 verdict。诊断维度保留用于解释行为,但不计分:LLMmap、ITT 节奏、延迟、自我识别、金丝雀 Prompt、上下文窗口、风格计量,均可能被 system prompt 或输出改写伪造,或依赖估算/mock 参照数据。

绝对模式与差分模式

绝对模式只使用被测端点:切词器家族指纹、能力地板、usage 注水审计;不会虚构 MMD baseline。差分模式使用被测端点加用户自己的可信官方参照端点,启用 MMD 与能力差分,是最强的“是否真货”检验。参照 key 仅保存在内存中,不落盘、不打印、不写日志。切词器指纹测的是服务端 token 计费切词器家族,通常等于所服务模型的原生切词器,但网关可能用规范化计费切词器;因此单独 mismatch 只算 likely 证据,不算 confirmed 证据。

LLMmap 作为诊断

我们沿用 LLMmap 论文中的探针族:Fingerprinting Large Language Models(Pasquini et al., USENIX Security 2025, arXiv:2407.15847)。在 TrueLLMs 中该表面仅作诊断,帮助解释拒绝模板、指令冲突处理、确定性谜题行为与工具边界,但不再参与计分。

实现诚实声明。原论文在响应嵌入上训练深度对比分类器,报告在 42 个 LLM 版本上约 95% 厂商识别准确率。

本版本仅提供词法/结构模板启发式,不是训练分类器,也不声称达到论文准确率。请把该维度视为只读诊断。

TrueLLMs 为探针集设两道安全闸:政策敏感探针默认关闭;响应文本仅用于特征提取。中转或 system prompt 可以改写这些输出,因此 LLMmap 可以辅助排查,但不能单独确认偷换。

差分模式中的 MMD

来自论文 Model Equality Testing: Which Model is This API Serving?(Gao et al., ICLR 2025, arXiv:2410.20247)。双样本检验将响应视为分布样本并运行 Maximum Mean Discrepancy。TrueLLMs 只有在用户提供可信参照端点样本且样本量足够时才计分;否则报 unavailable。

我们计算 MMD²(Hamming 核),取每条响应前 100 个字符,不做 tokenizer、也不做大小写折叠,再用按 prompt 块分层的置换估计零分布。拒绝零假设只表示两端点响应分布不同;量化、微调、系统提示与后处理都可能造成偏移。

已有更新方法——基于秩的一致性检验——报告优于 MMD 与 KS 基线(Auditing Black-Box LLM APIs with a Rank-Based Uniformity Test, arXiv:2506.06975, 2025)。本站当前仍使用 MMD,该方向列为后续更新。

如何启用。在同一浏览器会话中配置被测端点与可信官方参照端点,运行差分模式。参照 API key 只在本次运行内留在内存中。

参照 key 不落盘、不打印、不写日志。置换前按 prompt 块配对,因此 prompt 混合差异不会制造虚假 MMD baseline。

分块节奏作为诊断

启发于 LLMs Have Rhythm: Fingerprinting Large Language Models Using Inter-Token Times and Network Traffic Analysis(Alhazbi et al., 2025, arXiv:2502.20589)。TrueLLMs 测量流式 SSE 数据块在读端的到达间隔,提取简单节奏特征,并以计分权重 0 的诊断形式展示。

诚实披露。我们测的是读端看到的 SSE 分块到达间隔,不是模型内部真实 inter-token 时间。TCP 合并、SSE 刷新节奏、网关缓冲、网络负载与时间戳分辨率都会加噪。当前每模型节奏库应视为诊断上下文,而非计分基线。

如何启用。在配置面板开启 stream: true 并运行审计。直连模式下客户端本地测量 SSE 到达;代理模式下解析服务端发出的 audit.timing SSE 事件。数值进入 TestResult.chunkTimestamps,ITT 诊断自动消费。

Sparse-Token 压力测试

MiniMax 2026 年 5 月对“马嘉祺”案例的调查显示一种生成侧不对称:低频 token 仍可通过输入 embedding 被理解,但 lm_head 漂移可能使模型难以把它们生成出来。TrueLLMs 将其作为弱的、厂商无关的生成侧指纹。

TrueLLMs 发送压力探针,要求模型逐字复述脆弱 token 串:罕见 CJK 人名、中文 SEO 垃圾、日语口语及相关低频形式。失配分为 omit、substitute、partial、refuse、blank。该维度可作为“所服务 SFT 管线行为异常”的弱计分信号,但不能单独识别具体厂商。

诚实范围。我们尚无覆盖所有前沿模型家族的大规模实测失配表。该维度只贡献 10 分,应视为辅助证据,而非模型身份认证。

权重重平衡

默认计分权重只在 5 个计分维度之间合计 100。某个计分维度不可用时,其权重按比例分摊到其余可用计分维度。诊断维度权重为 0,不参与重平衡。

绝对模式下没有可信参照端点,MMD 因而不可用。诊断维度不可用不会改变分数。切词器家族 mismatch 是最强单个确定性信号,但它测的是计费切词器家族,因此必须有另一项计分维度佐证,顶部 verdict 才应视为 confirmed。

局限与诚实披露

  • 只有 5 个维度计分。其余 7 个用于诊断与取证,不参与顶部置信度。
  • 切词器指纹测的是服务端 token 计费切词器家族。它通常等于所服务模型的原生切词器,但网关可用另一套切词器做规范化计费。
  • MMD 与能力差分需要用户提供可信参照端点。没有参照时,TrueLLMs 不会伪造 baseline。
  • 非对抗稳健。若中转识别探针集,仅对这些探针透传真模型,我们今天无力防御。
  • 单条信号说明不了什么。MMD 显著、切词器家族 mismatch、或随机采样下重复输出逐字相同,都可能有多个合理解释。标签报告模式;含义由你判断。

TrueLLMs 不是什么

  • 不是欺诈指控。我们报告“可能被替换”或“确认被替换”的证据模式,不说“骗局”。
  • 不是持续监控。账单或端点行为异常时手动跑一次即可。
  • 不能、也无法证明正向身份。干净跑一次仍可能与“完美守法中转”一致。

参考文献

  • Pasquini et al. LLMmap: Fingerprinting Large Language Models. USENIX Security 2025. arXiv:2407.15847.
  • Gao et al. Model Equality Testing: Which Model is this API Serving? ICLR 2025. arXiv:2410.20247.
  • Alhazbi et al. LLMs Have Rhythm: Fingerprinting Large Language Models Using Inter-Token Times and Network Traffic Analysis. 2025. arXiv:2502.20589.
  • MiniMax. Sparse-token 遗忘与 lm_head 漂移:“马嘉祺”案例。内部调查纪要,2026 年 5 月。
  • OpenAI. tiktoken:OpenAI 模型的 BPE tokenizer。github.com/openai/tiktoken.
  • Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs. arXiv:2504.04715, 2025.
  • Auditing Black-Box LLM APIs with a Rank-Based Uniformity Test. arXiv:2506.06975, 2025.
  • IMMACULATE: A Practical LLM Auditing Framework via Verifiable Computation. arXiv:2602.22700, 2026.
  • Log Probability Tracking of LLM APIs. arXiv:2512.03816, 2025.

试一试

打开审计工具,对你的中转跑一遍“快速”预设。大约一分钟。