TrueLLMstruellms.com

Token 用量与模型身份审计 · OpenAI 兼容

配置面板

API 凭据与采样参数。所有数据仅在浏览器内存中。

安全提示

API Key 仅保存在浏览器内存中，不会上传到任何服务器。强烈建议使用非生产 Key进行审计。

Base URL

API Key

模型内置预设 · o200k

Tokenizer 类型

Temperature

Max Tokens

缓存检测重复次数

风格样本数

API 格式

Stream启用以测量 TTFT

Logprobs最强身份证据

Context Probe耗 token 较多

保存日志详情入表

可信参照端点（差分模式 · 可选）可选

填入你信任的端点，例如自己的官方 API Key。审计会对同样的题在被测端点与该参照端点各跑一遍，然后用 MMD 分布检验与能力通过率差做差分对比。留空则只做绝对模式。Key 仅用于本次请求，不落盘、不上报。

参照 Base URL

参照 API Key

参照模型

参照 API 格式

测试集

选择启用的探测项。每组可独立开关。

已启用 22/27 项

运行区直连

预检 → Usage → Identity 三阶段执行

待运行0 / 87

实时日志0 条

尚无日志

MMD baseline未记录

Model Equality Testing（Gao et al., ICLR 2025）使用双样本 Maximum Mean Discrepancy 检验两组响应是否来自同一分布。先从可信端点录制 baseline，再运行审计对比。Baseline 存储在 localStorage 中，永不上传。

MMD 检验需要 temperature > 0 才能采到分布差异。当前 temperature = 0.

Dashboard A · Token Usage 审计

平均 Prompt Ratio

1.000

正常

平均 Completion Ratio

1.000

正常

固定偏移估计

0.0

tokens / 请求

高风险样本

/ 0 样本

综合风险等级

正常

模式: 未见显著偏差

线性回归证据

样本数不足，无法可靠识别模式（至少需要 3 个有效样本）

Dashboard B · Model Identity 审计

综合判定

证据不足

基于 12 个加权信号汇总。不可用维度的权重已按比例转移给其他维度。

异常置信度

0/100

越高越偏离声称模型

模型对比

声称:gpt-4o

推测:unknown

12 维度信号灯

切词器家族指纹

0% 35%

能力地板

0% 20%

LLMmap 指纹

0% 0%

MMD 分布等价检验

0% 20%

ITT 节奏指纹

0% 0%

响应延迟与速率

0% 0%

自我识别探测

0% 0%

金丝雀 Prompt

0% 0%

拒绝边界探测

0% 0%

上下文窗口

0% 0%

缓存重放检测

0% 15%

Sparse-Token 压力测试

0% 10%

风格计量

0% 0%

证据链

展开每个维度查看完整推理过程与原始证据

可视化图表

核心散点图揭示偏差模式：固定偏移产生平移，比例上浮产生倾斜

详细结果

名称	类别	本地 Pt	远端 Pt	P Ratio	本地 Ct	远端 Ct	C Ratio	TTFT	tok/s	Logp	风险
尚无结果

免责声明 · 关于检测信号的解读

任何单一信号都不能证明恶意行为。中转站可能因合法原因（区域路由、A/B 测试、降级策略、缓存优化）导致部分指标异常。
Token ratio 偏差可能源自 ChatML 包装、系统提示注入或 tokenizer 版本差异——不一定是有意虚报。
模型身份判定基于统计指纹匹配，不是密码学证明。量化、微调、后处理都可能改变指纹特征。
MMD 分布检验对 temperature、采样参数和系统提示敏感。显著的 p 值意味着分布差异，不是偷换的证明。
Logprobs 不可用在 2025-2026 年越来越常见（许多提供商默认禁用），本身不构成欺骗证据。
ITT 节奏指纹是一项早期技术。网络抖动、TCP 合并、网关缓冲都可能产生假信号。
本工具生成的是参考级证据链，不是法律结论。请勿仅凭本报告对任何服务方做出定性指控。

报告中的措辞均为统计意义上的「偏离」或「信号不一致」，请勿据此对任何服务方做出诈骗、欺诈等定性指控。

Tokenizer Probe4/4

Canary Prompts9/11

Self-ID4/6

Refusal Probe2/3

Cache Detection2/2

Stylometry1/1

自定义测试集0在「自定义」tab 中管理

切词器家族指纹0%35%不可用

能力地板0%20%不可用

LLMmap 指纹0%0%不可用

MMD 分布等价检验0%20%不可用

ITT 节奏指纹0%0%不可用

响应延迟与速率0%0%不可用

自我识别探测0%0%不可用

金丝雀 Prompt0%0%不可用

拒绝边界探测0%0%不可用

上下文窗口0%0%不可用

缓存重放检测0%15%不可用

Sparse-Token 压力测试0%10%不可用

风格计量0%0%不可用