术语表

审计 LLM 中转站、tokenizer 与身份指纹时出现的术语。

代理模式: TrueLLMs 的备用网络模式。请求由进程内 Next.js 路由处理器转发。密钥不会离开你的设备。
模型偷换 (Móxíng tōu huàn): 中文里指中转静默替换模型。
证据链: 可展开的一列检测维度卡片。TrueLLMs 每个结论都附带原始证据。
直连模式: TrueLLMs 默认网络模式：浏览器直连中转。要求中转开启 CORS。
中转站 (Zhōng zhuǎn zhàn): 中文里对 LLM 中转/聚合网关的称呼。
API gateway: 位于 LLM 提供商之前、以相同 API 形态对外暴露的服务器，常附账单、限流或模型路由。
ARC-AGI-2: 2025 年 ARC-AGI 继任者，视觉推理基准。TrueLLMs 用作一级金丝雀能力检测。
Baseline: 来自可信端点的参考响应集合。MMD 维度必需；录制一次，每次审计复用。
BPE（Byte-Pair Encoding）: GPT、Claude 及多数当代 LLM 使用的分词算法，在字节序列上配以习得的 merge 表。
Cache hit: 中转返回先前算好的响应而未做全新推理。可通过近零 TTFT 与重复调用文本完全一致检测。
Canary prompt: 期望答案已知的小型确定性探针。金丝雀上的差异暴露能力鸿沟。
ChatML: OpenAI 的对话格式 tokenization，含角色 token。特定角色 token 会泄漏到 top_logprobs 并暴露族系。
cl100k_base: 用于 GPT-3.5-turbo 与 GPT-4 的 OpenAI tokenizer，约 10 万词表。
Claude Opus 4.7: 截至 2026 年 5 月 Anthropic 的前沿模型，Claude Opus 4.5 的继任者。
Confidence: TrueLLMs 的顶栏指标 0–100，表示可用证据中指向替换的比例。logprobs 不可用时封顶 70。
DeepSeek V3.2: DeepSeek 2026 年 5 月发布的前沿 MoE 模型。
DFT: 离散傅里叶变换。ITT 维度用它从分词间隔序列提取谱特征。
Fingerprint: 区分不同模型的多维特征签名。TrueLLMs 维护 tokenizer 族、延迟、ITT 节奏与风格计量等指纹。
GPT-5: 截至 2026 年 5 月 OpenAI 旗舰。Tokenizer 为 o200k_base。变体：gpt-5、gpt-5-mini、gpt-5-nano。
Hamming kernel: 逐位置统计字符串差异的离散核。MMD 内用于分词后响应前缀。
HLE: Humanity's Last Exam，2025 年跨 100+ 领域的专家级问答基准。一级金丝雀集。
INP（Interaction to Next Paint）: 核心网页指标。TrueLLMs 通过在 Web Worker 跑分词以目标 < 200 ms。
ITT（Inter-Token Times）: 连续流式 SSE 块之间的时间间隔。Alhazbi et al. 2025（arXiv:2502.20589）表明其可指纹模型。TrueLLMs 在服务端读端测量到达时间，非模型内真实 inter-token——见方法论页。
LLMmap: USENIX Security 2025（Pasquini et al.）主动探测指纹技术。论文训练深度分类器并报告 42 个版本上约 95% 厂商识别。TrueLLMs 为启发式近似，不声称该准确率。
Logprob: log P(token)。若与 top_logprobs 一并返回，可近乎指纹底层模型。
MMD（Maximum Mean Discrepancy）: 基于核的双样本检验。Gao et al. 2025 用于 LLM 端点，发现 31 个生产端点中 11 个显著偏离。
Model Equality Testing: 将模型偷换检测框定为双样本分布检验的提法。ICLR 2025。
o200k_base: 用于 GPT-4o 与 GPT-5 的 OpenAI tokenizer，约 20 万词表。与 cl100k_base 差异足以作指纹。
OpenAI-compatible API: 实现 POST /v1/chat/completions 且请求/响应形态与 OpenAI 一致的任意端点。多数聚合网关兼容此形态。
Refusal template: 各厂商拒绝提示时可辨识的措辞模板。指纹较弱但成本低。
Sparse-token forgetting: SFT 期间低频 token 在 lm_head 漂移的现象——输入 embedding 几乎不变（模型仍理解）但输出投影移动使 token 跌出 top-p 窗口。MiniMax 2026 年 5 月在嘉祺/王郸/相続税等案例记载。遗忘集合因各厂商 SFT 配比不同而异。
Speculative decoding: 并行运行草稿模型与校验的推理加速，会产生双峰 inter-token 间隙分布。
Stylometry: 句长/Markdown/标点密度等特征向量。粗糙但在 logprobs 被剥离时仍可用。
tiktoken: OpenAI 开源 BPE 编码器。TrueLLMs 用 js-tiktoken 在本地复算。
Token 注水 (Token zhù shuǐ): 中文里指中转虚抬 token 计数。
Token inflation: usage.prompt_tokens 或 usage.completion_tokens 高于忠实本地复算。探针间持续比值 > 1.05 可疑。
TTFT（Time To First Token）: 从发出请求到首块流式数据到达的时间。粗略反映模型体量。
Verdict: TrueLLMs 四级摘要：与声称一致、证据不足、可能被替换、确认被替换。

免责声明 · 关于检测信号的解读

任何单一信号都不能证明恶意行为。中转站可能因合法原因（区域路由、A/B 测试、降级策略、缓存优化）导致部分指标异常。
Token ratio 偏差可能源自 ChatML 包装、系统提示注入或 tokenizer 版本差异——不一定是有意虚报。
模型身份判定基于统计指纹匹配，不是密码学证明。量化、微调、后处理都可能改变指纹特征。
MMD 分布检验对 temperature、采样参数和系统提示敏感。显著的 p 值意味着分布差异，不是偷换的证明。
Logprobs 不可用在 2025-2026 年越来越常见（许多提供商默认禁用），本身不构成欺骗证据。
ITT 节奏指纹是一项早期技术。网络抖动、TCP 合并、网关缓冲都可能产生假信号。
本工具生成的是参考级证据链，不是法律结论。请勿仅凭本报告对任何服务方做出定性指控。

报告中的措辞均为统计意义上的「偏离」或「信号不一致」，请勿据此对任何服务方做出诈骗、欺诈等定性指控。