检测维度 · 权重 17%
Logprobs 指纹
本维度检测什么
当 API 返回 top-k logprobs 时,各位置备选 token 指纹化底层模型的 tokenizer 族。GPT-4o/5 吐出 o200k_base 字节串;GPT-3.5/4 吐出 cl100k_base;Claude 与 Gemini 有独立词表。
算法
在稳定 prompt 上请求 logprobs 且 top_logprobs=5,收集备选 token 串,并以串级特征分类 BPE 族:前导空格 token、字节级回退模式、中日文与 emoji 的已知多字节序列等。置信度为无歧义匹配占比。
阈值
| 条件 | 对 verdict 的贡献 |
|---|---|
| 族置信度 ≥ 80% | 视为指纹匹配 |
| 50% ≤ 置信度 < 80% | 证据不足,记录样本 |
| 置信度 < 50% | 视为不匹配 |
局限
部分中转合法地省略 logprobs 以省 token。不可用是信号而非定论。该情况下置信度封顶 70。
参考文献
- OpenAI tiktoken 编码表,github.com/openai/tiktoken
- Anthropic Claude tokenization 规范,public_doc