检测维度 · 权重 15%
Tokenizer 边界探测
本维度检测什么
Tokenizer 会在非常规字符处以可预期边界切分。让模型复述已知 unicode 密集串,即便无 logprobs 也能暴露所用 tokenizer。
算法
发送三类复述 prompt:中文诗、带多字节键的 JSON、emoji 阶梯。按族计算 prompt_tokens / 本地计数的比值。三则比值标准差 < 0.10 表示 tokenizer 一致;> 0.15 强烈提示静默重分词或混合后端。
阈值
| 条件 | 对 verdict 的贡献 |
|---|---|
| std(ratio) < 0.10 | Tokenizer 一致 |
| 0.10 ≤ std < 0.15 | 边界情况 |
| std ≥ 0.15 | 不匹配 |
局限
自定义 merge 或微调词表(如专有代码模型)可与基础 BPE 合理偏离。
参考文献
- TrueLLMs lib/tokenizer/index.ts