检测维度 · 权重 15%

Tokenizer 边界探测

本维度检测什么

Tokenizer 会在非常规字符处以可预期边界切分。让模型复述已知 unicode 密集串，即便无 logprobs 也能暴露所用 tokenizer。

发送三类复述 prompt：中文诗、带多字节键的 JSON、emoji 阶梯。按族计算 prompt_tokens / 本地计数的比值。三则比值标准差 < 0.10 表示 tokenizer 一致；> 0.15 强烈提示静默重分词或混合后端。

自定义 merge 或微调词表（如专有代码模型）可与基础 BPE 合理偏离。