全部维度

检测维度 · 权重 5%

Sparse-Token 压力测试

本维度检测什么

启发于 MiniMax 2026 年 5 月「马嘉祺」调查。各厂商 SFT 数据对词表覆盖不均;低频 token(罕见 CJK 名、中文 SEO 垃圾、日语口语、LaTeX/Wikipedia 元数据、FIM 特殊 token)在 SFT 中累积 lm_head 漂移并跌出 top-p——模型仍理解却难生成。遗忘集合因厂商而异,故失效模式是指纹,且独立于 tokenizer 边界、logprobs、ITT、MMD。

算法

发送约 10 则探针,各要求逐字复述已知脆弱 token 串(无评论、无重排)。将结果分为 hit/omit/substitute/partial/refuse/blank。对文档记载的近邻替代(如中文谐音 祺→琪、嘉祺→千玺、相続税 混入韩/俄)加注历史说明。聚合命中率驱动态 verdict;失效模式用于取证但评分中不对具体厂商投票(尚无跨厂商实测表)。

阈值

条件对 verdict 的贡献
命中率 ≥ 80%匹配 — 这些 token 上 SFT 词表覆盖看似完整
50% ≤ 命中率 < 80%匹配(边界)— 标出待查但不投票
命中率 < 50% 且 ≥ 3 则已评分不匹配 — 被测 token 上 lm_head 漂移显著;若公开基准记载声称模型应正确复述,则实际部署可疑

局限

探针为描述性非诊断性。失败说明「该模型 SFT 在此 token 上稀薄」——不直接指明被替换成哪一模型。尚无足够大规模跨厂商失配表以投票具体嫌疑模型。CJK/日/韩探针具语言特异性;对大多英文数据的代码模型审计此维会噪。特殊 token/LaTeX/Wikipedia 探针在测试集中默认关闭,因对话微调模型常合理解答失败。

参考文献

  • MiniMax. 内部调查:马嘉祺 sparse-token 遗忘与 lm_head 漂移,2026 年 5 月。
  • Lin et al. Mitigating the Alignment Tax of RLHF. 2024.(SFT 期间灾难性遗忘机制背景。)

返回完整方法论