全部维度

维度 · 计分权重 10%

Sparse-Token 压力测试

本维度检测什么

Sparse-token 压力测试是弱生成侧指纹。它要求模型复述脆弱低频 token 串,检查微调后模型的输出侧是否仍能生成它们。

算法

对罕见 CJK 人名、中文 SEO 串、日语口语串及相关低频形式发送只允许 echo 的 prompt。将每条响应分为 hit、omit、substitute、partial、refuse、blank。聚合命中率驱动计分;失效家族用于取证展示,但不对具体厂商投票。

阈值

条件对 verdict 的贡献
命中率 ≥ 80%计分匹配;测试词表覆盖看似完整
50% ≤ 命中率 < 80%边界;需检查失败项
命中率 < 50% 且 ≥ 3 则已评分弱计分 mismatch,提示生成侧漂移

局限

该探针厂商无关且信号弱。失败可由 SFT 数据覆盖、语言专门化、安全包装或采样行为造成。TrueLLMs 尚无足够跨厂商实测失配表,不能凭本维推断精确替代模型。

参考文献

  • MiniMax. 内部调查:马嘉祺 sparse-token 遗忘与 lm_head 漂移,2026 年 5 月。
  • TrueLLMs lib/fingerprints/sparse-tokens-2026.ts

返回完整方法论