维度 · 计分权重 10%

Sparse-Token 压力测试

本维度检测什么

Sparse-token 压力测试是弱生成侧指纹。它要求模型复述脆弱低频 token 串，检查微调后模型的输出侧是否仍能生成它们。

对罕见 CJK 人名、中文 SEO 串、日语口语串及相关低频形式发送只允许 echo 的 prompt。将每条响应分为 hit、omit、substitute、partial、refuse、blank。聚合命中率驱动计分；失效家族用于取证展示，但不对具体厂商投票。

该探针厂商无关且信号弱。失败可由 SFT 数据覆盖、语言专门化、安全包装或采样行为造成。TrueLLMs 尚无足够跨厂商实测失配表，不能凭本维推断精确替代模型。