维度 · 计分权重 20%
MMD 分布等价检验
本维度检测什么
Maximum Mean Discrepancy 是 Gao et al. ICLR 2025 使用的核双样本检验。TrueLLMs 只在差分模式下使用它:需要用户提供可信参照端点样本,并且随机样本量足够。
算法
在 temperature > 0 下,从被测端点与可信参照端点收集按 prompt 分组的响应样本。构造按 prompt 分层的样本对,取每条响应前 100 个原始字符,用 Hamming 核计算 MMD²,再在每个 prompt 块内分层置换估计 p 值。
阈值
| 条件 | 对 verdict 的贡献 |
|---|---|
| 无可信参照、temperature ≤ 0、prompt 对 < 5 或总样本 < 40 | unavailable;不会虚构 baseline |
| p ≥ 0.05 | 未观察到统计显著分布差异 |
| p < 0.05 | 计分分布 mismatch;成因仍需解释 |
局限
拒绝零假设只表示两端点响应分布不同。量化、微调、系统提示、区域路由、安全层与后处理都可能造成差异。MMD 最强的使用方式是:参照端点为用户自己控制的同声称模型官方端点。
参考文献
- Gao et al. Model Equality Testing: Which Model is this API Serving? ICLR 2025. arXiv:2410.20247
- TrueLLMs lib/identity-audit/mmd.ts