全部维度

维度 · 计分权重 20%

MMD 分布等价检验

本维度检测什么

Maximum Mean Discrepancy 是 Gao et al. ICLR 2025 使用的核双样本检验。TrueLLMs 只在差分模式下使用它:需要用户提供可信参照端点样本,并且随机样本量足够。

算法

在 temperature > 0 下,从被测端点与可信参照端点收集按 prompt 分组的响应样本。构造按 prompt 分层的样本对,取每条响应前 100 个原始字符,用 Hamming 核计算 MMD²,再在每个 prompt 块内分层置换估计 p 值。

阈值

条件对 verdict 的贡献
无可信参照、temperature ≤ 0、prompt 对 < 5 或总样本 < 40unavailable;不会虚构 baseline
p ≥ 0.05未观察到统计显著分布差异
p < 0.05计分分布 mismatch;成因仍需解释

局限

拒绝零假设只表示两端点响应分布不同。量化、微调、系统提示、区域路由、安全层与后处理都可能造成差异。MMD 最强的使用方式是:参照端点为用户自己控制的同声称模型官方端点。

参考文献

  • Gao et al. Model Equality Testing: Which Model is this API Serving? ICLR 2025. arXiv:2410.20247
  • TrueLLMs lib/identity-audit/mmd.ts

返回完整方法论