全部维度

维度 · 计分权重 0%

金丝雀 Prompt

本维度检测什么

金丝雀 Prompt 是带已知或预期答案的确定性行为探针。当前模型中,金丝雀行为只展示不计分;真正计分的地面真值硬题位于独立的能力地板维度。

算法

运行金丝雀 prompt 集;存在已知答案模板时与响应比较,并展示 miss 或意外备选。该诊断用于查看行为,但排除在顶部计分之外。

阈值

条件对 verdict 的贡献
命中模板诊断命中
未命中模板或出现意外备选诊断 miss
任意结果计分贡献始终为 0

局限

已知答案模板可能是估算,或未覆盖声称模型。prompt 措辞与 system prompt 会改变输出。需计分的地面真值判分请看能力地板。

参考文献

  • TrueLLMs lib/fingerprints/canaries-2026.ts

返回完整方法论