维度 · 计分权重 0%

金丝雀 Prompt

本维度检测什么

金丝雀 Prompt 是带已知或预期答案的确定性行为探针。当前模型中，金丝雀行为只展示不计分；真正计分的地面真值硬题位于独立的能力地板维度。

运行金丝雀 prompt 集；存在已知答案模板时与响应比较，并展示 miss 或意外备选。该诊断用于查看行为，但排除在顶部计分之外。

已知答案模板可能是估算，或未覆盖声称模型。prompt 措辞与 system prompt 会改变输出。需计分的地面真值判分请看能力地板。