全部维度

检测维度 · 权重 7%

金丝雀 Prompt 行为

本维度检测什么

金丝雀是小巧、强/弱模型答案可测差异的谜题。例:数 strawberry 字母(旧式)、Newcomb 决策论、冷门 IUPAC 化学、ARC-AGI-2 模式归纳。

算法

以 temperature 0 发送固定金丝雀集(旧探针 + 2026 库:HLE 风格、ARC-AGI-2、BFCL 风格)。对每则响应查 lib/fingerprints/canaries-2026.ts,取声称模型的已知答案模板,用归一化 token 重叠评分。命中要求声称模板过绝对门槛(~0.30)并以足够间隔胜过最佳备选。若多则未命中且存在明确备选模板,将其加入推测模型选票。

阈值

条件对 verdict 的贡献
声称模板分 ≥ 0.30 且优于最佳备选 ≥ 0.10命中
其他情况未命中(若最佳备选过 0.30 且领先 ≥ 0.15 则对其投票)
≥ 2 则已评分且命中率 < 50%维度不匹配

局限

已知答案模板为作者撰写摘要,非逐字模型输出;子串重叠度量故意粗糙以容忍自然语言改写。`knownAnswers` 未覆盖声称模型的金丝雀会记录但不计分。每金丝雀 `discriminatesAmong` 过滤在 TODO——当前每则都计分。

参考文献

  • HLE: Humanity's Last Exam, 2025
  • ARC-AGI-2: arc-agi.com/2
  • BFCL: Berkeley Function-Calling Leaderboard, 2025

返回完整方法论