检测维度 · 权重 6%
Context 窗口探测
本维度检测什么
若声称 200k 上下文但 32k 即报错,路由或中间层与宣传不符。合理成因包括网关成本上限、安全截断、区域限制——本维只标不匹配,不断言偷换。
算法
发送递进 context 探针:4k、16k、64k、200k 的稳定填充,针尖置于末尾。每步验证针尖可恢复。
阈值
| 条件 | 对 verdict 的贡献 |
|---|---|
| 在宣称窗口内可恢复针尖 | 匹配 |
| 在宣称窗口前丢失针尖 | 不匹配 |
局限
探针昂贵(≥ 200k 输入 token)故默认关闭。仅在深度预设启用。
参考文献
- Liu et al. «Lost in the Middle» 长上下文评估,2023