📊 评分维度与权重
综合评分由后端探针(Probe)体系自动采集,加权 + 上限封顶后取最低值,生成 0-100 分,前端按 ÷10 显示。
🛡️
D1 协议连通性
能否成功调用 chat/messages 接口并返回有效内容(失败带 2 次重试退避)。失败直接 0 分封顶
20%
⚡
D8 响应延迟
流式调用首字节时间(TTFB)。按模型族选目标延迟(普通 2.5s/Opus 4s/Thinking 6s)
15%
📈
D9 性能稳定性
10 次不同 prompt 调用,统计成功率 + 内容正确率 + 延迟一致性
15%
✅
D3 身份一致性
交叉验证模型自报名 + body.model 字段 + 模型族特征问答,3 类信号至少 2 项匹配
15%
📦
D2 响应结构
返回体的 OpenAI 兼容字段完整性(id/choices/message/content/usage)
10%
🧬
D5 内容 Canary
让模型原样回显随机字符串,识别中转改写/中转 mock
10%
🔏
D17 响应签名
id/object/role/finish_reason/usage/model 6 项加权检查
10%
🧠
D18 Claude 思考签名
仅 Claude 系。校验 thinking signature 长度 ≥80 + base64 合法 + 高熵(随机度)
10%
🌊
S5 流完整性
SSE 流的 content-type / chunk / [DONE] / 文本拼接 5 项检查
5%
🔌
D10 RPM 容量(可选)
轻量模式 30 RPM × 15s 探查;非默认开启
10%
🧩
D19/D20/D21/D22 兼容性
Responses API / Function Calling / JSON Mode / Vision,展示用,不计入评分
参考
计算流程:
composite_score = min(加权平均, 各探针的 cap_value 上限)
rank_score = stability_subscore × 0.35 + composite_score × 0.65 再乘 floor_factor
provider.score = α × 本次 rank_score + (1-α) × 历史值 ,α=0.35 平滑突发抖动
online_rate 取最近 7 天历史窗口聚合,样本不足显示 "--"
⚠️ 各项分数为脚本自动采集,无主观投票。任一探针严重不通过会触发 cap 上限,直接限制综合分数。