OpenAI 官方 API 基准检测报告

检测无效 · 模型 gpt-5.5-2026-04-23 · 模式 full · 官方 endpoint https://api.openai.com · 基准源:OpenAI 官方 API 基准 · 实际 endpoint:api.openai.com

下载 JPG

检测无效: 检测无效: 这份 GPT 官方基准来自历史检测器兼容问题。旧版请求给 gpt-5.5 发送了 temperature=0,但该模型只接受默认 temperature,因此 OpenAI 官方 API 返回 HTTP 400。这不是 OpenAI 官方 API 质量失败; 当前版本已自动移除该参数, 请重新检测生成新的官方基准。

行为/协议级验证: 本检测无法可靠区分高配模型真品与低配模型伪装。我们检测的是中转站接口是否符合 OpenAI Chat Completions 协议规范、能力是否完整、usage 字段是否符合官方响应形状。

—

检测无效

由 https://veridrop.org 生成

基础请求异常
模型一致性异常
函数调用异常
结构化输出异常
协议规范性跳过
流式一致性异常
Token 计费异常
长上下文真实性未启用

首 TOKEN

—

总耗时

408ms

吞吐 (T/S)

19.6

输入 TOKENS

输出 TOKENS

OpenAI 检测项各自检查什么?

基础请求 (Basic Request): 发送最小 Chat Completions 请求,确认接口可用且能提取 assistant 文本。
模型一致性 (Model Consistency): 验证 response.model 与请求模型匹配,并检查低温多次调用的输出 token 稳定性。
函数调用 (Function Calling): 强制 tool_choice,验证 call_ ID、type=function、函数名和 arguments JSON。
结构化输出 (Structured Output): 使用 response_format=json_schema,检查返回内容能否按 schema 解析。
协议规范性 (Protocol): 被动检查 chatcmpl- ID、chat.completion、choices、finish_reason、usage 等官方字段。
流式一致性 (Integrity): 比较同一 prompt 的 stream 与 non-stream 文本、finish_reason 和 usage 是否一致。
Token 计费: 检查中转站返回的输入/输出 Token 数是否自洽,并和同一次检测里的流式/非流式结果、本地可预期的变化进行对比。
长上下文真实性 (Long Context): 需在提交时勾选启用 — 用 needle-in-haystack 在 32k → 100k → 200k tokens 三档探针,验证中转站是否真兑现宣传的 context window(识别截断 / 路由到小窗口模型)。极限档可按模型完整上限自适应探到 950k+。

这份报告帮你避坑了吗?

如果 Veridrop 的字段级证据对你有用,欢迎顺手给 GitHub 点个 Star,支持公开、可复核的中转站测评继续维护。

GitHub 加星支持 →