跳转到主要内容

概述

gpt-image-2 是 OpenAI 最新旗舰图像生成模型,是 gpt-image-1.5 的升级版。核心升级:任意合法分辨率(含 2K / 3840×2160 4K)参考图自动高保真同档降价 20-30%。API易 网关完整兼容 OpenAI Images API,OpenAI 官方 SDK 把 base_url 指过来即可零代码改动直连。
🎨 核心亮点:原生支持任意合法分辨率(最大 3840×2160 4K)+ 参考图编辑自动启用 high-fidelity + 同尺寸同画质成本较 1.5 降低 20-30% + 中文提示词原生支持。适合需要精确控制 size / quality、要求与 OpenAI 官方一致、要 4K 出图的生产场景。

文生图 API

/v1/images/generations,输入文本提示词生成图片,支持 size / quality / output_format。

图片编辑 API

/v1/images/edits,multipart 上传参考图(最多 5 张)+ 编辑/融合指令,支持 mask 局部重绘。

为什么选 API易 的 GPT-image-2 官转?

对标 OpenAI 官方通道,针对企业生产场景在 稳定性成本接入体验 三方面做了深度优化:

官方通道 · 与官方一致

严格走 OpenAI 官方转发链路,请求和响应 100% 与 OpenAI 官方一致——字段、错误码、模型行为完全相同,质量无损、无偷跑风险。

不限并发 · 企业可放量

不受 OpenAI 官方 Tier 等级 对 RPM / TPM 的硬限,企业量级请求可线性放大,批量生图与高峰场景更从容。

同价 + 充值最低 85 折

默认单价与 OpenAI 官方一致,叠加 充值加赠活动 最低可享 85 折,长期使用成本显著下降。

全球零门槛接入

无需海外服务器或代理,国内机房、家宽网络、海外节点均可直连 api.apiyi.com,延迟稳定、免去出海改造。

模型生态齐全

官逆 gpt-image-2-all($0.03/张统一价)可无缝切换,另有性价比标杆 Nano Banana Pro / 2,按场景自由组合。

专业服务 · 企业陪跑

团队深耕图像生成场景,具备丰富的选型、调优与集成经验,可为企业客户提供从 PoC 到生产上线的完整技术支持。

核心特性

任意分辨率(含 4K)

支持任意合法尺寸输出,预设涵盖 1K / 2K / 3840×2160 4K,自定义尺寸只需满足边长 16 倍数、比例 ≤ 3:1 等基本约束。

参考图自动高保真

编辑场景下自动启用 high-fidelity,参考图细节、人物身份、文字内容保留度大幅提升。无需也不能再传 input_fidelity

同档降价 20-30%

1024×1024 高画质从 1.5 时代的 $0.25 级别降到 $0.211/张,2K/4K 按 token 实计但同样下行,长期使用成本明显降低。

中文 + 文字渲染

中文提示词原生支持,招牌、海报、UI 截图等场景的中英文文字渲染稳定,high 档位下精细文字几乎不糊。

多图融合(最多 5 张)

image[] 数组最多接受 5 张参考图,prompt 中可用「图1/图2/图3」明确指代。

mask 局部重绘

支持上传带 alpha 通道的 mask 图,透明区域为重绘区,不透明区域保留原图。

多种输出格式

支持 png(默认)/ jpeg / webp,jpeg/webp 可设 output_compression 控制体积。

OpenAI SDK 直连

base_url 指向 https://api.apiyi.com/v1 即可用 OpenAI 官方 SDK 直接调用,零代码改动迁移。

模型定价

按 token 计费(输入 text + 输入 image + 输出 image 三段之和)。官方按量定价表(每张输出图):
画质1024×10241024×15361536×1024
Low$0.006$0.005$0.005
Medium$0.053$0.041$0.041
High$0.211$0.165$0.165
计费说明
  • 2K / 4K 无固定每张价,按输入 + 输出 token 实计
  • 编辑场景因强制高保真,输入 token 明显高于纯文生图
  • 流式出图(stream: true + partial_images: N)每张 partial 额外消耗 100 个输出 image token
  • 对比 gpt-image-1.5,同档同尺寸 gpt-image-2 成本低约 20-30%

技术规格

维度参数
模型名gpt-image-2
速度约 120 秒(高画质 4K 接近 2 分钟)
输出分辨率任意合法尺寸(1K/2K/4K,最大 3840×2160)
画质档位auto / low / medium / high
输出格式png(默认)/ jpeg / webp
中文提示词✅ 原生支持
单次出图数量1 张(n=1
参考图上限5 张(image[]
mask 局部重绘✅ 支持(要求带 alpha 通道)
透明背景❌ 不支持(background: transparent 会报错)
响应字段b64_json纯 base64,无前缀

端点一览

端点用途Content-Type
POST /v1/images/generations文生图application/json
POST /v1/images/edits参考图编辑 / 多图融合 / mask 重绘multipart/form-data
域名选择api.apiyi.com 为主域名,也可使用 b.apiyi.com / vip.apiyi.com 等平台提供的其他网关域名,响应行为一致。

尺寸(size)详解

预设尺寸

size含义像素
auto自适应(默认)模型决定
1024x1024方形 1:11K
1536x1024横版 3:21K
1024x1536竖版 2:31K
2048x2048方形 1:12K
2048x1152横版 16:92K
3840x2160横版 16:94K
2160x3840竖版 9:164K

自定义尺寸约束

gpt-image-2 接受任意合法尺寸,只需同时满足:
  1. 最大边 ≤ 3840px
  2. 两条边都是 16 的倍数
  3. 长短边比例 ≤ 3:1
  4. 总像素数 ∈ [655,360, 8,294,400](下限约 0.65MP,上限约 8.3MP)
合法示例1600x12001792x10242048x15363200x1800 非法示例1000x1000(非 16 倍数)、4000x4000(超上限)、3840x1000(比例超 3:1)
超过 2560×1440(约 3.69MP)的输出目前官方标记为实验性,可能不稳定或出现质量波动。生产环境建议优先用预设尺寸:2048x1152 / 2048x2048 / 3840x2160 等。

最佳实践

1

尺寸优先选预设

8 个预设尺寸经过官方优化,速度和质量更稳定;自定义尺寸留给真有比例需求的场景。
2

画质按场景分档

草稿 / 批量 → low;默认 / 终稿 → medium;文字、精细纹理、印刷 → high
3

输出格式选 JPEG

对最终展示无特别要求时,output_format=jpeg + output_compression=85 比 PNG 快且体积小一半以上。
4

文字场景锁 high

文字渲染是主要卖点,但 low/medium 仍可能糊;招牌、海报类场景锁 quality=high
5

编辑场景准备参考图

单张 ≤ 10MB,PNG/JPEG/WebP 均可;最多 5 张;prompt 里用「图1/图2」指代顺序。
6

超时 ≥ 360 秒

quality=high + 2K/4K 实测可能达数分钟,单纯按”约 120 秒”配置会大量误超时。保守按 360 秒起配,前端务必给进度反馈;服务端建议用任务队列解耦。
7

迁移注意

gpt-image-1.5 迁移:删掉 input_fidelity(强制高保真,传了会报错);避开 background: transparent(暂不支持)。

错误码与重试

状态码含义处理建议
400参数非法(size 不合约束、传了不支持的字段等)按尺寸约束章节校验;注意不要传 input_fidelity / background: transparent
401令牌无效检查 Bearer Token
403内容审核拦截调整 prompt 或传 moderation: low
429限流 / 余额不足指数退避重试
5xx网关 / 后端错误重试 1–2 次
超时长尾客户端超时 ≥ 360 秒(high + 2K/4K 实测可能 3-5 分钟)
建议客户端
  • 请求超时 360 秒 起步(保守值;quality=high + 2K/4K 实测可能 3-5 分钟,按 120 秒配会大量误超时)
  • 对 5xx 与超时做 指数退避重试(建议 2 次)
  • 记录响应头 x-request-id 方便排查

常见问题

gpt-image-2 返回的是纯 base64 字符串(无前缀),与 gpt-image-2-all 不同。客户端有两种用法:
  • 写文件base64.b64decode(b64_str) 后写入磁盘
  • 浏览器渲染img.src = 'data:image/png;base64,' + b64_str 自行拼前缀
若你的代码沿用了 1.5 时代的”已含前缀”假设,会拿到损坏的 data URL,请显式判断。
gpt-image-2 强制启用 high-fidelity 处理参考图,不再接受 input_fidelity 参数。从 1.5 迁移时把这个字段移除即可,无需替换。
gpt-image-2 暂不支持 background: transparent(会报错)。两个变通方案:
  • background 改为 opaque / 或不传,自行用 PIL / sharp / 在线工具抠透明
  • 仍需透明背景的场景临时回退到 gpt-image-1.5
1 张(n=1)。如需 N 张请客户端并行 N 次调用。每次独立按 token 计费。
输出分辨率越高、画质档位越高,需要生成的 image token 越多,自然耗时越长。3840×2160 + quality=high 实测可接近 2 分钟。建议:
  • 客户端超时 ≥ 360 秒(保守值)
  • 前端显示”生成中”进度反馈
  • 不需要 4K 时仍用 1024×1024 / 1536×1024 等 1K 预设
因为 gpt-image-2 对参考图自动启用 high-fidelity 处理,参考图本身会按 Vision 计费规则换算成大量输入 token。带图编辑的输入 token 明显高于文生图,预算时要留足。
  • 与原图相同尺寸、相同格式,单张 ≤ 50MB
  • 必须带 alpha 通道:透明区域(alpha=0)= 要重绘的部分,不透明区域 = 保留
  • 仅对第一张 image 生效
  • mask 是”软引导”非精确边界,模型可能在蒙版周围扩展 / 收敛
场景
gpt-image-2(官方)需要精确控制 size / quality、要求与 OpenAI 官方完全一致、要 4K 出图、要 mask 局部重绘
gpt-image-2-all(官逆)追求统一价 $0.03/张、约 30 秒出图、参数极简、对一致性 / 中文文字要求高
可以,零代码改动。把 base_url 指向 https://api.apiyi.com/v1api_key 设为 API易 令牌即可:
from openai import OpenAI
client = OpenAI(api_key="sk-your-key", base_url="https://api.apiyi.com/v1")
resp = client.images.generate(model="gpt-image-2", prompt="...", size="2048x1152", quality="high")
不支持gpt-image-2 走 OpenAI 官方同步端点,请求一旦提交就会跑到结束,无法发出”取消”指令。客户端即使断开连接,服务端仍会把这次生成完整跑完并照常计费。建议在客户端做好超时控制,不要依赖”断连就不收费”的假设。
默认 100 RPM(每分钟 100 次请求)。实际可用 RPM 还会受全平台总并发动态调整。如果你的业务需要更高配额,请联系我们告知预估 QPS / RPM,可单独申请扩容资源。
不支持gpt-image-2 严格与 OpenAI 官方一致——只有同步调用,发起请求后阻塞等待结果(high 档 + 4K 实测 1–2 分钟)。如需异步队列、回调通知等能力:
  • 在业务层用任务队列(Celery / BullMQ 等)自行封装异步
  • 或改用 gpt-image-2-all,出图约 30 秒,更适合前端轮询
不会。OpenAI 自带内容安全审核,触发审核或参数非法时会直接返回 400 错误并不计费。典型响应:
{
  "status_code": 400,
  "error": {
    "message": "Your request was rejected by the safety system. ...",
    "type": "shell_api_error",
    "code": "moderation_blocked"
  }
}
其它常见的 0 计费错误:401(令牌无效)、429(限流)。只有请求实际进入模型生成阶段(即收到 200 + b64_json)才会按 token 计费

相关文档

gpt-image-2 是 OpenAI 官方旗舰,按 token 实计;如果你更看重统一定价($0.03/张)和出图速度(~30s),可参考 gpt-image-2-all