GPT-Image-2 生图/编辑

概述

gpt-image-2 是 OpenAI 最新旗舰图像生成模型，是 gpt-image-1.5 的升级版。核心升级：任意合法分辨率（含 2K / 3840×2160 4K）、参考图自动高保真、同档降价 20-30%。API易网关完整兼容 OpenAI Images API，OpenAI 官方 SDK 把 base_url 指过来即可零代码改动直连。

🎨 核心亮点：原生支持任意合法分辨率（最大 3840×2160 4K）+ 参考图编辑自动启用 high-fidelity + 同尺寸同画质成本较 1.5 降低 20-30% + 中文提示词原生支持。适合需要精确控制 size / quality、要求与 OpenAI 官方一致、要 4K 出图的生产场景。

文生图 API

/v1/images/generations，输入文本提示词生成图片，支持 size / quality / output_format。

图片编辑 API

/v1/images/edits，multipart 上传参考图（最多 5 张）+ 编辑/融合指令，支持 mask 局部重绘。

为什么选 API易的 GPT-image-2 官转？

对标 OpenAI 官方通道，针对企业生产场景在 稳定性、成本、接入体验 三方面做了深度优化：

官方通道 · 与官方一致

严格走 OpenAI 官方转发链路，请求和响应 100% 与 OpenAI 官方一致——字段、错误码、模型行为完全相同，质量无损、无偷跑风险。

不限并发 · 企业可放量

不受 OpenAI 官方 Tier 等级 对 RPM / TPM 的硬限，企业量级请求可线性放大，批量生图与高峰场景更从容。

同价 + 充值最低 85 折

默认单价与 OpenAI 官方一致，叠加充值加赠活动 最低可享 85 折，长期使用成本显著下降。

全球零门槛接入

无需海外服务器或代理，国内机房、家宽网络、海外节点均可直连 api.apiyi.com，延迟稳定、免去出海改造。

模型生态齐全

官逆 gpt-image-2-all（$0.03/张统一价）可无缝切换，另有性价比标杆 Nano Banana Pro / 2，按场景自由组合。

专业服务 · 企业陪跑

团队深耕图像生成场景，具备丰富的选型、调优与集成经验，可为企业客户提供从 PoC 到生产上线的完整技术支持。

核心特性

任意分辨率（含 4K）

支持任意合法尺寸输出，预设涵盖 1K / 2K / 3840×2160 4K，自定义尺寸只需满足边长 16 倍数、比例 ≤ 3:1 等基本约束。

参考图自动高保真

编辑场景下自动启用 high-fidelity，参考图细节、人物身份、文字内容保留度大幅提升。无需也不能再传 input_fidelity。

同档降价 20-30%

1024×1024 高画质从 1.5 时代的 $0.25 级别降到 $0.211/张，2K/4K 按 token 实计但同样下行，长期使用成本明显降低。

中文 + 文字渲染

中文提示词原生支持，招牌、海报、UI 截图等场景的中英文文字渲染稳定，high 档位下精细文字几乎不糊。

多图融合（最多 5 张）

image[] 数组最多接受 5 张参考图，prompt 中可用「图1/图2/图3」明确指代。

mask 局部重绘

支持上传带 alpha 通道的 mask 图，透明区域为重绘区，不透明区域保留原图。

多种输出格式

支持 png（默认）/ jpeg / webp，jpeg/webp 可设 output_compression 控制体积。

OpenAI SDK 直连

把 base_url 指向 https://api.apiyi.com/v1 即可用 OpenAI 官方 SDK 直接调用，零代码改动迁移。

模型定价

按 token 计费（输入 text + 输入 image + 输出 image 三段之和）。官方按量定价表（每张输出图）：

画质	1024×1024	1024×1536	1536×1024
Low	$0.006	$0.005	$0.005
Medium	$0.053	$0.041	$0.041
High	$0.211	$0.165	$0.165

计费说明：

2K / 4K 无固定每张价，按输入 + 输出 token 实计
编辑场景因强制高保真，输入 token 明显高于纯文生图
流式出图（stream: true + partial_images: N）每张 partial 额外消耗 100 个输出 image token
对比 gpt-image-1.5，同档同尺寸 gpt-image-2 成本低约 20-30%

技术规格

维度	参数
模型名	`gpt-image-2`
速度	约 120 秒（高画质 4K 接近 2 分钟）
输出分辨率	任意合法尺寸（1K/2K/4K，最大 3840×2160）
画质档位	`auto` / `low` / `medium` / `high`
输出格式	`png`（默认）/ `jpeg` / `webp`
中文提示词	✅ 原生支持
单次出图数量	1 张（`n=1`）
参考图上限	5 张（`image[]`）
mask 局部重绘	✅ 支持（要求带 alpha 通道）
透明背景	❌ 不支持（`background: transparent` 会报错）
响应字段	`b64_json`（纯 base64，无前缀）

端点一览

端点	用途	Content-Type
`POST /v1/images/generations`	文生图	`application/json`
`POST /v1/images/edits`	参考图编辑 / 多图融合 / mask 重绘	`multipart/form-data`

域名选择：api.apiyi.com 为主域名，也可使用 b.apiyi.com / vip.apiyi.com 等平台提供的其他网关域名，响应行为一致。

尺寸（size）详解

预设尺寸

size	含义	像素
`auto`	自适应（默认）	模型决定
`1024x1024`	方形 1:1	1K
`1536x1024`	横版 3:2	1K
`1024x1536`	竖版 2:3	1K
`2048x2048`	方形 1:1	2K
`2048x1152`	横版 16:9	2K
`3840x2160`	横版 16:9	4K
`2160x3840`	竖版 9:16	4K

自定义尺寸约束

gpt-image-2 接受任意合法尺寸，只需同时满足：

最大边 ≤ 3840px
两条边都是 16 的倍数
长短边比例 ≤ 3:1
总像素数 ∈ [655,360, 8,294,400]（下限约 0.65MP，上限约 8.3MP）

合法示例：1600x1200、1792x1024、2048x1536、3200x1800 非法示例：1000x1000（非 16 倍数）、4000x4000（超上限）、3840x1000（比例超 3:1）

超过 2560×1440（约 3.69MP）的输出目前官方标记为实验性，可能不稳定或出现质量波动。生产环境建议优先用预设尺寸：2048x1152 / 2048x2048 / 3840x2160 等。

最佳实践

尺寸优先选预设

8 个预设尺寸经过官方优化，速度和质量更稳定；自定义尺寸留给真有比例需求的场景。

画质按场景分档

草稿 / 批量 → low；默认 / 终稿 → medium；文字、精细纹理、印刷 → high。

输出格式选 JPEG

对最终展示无特别要求时，output_format=jpeg + output_compression=85 比 PNG 快且体积小一半以上。

文字场景锁 high

文字渲染是主要卖点，但 low/medium 仍可能糊；招牌、海报类场景锁 quality=high。

编辑场景准备参考图

单张 ≤ 10MB，PNG/JPEG/WebP 均可；最多 5 张；prompt 里用「图1/图2」指代顺序。

超时 ≥ 360 秒

quality=high + 2K/4K 实测可能达数分钟，单纯按”约 120 秒”配置会大量误超时。保守按 360 秒起配，前端务必给进度反馈；服务端建议用任务队列解耦。

迁移注意

从 gpt-image-1.5 迁移：删掉 input_fidelity（强制高保真，传了会报错）；避开 background: transparent（暂不支持）。

错误码与重试

状态码	含义	处理建议
`400`	参数非法（size 不合约束、传了不支持的字段等）	按尺寸约束章节校验；注意不要传 `input_fidelity` / `background: transparent`
`401`	令牌无效	检查 Bearer Token
`403`	内容审核拦截	调整 prompt 或传 `moderation: low`
`429`	限流 / 余额不足	指数退避重试
`5xx`	网关 / 后端错误	重试 1–2 次
超时	长尾	客户端超时 ≥ 360 秒（high + 2K/4K 实测可能 3-5 分钟）

建议客户端：

请求超时 360 秒 起步（保守值；quality=high + 2K/4K 实测可能 3-5 分钟，按 120 秒配会大量误超时）
对 5xx 与超时做 指数退避重试（建议 2 次）
记录响应头 x-request-id 方便排查

常见问题

返回的 b64_json 要不要自己加 data:image/png;base64, 前缀？

要。gpt-image-2 返回的是纯 base64 字符串（无前缀），与 gpt-image-2-all 不同。客户端有两种用法：

写文件：base64.b64decode(b64_str) 后写入磁盘
浏览器渲染：img.src = 'data:image/png;base64,' + b64_str 自行拼前缀

若你的代码沿用了 1.5 时代的”已含前缀”假设，会拿到损坏的 data URL，请显式判断。

为什么传 input_fidelity 会报 400？

gpt-image-2 强制启用 high-fidelity 处理参考图，不再接受 input_fidelity 参数。从 1.5 迁移时把这个字段移除即可，无需替换。

想要透明背景怎么办？

gpt-image-2 暂不支持 background: transparent（会报错）。两个变通方案：

把 background 改为 opaque / 或不传，自行用 PIL / sharp / 在线工具抠透明
仍需透明背景的场景临时回退到 gpt-image-1.5

单次能出几张？

1 张（n=1）。如需 N 张请客户端并行 N 次调用。每次独立按 token 计费。

2K/4K 出图为什么很慢？

输出分辨率越高、画质档位越高，需要生成的 image token 越多，自然耗时越长。3840×2160 + quality=high 实测可接近 2 分钟。建议：

客户端超时 ≥ 360 秒（保守值）
前端显示”生成中”进度反馈
不需要 4K 时仍用 1024×1024 / 1536×1024 等 1K 预设

编辑请求为什么比文生图贵？

因为 gpt-image-2 对参考图自动启用 high-fidelity 处理，参考图本身会按 Vision 计费规则换算成大量输入 token。带图编辑的输入 token 明显高于文生图，预算时要留足。

mask 文件怎么准备？

与原图相同尺寸、相同格式，单张 ≤ 50MB
必须带 alpha 通道：透明区域（alpha=0）= 要重绘的部分，不透明区域 = 保留
仅对第一张 image 生效
mask 是”软引导”非精确边界，模型可能在蒙版周围扩展 / 收敛

和 gpt-image-2-all 怎么选？

选	场景
gpt-image-2（官方）	需要精确控制 size / quality、要求与 OpenAI 官方完全一致、要 4K 出图、要 mask 局部重绘
gpt-image-2-all（官逆）	追求统一价 $0.03/张、约 30 秒出图、参数极简、对一致性 / 中文文字要求高

能用 OpenAI 的官方 SDK 直连吗？

可以，零代码改动。把 base_url 指向 https://api.apiyi.com/v1，api_key 设为 API易令牌即可：

from openai import OpenAI
client = OpenAI(api_key="sk-your-key", base_url="https://api.apiyi.com/v1")
resp = client.images.generate(model="gpt-image-2", prompt="...", size="2048x1152", quality="high")

支持主动中断生成任务吗？

不支持。gpt-image-2 走 OpenAI 官方同步端点，请求一旦提交就会跑到结束，无法发出”取消”指令。客户端即使断开连接，服务端仍会把这次生成完整跑完并照常计费。建议在客户端做好超时控制，不要依赖”断连就不收费”的假设。

有请求速率限制（RPM）吗？

默认 100 RPM（每分钟 100 次请求）。实际可用 RPM 还会受全平台总并发动态调整。如果你的业务需要更高配额，请联系我们告知预估 QPS / RPM，可单独申请扩容资源。

支持异步调用吗？

不支持。gpt-image-2 严格与 OpenAI 官方一致——只有同步调用，发起请求后阻塞等待结果（high 档 + 4K 实测 1–2 分钟）。如需异步队列、回调通知等能力：

在业务层用任务队列（Celery / BullMQ 等）自行封装异步
或改用 gpt-image-2-all，出图约 30 秒，更适合前端轮询

生成失败会扣费吗？

不会。OpenAI 自带内容安全审核，触发审核或参数非法时会直接返回 400 错误并不计费。典型响应：

{
  "status_code": 400,
  "error": {
    "message": "Your request was rejected by the safety system. ...",
    "type": "shell_api_error",
    "code": "moderation_blocked"
  }
}

其它常见的 0 计费错误：401（令牌无效）、429（限流）。只有请求实际进入模型生成阶段（即收到 200 + b64_json）才会按 token 计费。

产品基础

基础 API

视频 API

图片 API

多模态理解 API

文本 API

概述

文生图 API

图片编辑 API

为什么选 API易的 GPT-image-2 官转？

官方通道 · 与官方一致

不限并发 · 企业可放量

同价 + 充值最低 85 折

全球零门槛接入

模型生态齐全

专业服务 · 企业陪跑

核心特性

任意分辨率（含 4K）

参考图自动高保真

同档降价 20-30%

中文 + 文字渲染

多图融合（最多 5 张）

mask 局部重绘

多种输出格式

OpenAI SDK 直连

模型定价

技术规格

端点一览

尺寸（size）详解

预设尺寸

自定义尺寸约束

最佳实践

错误码与重试

常见问题

相关文档

产品基础

基础 API

视频 API

图片 API

多模态理解 API

文本 API

​概述

文生图 API

图片编辑 API

​为什么选 API易 的 GPT-image-2 官转？

官方通道 · 与官方一致

不限并发 · 企业可放量

同价 + 充值最低 85 折

全球零门槛接入

模型生态齐全

专业服务 · 企业陪跑

​核心特性

任意分辨率（含 4K）

参考图自动高保真

同档降价 20-30%

中文 + 文字渲染

多图融合（最多 5 张）

mask 局部重绘

多种输出格式

OpenAI SDK 直连

​模型定价

​技术规格

​端点一览

​尺寸（size）详解

​预设尺寸

​自定义尺寸约束

​最佳实践

​错误码与重试

​常见问题

​相关文档

概述

为什么选 API易的 GPT-image-2 官转？

核心特性

模型定价

技术规格

端点一览

尺寸（size）详解

预设尺寸

自定义尺寸约束

最佳实践

错误码与重试

常见问题

相关文档