概述
gpt-image-2 是 OpenAI 最新旗舰图像生成模型,是gpt-image-1.5 的升级版。核心升级:任意合法分辨率(含 2K / 3840×2160 4K)、参考图自动高保真、同档降价 20-30%。API易 网关完整兼容 OpenAI Images API,OpenAI 官方 SDK 把 base_url 指过来即可零代码改动直连。
🎨 核心亮点:原生支持任意合法分辨率(最大 3840×2160 4K)+ 参考图编辑自动启用 high-fidelity + 同尺寸同画质成本较 1.5 降低 20-30% + 中文提示词原生支持。适合需要精确控制 size / quality、要求与 OpenAI 官方一致、要 4K 出图的生产场景。
文生图 API
/v1/images/generations,输入文本提示词生成图片,支持 size / quality / output_format。图片编辑 API
/v1/images/edits,multipart 上传参考图(最多 5 张)+ 编辑/融合指令,支持 mask 局部重绘。为什么选 API易 的 GPT-image-2 官转?
对标 OpenAI 官方通道,针对企业生产场景在 稳定性、成本、接入体验 三方面做了深度优化:官方通道 · 与官方一致
严格走 OpenAI 官方转发链路,请求和响应 100% 与 OpenAI 官方一致——字段、错误码、模型行为完全相同,质量无损、无偷跑风险。
不限并发 · 企业可放量
不受 OpenAI 官方 Tier 等级 对 RPM / TPM 的硬限,企业量级请求可线性放大,批量生图与高峰场景更从容。
同价 + 充值最低 85 折
默认单价与 OpenAI 官方一致,叠加 充值加赠活动 最低可享 85 折,长期使用成本显著下降。
全球零门槛接入
无需海外服务器或代理,国内机房、家宽网络、海外节点均可直连
api.apiyi.com,延迟稳定、免去出海改造。模型生态齐全
官逆
gpt-image-2-all($0.03/张统一价)可无缝切换,另有性价比标杆 Nano Banana Pro / 2,按场景自由组合。专业服务 · 企业陪跑
团队深耕图像生成场景,具备丰富的选型、调优与集成经验,可为企业客户提供从 PoC 到生产上线的完整技术支持。
核心特性
任意分辨率(含 4K)
支持任意合法尺寸输出,预设涵盖 1K / 2K / 3840×2160 4K,自定义尺寸只需满足边长 16 倍数、比例 ≤ 3:1 等基本约束。
参考图自动高保真
编辑场景下自动启用 high-fidelity,参考图细节、人物身份、文字内容保留度大幅提升。无需也不能再传
input_fidelity。同档降价 20-30%
1024×1024 高画质从 1.5 时代的 $0.25 级别降到 $0.211/张,2K/4K 按 token 实计但同样下行,长期使用成本明显降低。
中文 + 文字渲染
中文提示词原生支持,招牌、海报、UI 截图等场景的中英文文字渲染稳定,
high 档位下精细文字几乎不糊。多图融合(最多 5 张)
image[] 数组最多接受 5 张参考图,prompt 中可用「图1/图2/图3」明确指代。mask 局部重绘
支持上传带 alpha 通道的 mask 图,透明区域为重绘区,不透明区域保留原图。
多种输出格式
支持 png(默认)/ jpeg / webp,jpeg/webp 可设
output_compression 控制体积。OpenAI SDK 直连
把
base_url 指向 https://api.apiyi.com/v1 即可用 OpenAI 官方 SDK 直接调用,零代码改动迁移。模型定价
按 token 计费(输入 text + 输入 image + 输出 image 三段之和)。官方按量定价表(每张输出图):| 画质 | 1024×1024 | 1024×1536 | 1536×1024 |
|---|---|---|---|
| Low | $0.006 | $0.005 | $0.005 |
| Medium | $0.053 | $0.041 | $0.041 |
| High | $0.211 | $0.165 | $0.165 |
计费说明:
- 2K / 4K 无固定每张价,按输入 + 输出 token 实计
- 编辑场景因强制高保真,输入 token 明显高于纯文生图
- 流式出图(
stream: true+partial_images: N)每张 partial 额外消耗 100 个输出 image token - 对比
gpt-image-1.5,同档同尺寸gpt-image-2成本低约 20-30%
技术规格
| 维度 | 参数 |
|---|---|
| 模型名 | gpt-image-2 |
| 速度 | 约 120 秒(高画质 4K 接近 2 分钟) |
| 输出分辨率 | 任意合法尺寸(1K/2K/4K,最大 3840×2160) |
| 画质档位 | auto / low / medium / high |
| 输出格式 | png(默认)/ jpeg / webp |
| 中文提示词 | ✅ 原生支持 |
| 单次出图数量 | 1 张(n=1) |
| 参考图上限 | 5 张(image[]) |
| mask 局部重绘 | ✅ 支持(要求带 alpha 通道) |
| 透明背景 | ❌ 不支持(background: transparent 会报错) |
| 响应字段 | b64_json(纯 base64,无前缀) |
端点一览
| 端点 | 用途 | Content-Type |
|---|---|---|
POST /v1/images/generations | 文生图 | application/json |
POST /v1/images/edits | 参考图编辑 / 多图融合 / mask 重绘 | multipart/form-data |
尺寸(size)详解
预设尺寸
| size | 含义 | 像素 |
|---|---|---|
auto | 自适应(默认) | 模型决定 |
1024x1024 | 方形 1:1 | 1K |
1536x1024 | 横版 3:2 | 1K |
1024x1536 | 竖版 2:3 | 1K |
2048x2048 | 方形 1:1 | 2K |
2048x1152 | 横版 16:9 | 2K |
3840x2160 | 横版 16:9 | 4K |
2160x3840 | 竖版 9:16 | 4K |
自定义尺寸约束
gpt-image-2 接受任意合法尺寸,只需同时满足:
- 最大边 ≤ 3840px
- 两条边都是 16 的倍数
- 长短边比例 ≤ 3:1
- 总像素数 ∈ [655,360, 8,294,400](下限约 0.65MP,上限约 8.3MP)
1600x1200、1792x1024、2048x1536、3200x1800
非法示例:1000x1000(非 16 倍数)、4000x4000(超上限)、3840x1000(比例超 3:1)
最佳实践
错误码与重试
| 状态码 | 含义 | 处理建议 |
|---|---|---|
400 | 参数非法(size 不合约束、传了不支持的字段等) | 按尺寸约束章节校验;注意不要传 input_fidelity / background: transparent |
401 | 令牌无效 | 检查 Bearer Token |
403 | 内容审核拦截 | 调整 prompt 或传 moderation: low |
429 | 限流 / 余额不足 | 指数退避重试 |
5xx | 网关 / 后端错误 | 重试 1–2 次 |
| 超时 | 长尾 | 客户端超时 ≥ 360 秒(high + 2K/4K 实测可能 3-5 分钟) |
建议客户端:
- 请求超时 360 秒 起步(保守值;
quality=high+ 2K/4K 实测可能 3-5 分钟,按 120 秒配会大量误超时) - 对 5xx 与超时做 指数退避重试(建议 2 次)
- 记录响应头
x-request-id方便排查
常见问题
返回的 b64_json 要不要自己加 data:image/png;base64, 前缀?
返回的 b64_json 要不要自己加 data:image/png;base64, 前缀?
要。
gpt-image-2 返回的是纯 base64 字符串(无前缀),与 gpt-image-2-all 不同。客户端有两种用法:- 写文件:
base64.b64decode(b64_str)后写入磁盘 - 浏览器渲染:
img.src = 'data:image/png;base64,' + b64_str自行拼前缀
为什么传 input_fidelity 会报 400?
为什么传 input_fidelity 会报 400?
gpt-image-2 强制启用 high-fidelity 处理参考图,不再接受 input_fidelity 参数。从 1.5 迁移时把这个字段移除即可,无需替换。想要透明背景怎么办?
想要透明背景怎么办?
gpt-image-2 暂不支持 background: transparent(会报错)。两个变通方案:- 把
background改为opaque/ 或不传,自行用 PIL / sharp / 在线工具抠透明 - 仍需透明背景的场景临时回退到
gpt-image-1.5
单次能出几张?
单次能出几张?
1 张(
n=1)。如需 N 张请客户端并行 N 次调用。每次独立按 token 计费。2K/4K 出图为什么很慢?
2K/4K 出图为什么很慢?
输出分辨率越高、画质档位越高,需要生成的 image token 越多,自然耗时越长。
3840×2160 + quality=high 实测可接近 2 分钟。建议:- 客户端超时 ≥ 360 秒(保守值)
- 前端显示”生成中”进度反馈
- 不需要 4K 时仍用 1024×1024 / 1536×1024 等 1K 预设
编辑请求为什么比文生图贵?
编辑请求为什么比文生图贵?
因为
gpt-image-2 对参考图自动启用 high-fidelity 处理,参考图本身会按 Vision 计费规则换算成大量输入 token。带图编辑的输入 token 明显高于文生图,预算时要留足。mask 文件怎么准备?
mask 文件怎么准备?
- 与原图相同尺寸、相同格式,单张 ≤ 50MB
- 必须带 alpha 通道:透明区域(alpha=0)= 要重绘的部分,不透明区域 = 保留
- 仅对第一张 image 生效
- mask 是”软引导”非精确边界,模型可能在蒙版周围扩展 / 收敛
和 gpt-image-2-all 怎么选?
和 gpt-image-2-all 怎么选?
| 选 | 场景 |
|---|---|
| gpt-image-2(官方) | 需要精确控制 size / quality、要求与 OpenAI 官方完全一致、要 4K 出图、要 mask 局部重绘 |
| gpt-image-2-all(官逆) | 追求统一价 $0.03/张、约 30 秒出图、参数极简、对一致性 / 中文文字要求高 |
能用 OpenAI 的官方 SDK 直连吗?
能用 OpenAI 的官方 SDK 直连吗?
可以,零代码改动。把
base_url 指向 https://api.apiyi.com/v1,api_key 设为 API易 令牌即可:支持主动中断生成任务吗?
支持主动中断生成任务吗?
不支持。
gpt-image-2 走 OpenAI 官方同步端点,请求一旦提交就会跑到结束,无法发出”取消”指令。客户端即使断开连接,服务端仍会把这次生成完整跑完并照常计费。建议在客户端做好超时控制,不要依赖”断连就不收费”的假设。有请求速率限制(RPM)吗?
有请求速率限制(RPM)吗?
默认 100 RPM(每分钟 100 次请求)。实际可用 RPM 还会受全平台总并发动态调整。如果你的业务需要更高配额,请联系我们告知预估 QPS / RPM,可单独申请扩容资源。
支持异步调用吗?
支持异步调用吗?
不支持。
gpt-image-2 严格与 OpenAI 官方一致——只有同步调用,发起请求后阻塞等待结果(high 档 + 4K 实测 1–2 分钟)。如需异步队列、回调通知等能力:- 在业务层用任务队列(Celery / BullMQ 等)自行封装异步
- 或改用
gpt-image-2-all,出图约 30 秒,更适合前端轮询
生成失败会扣费吗?
生成失败会扣费吗?
不会。OpenAI 自带内容安全审核,触发审核或参数非法时会直接返回 其它常见的 0 计费错误:
400 错误并不计费。典型响应:401(令牌无效)、429(限流)。只有请求实际进入模型生成阶段(即收到 200 + b64_json)才会按 token 计费。相关文档
- ⚖️ 官转 vs 官逆 对比 - 选型对照表,帮你决定用哪个
- 文生图 Playground -
/v1/images/generations在线调试 - 图片编辑 Playground -
/v1/images/edits多图融合 + mask - 深度解读:gpt-image-2 上线说明 - News 文章
- 完整接入文档(中文) - 完整 API 参考
- GPT-Image-2-All(官逆版本) - 更便宜、更快的备选方案
- 社区贡献:Luck GPT-Image 2 ComfyUI 节点 - 在 ComfyUI 中一键调用
gpt-image-2(含 mask / 5 图输入 / 自定义尺寸) - 社区贡献:APIYI GPT-Image 2 Skills - 在 Codex CLI / Cursor / Gemini CLI 等 AI 编程工具中一句话调用
- API 使用手册 - 通用调用规范
gpt-image-2 是 OpenAI 官方旗舰,按 token 实计;如果你更看重统一定价($0.03/张)和出图速度(~30s),可参考 gpt-image-2-all。