跳转到主要内容

核心要点

  • 首个原生多模态嵌入:支持文本、图片、视频、音频、PDF 五种模态统一映射到同一向量空间
  • MTEB 英文榜首:68.32 分登顶,分类 +9.6、检索 +9.0、聚类 +3.7 领先第二名
  • 灵活维度控制:默认 3072 维,支持 128~3072 任意截断(Matryoshka 表征学习),768 维仍达 67.99
  • 超长输入支持:文本最大 8192 tokens,图片最多 6 张/请求,视频最长 120 秒
  • 100+ 语言覆盖:多语言嵌入能力,MTEB 多语言榜 Top 5

背景介绍

2026 年 3 月 10 日,谷歌正式发布 Gemini Embedding 2 Preview,这是 Gemini 系列的首个原生多模态嵌入模型。与此前仅支持文本的 text-embedding-004 和 gemini-embedding-001 不同,Gemini Embedding 2 可以将文本、图片、视频、音频和 PDF 文档统一映射到同一个向量空间,实现真正的跨模态语义检索。 这意味着你可以用一段文本去搜索相关的图片,或者用一张图片去检索匹配的文档——所有模态共享同一套向量表示,无需分别处理。 API易已上架 gemini-embedding-2-preview,支持 OpenAI 兼容的 /v1/embeddings 接口直接调用。

详细解析

核心特性

原生多模态

文本、图片、视频、音频、PDF 统一向量空间,实现跨模态语义搜索和相似度计算

MTEB 榜首

英文 68.32 分登顶,分类、检索、聚类三项大幅领先,多语言 Top 5

Matryoshka 降维

支持 128~3072 维灵活截断,低维仍保持高质量,按需平衡性能与存储成本

Prompt 指令式任务

告别固定 task_type 枚举,使用自然语言 prompt 描述任务类型,更灵活精确

性能亮点

Gemini Embedding 2 Preview 在 MTEB 基准上全面领先:
维度MTEB 英文总分说明
3072(默认)68.32榜首
204868.16接近满维表现
153668.17适合替代 3-large
76867.99存储减半,性能几乎无损
分项领先幅度(相比第二名):
任务类型领先幅度
分类+9.6 分
检索+9.0 分
聚类+3.7 分
数据来源:谷歌官方博客(blog.google)及 MTEB 排行榜。Gemini Embedding 2 Preview 于 2026 年 3 月 10 日发布。

与前代模型对比

特性text-embedding-004gemini-embedding-001gemini-embedding-2-preview
模态仅文本仅文本文本/图片/视频/音频/PDF
最大输入2048 tokens2048 tokens8192 tokens
默认维度76830723072
维度范围有限MRL 支持128~3072(MRL)
任务指定task_type 枚举task_type 枚举Prompt 指令式
MTEB 英文较低中等68.32(榜首)
语言有限100+100+
Gemini Embedding 2 与之前版本的嵌入空间不兼容,不能混用不同版本生成的向量。迁移时需要重新生成全部嵌入。

多模态输入规格

输入类型限制支持格式
文本最大 8192 tokens纯文本
图片每请求最多 6 张PNG、JPEG
视频最长 120 秒MP4、MOV
音频原生音频嵌入(无需转文本)常见音频格式
PDF原生支持PDF 文档

支持的任务类型

Gemini Embedding 2 使用 prompt 指令式任务描述:
任务说明
语义相似度评估文本间的语义相似程度
分类按预设标签对文本分类
聚类按相似度对文本分组
检索(文档端)优化文档侧的搜索嵌入
检索(查询端)优化查询侧的搜索嵌入
代码检索用自然语言检索代码片段
问答为 QA 系统生成问题嵌入
事实验证为事实核查生成陈述嵌入

技术规格

参数Gemini Embedding 2 Preview
模型 IDgemini-embedding-2-preview
发布日期2026 年 3 月 10 日
开发商Google
输入类型文本、图片、视频、音频、PDF
输出浮点向量
默认维度3072
维度范围128~3072(MRL)
最大文本输入8192 tokens
语言100+

实际应用

推荐场景

  1. 跨模态语义搜索:用文本搜图片、用图片搜文档,统一向量空间实现混合检索
  2. 多语言 RAG:100+ 语言覆盖,适合构建全球化检索增强生成系统
  3. 文档智能分析:直接嵌入 PDF,无需预处理即可建立文档检索库
  4. 视频/音频内容检索:原生支持视频和音频嵌入,适合媒体内容管理
  5. 聚类与分类:分类 +9.6、聚类 +3.7 的优势,适合大规模内容组织
  6. 代码语义搜索:自然语言查询代码片段,提升开发效率

代码示例

文本嵌入

from openai import OpenAI

client = OpenAI(
    api_key="your-apiyi-key",
    base_url="https://api.apiyi.com/v1"
)

response = client.embeddings.create(
    model="gemini-embedding-2-preview",
    input="谷歌最新的多模态嵌入模型有哪些特点?",
    dimensions=768  # 可选:128~3072
)

embedding = response.data[0].embedding
print(f"维度: {len(embedding)}")

批量文本嵌入

texts = [
    "人工智能的最新发展趋势",
    "机器学习在医疗领域的应用",
    "大语言模型的工作原理"
]

response = client.embeddings.create(
    model="gemini-embedding-2-preview",
    input=texts,
    dimensions=1536
)

for i, data in enumerate(response.data):
    print(f"文本 {i}: 维度 {len(data.embedding)}")

语义搜索示例

import numpy as np

def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * np.linalg.norm(b))

# 构建文档库嵌入
docs = ["量子计算原理", "深度学习入门", "区块链技术概述"]
doc_resp = client.embeddings.create(
    model="gemini-embedding-2-preview",
    input=docs,
    dimensions=768
)
doc_embeddings = [d.embedding for d in doc_resp.data]

# 查询
query_resp = client.embeddings.create(
    model="gemini-embedding-2-preview",
    input="神经网络是怎么工作的?",
    dimensions=768
)
query_embedding = query_resp.data[0].embedding

# 计算相似度
for i, doc_emb in enumerate(doc_embeddings):
    sim = cosine_similarity(query_embedding, doc_emb)
    print(f"{docs[i]}: {sim:.4f}")

最佳实践

  1. 选择合适维度:768 维性价比最优(67.99 分,存储减半),3072 维追求极致精度
  2. 注意向量归一化:3072 维已预归一化,降维后需手动归一化
  3. 利用 prompt 指令:检索场景区分 query 和 document 端,可显著提升效果
  4. 不可混用版本:与 text-embedding-004 或 gemini-embedding-001 的向量空间不兼容,迁移需全量重建

价格与可用性

定价

输入类型价格(每百万 tokens)
文本$0.20
图片$0.45(约 $0.00012/张)
音频$6.50(约 $0.00016/秒)
视频$12.00(约 $0.00079/帧)

与竞品价格对比

模型文本价格/百万 tokens维度多模态
gemini-embedding-2-preview$0.203072✅ 五模态
text-embedding-3-large$0.133072❌ 仅文本
text-embedding-3-small$0.021536❌ 仅文本
文本价格略高于 OpenAI text-embedding-3 系列,但 Gemini Embedding 2 是唯一支持五模态统一嵌入的模型,跨模态检索场景无需额外模型。

叠加网站充值活动

查看最新充值优惠政策

API易 提供充值加赠优惠,充值越多加赠越多,叠加模型本身的价格优势,实际使用成本更低。

可用模型

模型名称说明
gemini-embedding-2-preview原生多模态嵌入模型,支持文本/图片/视频/音频/PDF

购买渠道

API易平台
  • 官网:apiyi.com
  • API 端点:https://api.apiyi.com/v1
  • 接口:/v1/embeddings(OpenAI 兼容格式)
  • 兼容所有 OpenAI SDK

总结与建议

Gemini Embedding 2 Preview 是当前最强大的嵌入模型,也是业界首个原生多模态嵌入模型。它在 MTEB 英文榜登顶,同时支持五种模态的统一向量表示,为跨模态检索开辟了全新可能。 核心优势
  • 多模态统一:文本/图片/视频/音频/PDF 共享向量空间,一个模型搞定所有检索
  • 性能榜首:MTEB 68.32 登顶,分类、检索、聚类三项大幅领先
  • 灵活降维:MRL 支持 128~3072 维,按需平衡精度与成本
  • 超长输入:8192 tokens,4 倍于前代
使用建议
  1. 跨模态检索:首选 Gemini Embedding 2,目前唯一选择
  2. 纯文本 + 极致低价:text-embedding-3-small 仍是最便宜的选项
  3. 纯文本 + 高精度:Gemini Embedding 2 的 768 维已超越 text-embedding-3-large
  4. RAG 场景:8192 tokens 长输入 + 灵活降维,非常适合大文档分块检索
谁应该使用 Gemini Embedding 2
  • 需要跨模态搜索的应用(图搜文、文搜图等)
  • 构建多语言 RAG 系统的开发者
  • 需要处理 PDF/视频/音频内容的企业场景
  • 追求最高嵌入质量的检索系统
信息来源:Google 官方博客(blog.google)、Google AI 开发者文档(ai.google.dev)、MTEB 排行榜。Gemini Embedding 2 Preview 于 2026 年 3 月 10 日发布。数据获取时间:2026 年 3 月 31 日。