API调用基础

概念定义
详细解释
工作原理
认证机制
请求格式
响应处理
速率限制与配额
限制类型
处理策略
主要提供商对比
实际应用
开发建议
相关概念
延伸阅读

概念定义

LLM API是应用程序与大语言模型进行交互的编程接口，通过标准化的请求响应机制实现模型能力的调用。

详细解释

API（Application Programming Interface）是现代AI应用的核心基础设施。2025年，LLM API已经从简单的文本生成接口演进为支持多模态、函数调用、结构化输出的综合平台。主要的API架构模式包括：

REST API：最广泛采用，简单易用，适合大多数场景
GraphQL API：灵活查询，减少往返，适合复杂数据需求
WebSocket API：实时双向通信，适合流式对话和推送场景
MCP（Model Context Protocol）：2025新标准，原生支持上下文管理

工作原理

认证机制

{
  "headers": {
    "Authorization": "Bearer sk-...",  // API密钥
    "X-API-Version": "2025-01",        // 版本控制
    "X-Request-ID": "uuid-v4"          // 请求追踪
  }
}

主流认证方式：

API密钥：简单直接，适合服务端调用
OAuth 2.1：安全性高，支持细粒度权限
JWT令牌：无状态认证，便于分布式部署
Token Handler Pattern：2025新模式，动态密钥轮换

请求格式

{
  "model": "gpt-4-turbo-2025",
  "messages": [
    {"role": "system", "content": "You are a helpful assistant"},
    {"role": "user", "content": "Hello, how are you?"}
  ],
  "temperature": 0.7,
  "max_tokens": 1000,
  "response_format": {
    "type": "json_schema",
    "json_schema": {...}  // 2025新增：结构化输出
  }
}

响应处理

同步响应：

{
  "id": "chatcmpl-xxx",
  "object": "chat.completion",
  "created": 1709000000,
  "choices": [{
    "message": {"role": "assistant", "content": "..."},
    "finish_reason": "stop"
  }],
  "usage": {"prompt_tokens": 10, "completion_tokens": 20}
}

流式响应（SSE）：

data: {"choices":[{"delta":{"content":"Hello"}}]}
data: {"choices":[{"delta":{"content":" there"}}]}
data: [DONE]

速率限制与配额

限制类型

RPS限制：每秒请求数（如100 req/s）
Token限制：每分钟token数（如100k tokens/min）
并发限制：同时处理请求数（如50并发）
每日配额：24小时总量限制

处理策略

# 指数退避重试
def retry_with_backoff(func, max_retries=3):
    for i in range(max_retries):
        try:
            return func()
        except RateLimitError as e:
            if i == max_retries - 1:
                raise
            wait_time = (2 ** i) + random.uniform(0, 1)
            time.sleep(wait_time)

主要提供商对比

提供商	特点	上下文窗口	定价模式
OpenAI	功能最全，生态完善	128K-1M	按Token计费
Anthropic	安全性高，长文本强	200K-1M	按字符计费
Google	多模态领先，免费额度	1M-2M	混合计费
Mistral	开源友好，欧洲合规	32K-256K	按请求计费

实际应用

聊天机器人：客服系统、虚拟助手
内容生成：文章创作、营销文案
代码辅助：代码补全、错误修复
数据分析：报告生成、洞察提取
工作流自动化：任务编排、智能决策

开发建议

使用SDK而非直接HTTP调用，提高开发效率
实现请求重试和错误处理机制
监控API使用量，设置告警阈值
缓存常见请求结果，减少API调用
使用环境变量管理API密钥，避免硬编码

延伸阅读

知识问答流式输出

⌘I

基础概念

学习范式

推理与能力

基础架构

主流模型

特殊架构

训练技术

应用实践

最佳实践

开发框架

评估工具

基础设施

百科专题

概念定义

详细解释

工作原理

认证机制

请求格式

响应处理

速率限制与配额

限制类型

处理策略

主要提供商对比

实际应用

开发建议

相关概念

延伸阅读

基础概念

学习范式

推理与能力

基础架构

主流模型

特殊架构

训练技术

应用实践

最佳实践

开发框架

评估工具

基础设施

百科专题

​概念定义

​详细解释

​工作原理

​认证机制

​请求格式

​响应处理

​速率限制与配额

​限制类型

​处理策略

​主要提供商对比

​实际应用

​开发建议

​相关概念

​延伸阅读

概念定义

详细解释

工作原理

认证机制

请求格式

响应处理

速率限制与配额

限制类型

处理策略

主要提供商对比

实际应用

开发建议

相关概念

延伸阅读