实时生成和传输大模型响应的技术,通过逐步输出内容提升用户体验
用户请求 → LLM模型 → 令牌生成 → 数据分块 → 实时传输 → 客户端渲染 ↓ ↓ ↓ ↓ ↓ ↓ [问题输入] [推理计算] [逐个生成] [批量打包] [SSE/WS] [增量显示]
# 使用SSE流式输出 with client.messages.stream( model="claude-opus-4-20250514", messages=[{"role": "user", "content": "解释量子计算"}], stream=True ) as stream: for text in stream.text_stream: print(text, end="", flush=True)