核心概念解释(带引用)
- 大语言模型(LLM)与基础模型:LLM 是使用海量文本训练的模型,能够理解和生成自然语言,例如 GPT‑4、Claude、Llama 等。基础模型是指在不同任务之间迁移学习的通用模型,是生成 AI 的核心。
- 应用程序接口(API):API 是一种标准化接口,用于让使用者调用模型的能力,允许将智能模型集成到各种应用中。API 密钥用于身份验证和计费。
- Token 与分词:一种使得模型可以处理文本的“最小单元”,通常长度为 3~4 个字符;在中文中,一个汉字通常就是一个 Token。
- 提示词(Prompt):将想要模型输出的文本描述写入提示中,用于引导模型产生符合需求的答案。
- 上下文窗口(Context Window):模型在一次对话或推理中可读取的最大 Token 数,超出后会截断。
- 温度(Temperature)与 Top‑p(核采样):温度控制生成的随机性,值越高输出越随机;Top‑p 限制模型生成时考虑的词汇范围,用于调节创造性。
- 嵌入(Embedding):将文本或其他信号映射为向量,用于语义检索、推荐等。
- 微调(Fine‑tuning):在大量预训练模型的基础上,再用小规模任务数据对模型进行二次训练,提高在特定任务上的表现。
- 检索增强生成(RAG):通过查询外部数据源(如知识库)为模型补充上下文,减少幻觉并提升回答准确性。
- AI Agent:在大模型基础上构建的智能体框架,具备任务规划(Planning)、记忆(Memory)、工具调用(Tools)等组件,可自动拆解任务并执行。
- 知识蒸馏(Knowledge Distillation):利用大型模型输出作为“教师”,训练较小的模型(学生)学习其知识,从而在不损失太多性能的情况下大幅压缩模型。训练过程中利用软标签和温度缩放等技巧。
- 蒸馏(Distillation):Google ML 指出蒸馏产生的小模型运行更快、对算力需求更低,但通常精度稍有下降。
- 量化(Quantization):将模型权重从高精度(FP32)映射到低精度格式(如 INT8 或 INT4),可节约内存并加速推理,需谨慎处理以避免质量下降。
- LoRA (低秩适配):通过在预训练模型中注入低秩矩阵,仅调整少量权重实现高效微调,减少存储和计算开销。
- RLHF(Reinforcement Learning from Human Feedback):通过人类反馈训练奖励模型,再用强化学习优化策略,使模型输出更符合人类偏好。
术语关键词分类
为了便于检索不同知识点,下面将相关关键词按类别划分(共 10 大类)。1 模型与架构
| 类别 | 术语/关键词 |
|---|---|
| 通用模型 | LLM、X 基础模型、基模型架构、Transformer、BERT、T5、GPT、GPT‑4、GPT‑2、GPT‑3、ChatGPT、Claude、Gemini、DeepSeek、Llama、Qwen、Mixtral、Mistral |
| 视觉模型 | CLIP、Lava、Segment Anything (SAM)、Vision Transformers、Detr、ResNet |
| 生成式模型 | 扩散模型 (Diffusion Model)、Stable Diffusion、DALL‑E、Midjourney、Stable Video Diffusion |
| 混合专家模型 | Mixture of Experts (MoE)、自适应路由、前馈层、层归纳器、残差连接、骨干网络 |
2 核心概念 & 数据处理
| 类别 | 术语/关键词 |
|---|---|
| 文本处理 | Token、分词、上下文窗口、提示词 Prompt(系统提示、用户提示)、温度、Top‑p、最大 Token 数、采样策略(随机采样、贪婪解码、束搜索)、Beam Search |
| 学习范式 | 自监督学习、无监督学习、主动学习、零样本学习(Zero‑shot)、单样本学习 (One‑shot) |
| 向量化与嵌入 | Embedding、词向量、句向量、语义向量、编码器 (Encoder)、解码器 (Decoder)、掩码 Token |
| 能力与推理 | 推理能力/推断能力、泛化能力、Chain‑of‑Thought(思维链)、Self‑Consistency、自我一致性、Perplexity (困惑度)、Attention Mask |
3 训练与优化方法
| 类别 | 术语/关键词 |
|---|---|
| 优化算法 | 梯度下降、随机梯度下降 (SGD)、动量、Adam、AdaBelief、学习率、反向传播、损失函数、正则化、Dropout、残差连接 |
| 知识蒸馏/蒸馏 | 模型压缩、知识蒸馏、温度缩放、软标签、Curriculum Learning、微调策略、量化误差、梯度检查点 (Gradient Checkpointing)、Flash Attention |
| 微调技术 | 指令微调 (Instruction Tuning)、SFT、偏好优化 (RLHF、DPO、DPO (Direct Preference Optimization))、PEFT (参数高效微调)、LoRA、Q‑LoRA、Prefix Tuning、Adapter、Prompt Tuning、P‑Tuning |
| 并行与分布式 | 数据并行、模型并行、流水线并行 (Pipeline)、ZeRO、Megatron‑LM、Deepspeed、梯度累积、混合并行、重新计算 (Recompute)、梯度同步 |
4 API 与推理部署
| 类别 | 术语/关键词 |
|---|---|
| 接口与调用 | API、API Key、Endpoint、Chat Completion API、Embedding API、Rate Limit、批量 Request、响应 Response、Streaming(流式传输)、延迟 (Latency)、吞吐量 (Throughput) |
| 功能与模式 | 函数调用 (Function Call)、JSON 模式、工具调用 (Tools)、消息角色 (system/assistant)、会话管理、Webhook、批处理调用、实时策略、并发控制 |
| 出错与安全 | 请求配额、Token 计费、认证、限流、身份验证、访问控制、内容审核、敏感词过滤、日志审计 |
5 硬件与效率
| 类别 | 术语/关键词 |
|---|---|
| 算力与内存 | 算力 (Compute Power)、FLOPS、GPU、CPU、TPU、NPU、AI 加速卡、显存 (VRAM)、缓存 (Cache) |
| 硬件型号 | NVIDIA A100、H100、L40s、Apple M 系列、Intel Gaudi、AMD GPU、V5e、Gaudi2、TPU v5e、芯片拓扑 |
| 效率策略 | 显存借调、重量裁剪、堆叠缓存、模型拆分、Lazy Loading、混合精度训练、序列并行、动态量化、结构化稀疏 |
| 部署环境 | 云平台、容器服务 (SaaS)、大模型部署、边缘部署、分布式调度、容器 (Docker、Kubernetes) |
6 多模态、视觉与音频
| 类别 | 术语/关键词 |
|---|---|
| 多模态 | 多模态大模型、视觉语言模型 (VLM)、图像生成、图像生成模型、图像分类、图像分割、文本图像对齐、视觉问答、音频生成、跨模态检索、编码器‑解码器 |
| 图像任务 | CLIP、SAM、ViT、UNet、扩散模型、GAN、Stable Diffusion、DALL‑E、Midjourney |
| 音频任务 | ASR (自动语音识别)、TTS (Text‑to‑Speech)、STT (Speech‑to‑Text)、音乐生成 (MusicGen)、Whisper、语音情感识别 |
| 跨模态任务 | 图文检索、语音合成、语音助手、视频字幕生成、图文生成、实时翻译、跨模态对话、图像理解、多模态检索 |
7 应用场景与任务
| 类别 | 术语/关键词 |
|---|---|
| 语言与创意应用 | 语言翻译、问答系统、压缩分析、内容摘要、文本分类、安全或敏感识别、对话生成、智能搜索、关键词抽取、朗读 (TTS)、语音识别 |
| 代码与数据 | 代码生成/代码补全、自文档生成、自动调试、SQL 生成、数据库对话、自动数据标注、数据摘要 |
| 智能助手 | 虚拟助手、智能客服、个人助理、自动写作、知识问答、知识管理系统、AI知识问答系统 |
| 内容创作与媒体 | 文本生成/对话生成、图片生成、音乐生成、视频生成、播客生成、创意写作、视频制作 |
| 行业应用 | 企业运营自动化、智能营销、金融风控、医疗健康分析、教育辅导、推荐系统、科学研究、元宇宙/虚拟现实 (AR/VR) 应用 |
8 评估指标与基准
| 类别 | 术语/关键词 |
|---|---|
| 分类与生成指标 | 准确率 (Accuracy)、精确率 (Precision)、召回率 (Recall)、F1 分数、AUC、mAP、BLEU、ROUGE、METEOR、BERTScore、COMET、Perplexity、MMLU、ELO 评分 |
| 安全与公平评测 | Safety Bench、Bias Bench、Toxicity 测试、Hallucination 测试、SQuAD、TruthfulQA、Cross‑Eval、Human Eval、标准一致性、响应时间 |
| 视觉音频指标 | FID (生成图像质量)、CLIPScore、Frechét Audio Distance、WER(识别错误率)、MOS(主观音频质量)、BLEU Score (翻译) |
9 库与工具
| 类别 | 术语/关键词 |
|---|---|
| 深度学习框架 | PyTorch、TensorFlow、JAX、MindSpore、Keras、FastAI |
| 预训练库 | Hugging Face Transformers、SentenceTransformers、Diffusers、NLPIR、OpenAI SDK、Anthropic SDK |
| 推理与并行 | Deepspeed、Megatron‑LM、FasterTransformer、TensorRT LLM、Flash‑Attention、GQMML |
| 检索与向量库 | Faiss、Chroma、Milvus、Pinecone、Qdrant、Weaviate、PGVector、QDrive、Annoy、ElasticSearch、向量检索 |
| 应用框架 | LangChain、LlamaIndex、Haystack、Rasa、BotPress、FastAPI、Gradio、Streamlit、ChatGLM API、KoboldAI、OpenAI Function Calling |
| 评测与调试 | OpenAI Evals、HELM Benchmark、LiveBench、LM‑Arena、PromptBench、Prometheus、LLM‑Debugger、TensorBoard |
10 Agent 与相关框架
| 类别 | 术语/关键词 |
|---|---|
| 智能体 | 智能体 (Agent)、规划 (Planning)、记忆 (Memory)、工具调用 (Tools)、行动 (Action)、大脑 (LLM)、参数共享、内存管理 |
| Agent 框架 | LangChain Agents、LangGraph、CrewAI、BabyAGI、AutoGPT、GPT Agent、ToolLLM、LLM Agent、LAM (Large Action Model) |
| 任务与执行 | ReAct (推理和行动)、多代理协作、任务规划、任务分解、价值学习、对话代理、风险偏好、反思循环 |
| 组件与规范 | 向量检索引擎、计算策略、策略语言 (RSL)、代码执行、执行监督、任务计划工具、函数绑定 |
这些术语大多来源于实际文献、教程或博客。它们涵盖从模型架构、核心概念、训练优化、API 调用、硬件部署、视觉/音频、多模态任务到评估基准、工具库和智能体框架等多个方面,可作为构建“大模型知识百科”时的参考。