API易文档中心 home page
Search...
⌘K
首页
AI出图
控制台
控制台
Search...
Navigation
训练技术
预训练(Pre-training)
首页
使用场景
资源导航
常见问题
大模型百科
基础概念
大语言模型(LLM)
Token与分词
提示词(Prompt)
上下文窗口(Context Window)
温度参数(Temperature)
Top-p(核采样)
嵌入(Embedding)
向量数据库
注意力机制
困惑度(Perplexity)
学习范式
零样本学习(Zero-shot)
单样本学习(One-shot)
少样本学习(Few-shot)
监督学习(Supervised Learning)
无监督学习(Unsupervised Learning)
自监督学习(Self-supervised Learning)
强化学习
迁移学习
推理与能力
思维链
自我一致性
思维树
React
涌现能力
上下文学习
推理时间计算
基础架构
Transformer架构
编码器
解码器
自注意力机制
多头注意力
位置编码
主流模型
GPT系列
Claude系列
Gemini系列
LLaMA系列
Mistral/Mixtral系列
DeepSeek模型
GLM智谱系列
文心一言
通义千问
BERT模型
Grok模型
特殊架构
混合专家模型(MoE)
视觉Transformer(ViT)
多模态模型
扩散模型(Diffusion Model)
训练技术
预训练(Pre-training)
Fine tuning
指令微调(Instruction Tuning)
RLHF(基于人类反馈的强化学习)
DPO(直接偏好优化)
Lora
QLoRA(量化LoRA)
Peft
知识蒸馏(Knowledge Distillation)
Quantization
剪枝(Pruning)
梯度累积(Gradient Accumulation)
混合精度训练(Mixed Precision Training)
Flash Attention
梯度检查点(Gradient Checkpointing)
数据并行
模型并行
流水线并行
ZeRO优化
DeepSpeed
应用实践
Rag
Agent
Function calling
Embedding
工具生态
Langchain
Huggingface
Api frameworks
Evaluation
On this page
概念定义
详细解释
工作原理
1. 数据准备阶段
2. 训练目标设计
3. 优化技术栈
4. 数据集演进
实际应用
主流预训练数据集对比
预训练规模趋势
效率优化成果
相关概念
延伸阅读
训练技术
预训练(Pre-training)
大语言模型在海量无标注数据上进行自监督学习的基础训练过程
概念定义
预训练是大语言模型在海量无标注文本数据上通过自监督学习任务获得语言理解和生成能力的基础训练过程,为模型奠定通用语言知识基础。
详细解释
预训练是现代大语言模型开发的第一阶段,通过在数万亿token的文本数据上进行无监督学习,让模型掌握语言的统计规律、语法结构和世界知识。这个过程通常采用下一个token预测(Next Token Prediction)或掩码语言建模(Masked Language Modeling)等自监督任务,不需要人工标注数据。
2025年,预训练技术已进入”LLM 2.0时代”,从单纯追求模型规模转向”效率突破”和”应用场景重构”。现代预训练不仅处理文本,还包括图像、音频等多模态数据的统一训练。GPT-4.5支持200K token上下文窗口,Gemini 2.5更是达到100万token,大幅提升了模型的长文本处理能力。
预训练的计算成本极高,训练一个千亿参数模型需要数千张GPU运行数月,消耗数百万美元。因此,优化训练效率成为关键技术突破点。
工作原理
1. 数据准备阶段
数据源收集
:Common Crawl网页数据、维基百科、书籍、代码仓库等
数据清洗
:去重、语言识别、质量过滤、敏感内容移除
分词处理
:将文本转换为token序列,现代模型词表达15万+(Qwen 2: 151,642)
2. 训练目标设计
自回归预测
(GPT系列):根据前文预测下一个token
掩码语言建模
(BERT系列):预测被遮盖的token
去噪自编码
(T5系列):从损坏文本恢复原文
3. 优化技术栈
Flash Attention 3
:通过分块计算减少内存访问,提升2-4倍训练速度
SeerAttention
(2025):学习块级稀疏注意力,自适应激活重要区域
3D并行
:数据并行 + 模型并行 + 流水线并行
混合精度训练
:FP16/BF16计算,FP32主权重更新
4. 数据集演进
RedPajama-V2
:30万亿token,包含40+质量标注
FineWeb
(2024):15万亿token,使用教育内容分类器筛选
QuaDMix
(字节跳动2025):统一质量与多样性的数据选择框架
实际应用
主流预训练数据集对比
数据集
规模
特点
发布时间
RedPajama-V2
30万亿token
40+质量标注,5种语言
2024
FineWeb
15万亿token
教育内容优化
2024
FineWeb-Edu
1.3-5.4万亿
高质量教育内容
2024
The Pile
825GB
学术论文丰富
2020
预训练规模趋势
2023年
:GPT-4预估使用13万亿token
2024年
:Llama 3 70B训练15万亿token(远超Chinchilla定律建议的1.5万亿)
2025年
:中国开源模型Kimi K2达到1T总参数,使用Muon优化器训练
效率优化成果
上海AI实验室8位量化技术:推理速度提升2.7倍,精度保持96%
智谱AI的MoE架构优化:参数利用率提升15%
ByteDance QuaDMix:系统平衡质量与多样性,提升下游任务表现
相关概念
自监督学习
- 预训练采用的核心学习范式
微调(Fine-tuning)
- 预训练后的任务适配阶段
Token与分词
- 预训练数据的基本处理单元
注意力机制
- 预训练模型的核心计算组件
混合专家模型(MoE)
- 提升预训练效率的架构创新
延伸阅读
The FineWeb Datasets论文
- 高质量预训练数据集构建
FlashAttention原理解析
- IO感知的高效注意力计算
Scaling Laws for LLMs
- 模型规模与性能关系
RedPajama-V2技术博客
- 开源数据集详解
扩散模型(Diffusion Model)
Fine tuning
Assistant
Responses are generated using AI and may contain mistakes.