API易文档中心 home page
Search...
⌘K
首页
AI出图
控制台
控制台
Search...
Navigation
训练技术
剪枝(Pruning)
首页
使用场景
资源导航
常见问题
大模型百科
基础概念
大语言模型(LLM)
Token与分词
提示词(Prompt)
上下文窗口(Context Window)
温度参数(Temperature)
Top-p(核采样)
嵌入(Embedding)
向量数据库
注意力机制
困惑度(Perplexity)
学习范式
零样本学习(Zero-shot)
单样本学习(One-shot)
少样本学习(Few-shot)
监督学习(Supervised Learning)
无监督学习(Unsupervised Learning)
自监督学习(Self-supervised Learning)
强化学习
迁移学习
推理与能力
思维链
自我一致性
思维树
React
涌现能力
上下文学习
推理时间计算
基础架构
Transformer架构
编码器
解码器
自注意力机制
多头注意力
位置编码
主流模型
GPT系列
Claude系列
Gemini系列
LLaMA系列
Mistral/Mixtral系列
DeepSeek模型
GLM智谱系列
文心一言
通义千问
BERT模型
Grok模型
特殊架构
混合专家模型(MoE)
视觉Transformer(ViT)
多模态模型
扩散模型(Diffusion Model)
训练技术
预训练(Pre-training)
Fine tuning
指令微调(Instruction Tuning)
RLHF(基于人类反馈的强化学习)
DPO(直接偏好优化)
Lora
QLoRA(量化LoRA)
Peft
知识蒸馏(Knowledge Distillation)
Quantization
剪枝(Pruning)
梯度累积(Gradient Accumulation)
混合精度训练(Mixed Precision Training)
Flash Attention
梯度检查点(Gradient Checkpointing)
数据并行
模型并行
流水线并行
ZeRO优化
DeepSpeed
应用实践
Rag
Agent
Function calling
Embedding
工具生态
Langchain
Huggingface
Api frameworks
Evaluation
On this page
概念定义
详细解释
工作原理
1. 剪枝方法分类
2. 剪枝标准
3. 现代LLM剪枝技术
4. 彩票假设(Lottery Ticket Hypothesis)
实际应用
剪枝效果对比
硬件支持现状
实际部署案例
最佳实践
相关概念
延伸阅读
训练技术
剪枝(Pruning)
通过移除神经网络中冗余或不重要的参数来压缩模型的技术
概念定义
剪枝是一种通过识别并移除神经网络中不重要的权重或结构来减小模型大小的技术,可在保持性能的同时实现高达90%以上的参数削减。
详细解释
剪枝技术源于一个简单的观察:神经网络中存在大量冗余参数,许多权重接近于零或对最终输出贡献极小。通过系统地移除这些参数,我们可以得到一个更小、更快的模型,而性能损失却很小。这就像修剪盆栽——去除多余的枝叶反而能让植物生长得更好。
2025年,剪枝技术在大语言模型时代迎来新的突破。SparseGPT等方法能够对千亿参数模型实现60%的稀疏度而几乎不损失性能。更重要的是,“彩票假设”——认为随机初始化的密集网络中存在能独立训练达到原始精度的稀疏子网络——正在被验证和应用于越来越大的模型。
剪枝不仅是压缩技术,更是理解神经网络本质的窗口。它揭示了模型的真实容量,帮助我们设计更高效的架构,最终让AI计算更加可持续。
工作原理
1. 剪枝方法分类
非结构化剪枝(Unstructured Pruning)
移除单个权重参数
可达到极高稀疏度(80-95%)
产生不规则稀疏模式
需要专门硬件加速
适合研究和特定硬件
结构化剪枝(Structured Pruning)
移除整个神经元、通道、层
保持规则的张量形状
直接加速推理
稀疏度通常较低(30-60%)
适合通用硬件部署
半结构化剪枝(N:M Sparsity)
NVIDIA GPU支持的2:4模式
每4个权重保留2个
自动硬件加速
平衡精度与效率
2. 剪枝标准
幅度剪枝(Magnitude Pruning)
Copy
重要性分数
=
|
权重值
|
最简单直观的方法
假设小权重不重要
计算效率高
梯度剪枝(Gradient-based)
Copy
重要性分数
=
|
权重
|
×
|
梯度
|
考虑权重对损失的影响
更准确但计算量大
二阶方法(Hessian-based)
SparseGPT:使用Hessian逆矩阵
最优但计算密集
适合一次性剪枝
3. 现代LLM剪枝技术
SparseGPT(2023)
使用Hessian逆序列优化
60%稀疏度几乎无损
支持千亿参数模型
单次剪枝,无需重训练
Wanda(2024)
权重幅度×激活范数
计算效率比SparseGPT高100倍
英文效果好,多语言需优化
M-Wanda(2025)
解决多语言性能下降
层级自适应稀疏分配
跨语言神经元重要性分析
Mosaic(2025)
复合投影剪枝
结合结构化与非结构化优势
内存效率与精度平衡
4. 彩票假设(Lottery Ticket Hypothesis)
核心理论
: 密集网络中存在稀疏子网络(“中奖彩票”),从原始初始化训练可达到相同精度。
迭代剪枝流程
:
训练完整网络
剪枝最小幅度权重
重置剩余权重到初始值
重新训练
重复直到目标稀疏度
LLM应用挑战
:
大模型验证计算成本高
初始化敏感性增加
需要新的剪枝策略
实际应用
剪枝效果对比
模型
方法
稀疏度
性能保持
实际加速
BERT-base
幅度剪枝
90%
97%
3x
GPT-2
SparseGPT
60%
99%
2.5x
Llama-7B
Wanda
50%
98%
2x
OPT-175B
SparseGPT
60%
96%
未测
硬件支持现状
NVIDIA GPU
Ampere/Hopper:2:4稀疏自动加速
CUTLASS库:非结构化稀疏支持
TensorRT:结构化剪枝优化
其他硬件
Intel:Neural Compressor工具链
Apple:CoreML稀疏支持
移动端:结构化剪枝为主
实际部署案例
BERT模型压缩
90%稀疏度,3倍加速
移动端实时推理
保持97%原始精度
视觉模型优化
ResNet-50:70%剪枝
边缘设备部署
功耗降低60%
LLM稀疏化
Llama模型50%稀疏
内存占用减半
批处理吞吐量翻倍
最佳实践
选择剪枝策略
硬件支持稀疏:非结构化剪枝
通用加速需求:结构化剪枝
NVIDIA GPU:优先2:4模式
极限压缩:组合多种方法
剪枝流程
基准测试原始模型
敏感性分析各层
渐进式剪枝(避免突变)
微调恢复精度
验证实际加速效果
相关概念
量化(Quantization)
- 降低数值精度的压缩方法
知识蒸馏
- 模型知识迁移技术
模型压缩
- 各种压缩技术总览
稀疏计算
- 硬件加速支持
神经架构搜索
- 自动化模型设计
延伸阅读
彩票假设原论文
- 开创性理论工作
SparseGPT论文
- 大模型剪枝突破
剪枝方法综述
- 最新技术汇总
稀疏模型基准
- 实用工具库
Quantization
梯度累积(Gradient Accumulation)
Assistant
Responses are generated using AI and may contain mistakes.