量化（Quantization）

概念定义
详细解释
工作原理
1. 量化数学原理
2. 主流量化格式（2025）
3. 量化算法对比
4. 量化感知训练（QAT）
实际应用
量化效果实测
部署方案选择
实际案例
最佳实践
相关概念
延伸阅读

概念定义

量化是将神经网络的权重和激活值从高精度（如FP32/FP16）转换为低精度（如INT8/INT4）表示的技术，可大幅减少内存占用和计算量，同时保持模型性能。

详细解释

量化技术的核心思想是用更少的比特位来表示数值，就像将高清照片压缩成JPEG一样。在深度学习中，模型参数通常使用32位浮点数（FP32）存储，但研究发现，大多数场景下8位甚至4位整数就足够了。这种”精度冗余”为模型压缩提供了巨大空间。 2025年，量化技术已经成为部署大语言模型的标准做法。从服务器到手机，从云端到边缘设备，量化让原本需要数百GB内存的模型可以在消费级硬件上流畅运行。特别是4位量化的突破——如QLoRA中的NF4（Normal Float 4）——让65B参数的模型可以在单张消费级GPU上运行，内存需求降低到原来的1/8。量化不仅关乎效率，更关乎可及性。它让先进的AI能力走出数据中心，进入每个人的设备，真正实现AI的民主化。

工作原理

1. 量化数学原理

基本量化公式：

量化值 = round(原始值 / 缩放因子) + 零点
反量化值 = (量化值 - 零点) × 缩放因子

量化方案分类：

对称量化：零点为0，正负范围对称
非对称量化：有偏移，更好利用数值范围
按通道量化：每个通道独立量化参数
按张量量化：整个张量共享量化参数

2. 主流量化格式（2025）

FP8（8位浮点）

NVIDIA Hopper GPU原生支持
几乎无损，精度损失小于1%
适合高端GPU部署
E4M3和E5M2两种格式

INT8（8位整数）

最成熟的量化方案
精度损失1-3%
广泛硬件支持
SmoothQuant优化激活量化

INT4（4位整数）

内存压缩4倍
GPTQ、AWQ主流算法
适合内存受限场景
精度损失3-5%

NF4（4位归一化浮点）

bitsandbytes专门设计
针对正态分布权重优化
QLoRA核心技术
比普通INT4更准确

3. 量化算法对比

算法	特点	适用场景	精度保持
GPTQ	层级Hessian优化	GPU部署	优秀
AWQ	激活感知量化	保护关键权重	很好
bitsandbytes	运行时量化	训练/微调	良好
GGUF/GGML	CPU优化	边缘设备	中等
SmoothQuant	平滑激活分布	W8A8量化	优秀

4. 量化感知训练（QAT）

与训练后量化（PTQ）对比：

PTQ：模型训练完成后量化，简单快速
QAT：训练时模拟量化，精度更高但耗时

EfficientQAT（2025）：

2位Llama-2-70B，单A100训练41小时
精度损失仅3点（69.48 vs 72.41）
比PTQ恢复96%的精度损失

实际应用

量化效果实测

模型	原始大小	INT8	INT4	NF4	速度提升
Llama-2-7B	13GB	7GB	3.5GB	3.3GB	2-4x
Llama-2-70B	140GB	70GB	35GB	33GB	3-5x
Mistral-7B	14GB	7GB	3.8GB	3.5GB	2-3x

部署方案选择

云端部署

FP8/INT8：精度优先
使用vLLM、TensorRT-LLM
批处理优化
连续批处理最佳

边缘部署

INT4/NF4：内存优先
llama.cpp + GGUF格式
CPU推理优化
支持部分层GPU加速

移动端部署

2-3位极限量化
专用推理框架
硬件加速器支持
功耗优化

实际案例

ChatGPT移动版
- INT8量化部署
- 响应时间小于100ms
- 内存占用降低75%
Llama.cpp生态
- 支持1.5-8位量化
- CPU推理优化
- 跨平台兼容
- 社区活跃
企业级部署
- AWQ量化保持99%精度
- 吞吐量提升4倍
- TCO降低80%

最佳实践

选择量化方法

精度要求高：选择FP8或INT8
内存受限：选择INT4或NF4
CPU推理：使用GGUF格式
GPU推理：使用GPTQ或AWQ

量化流程

评估原始模型性能基准
使用校准数据集（~1000样本）
尝试不同量化配置
验证关键任务精度
测试推理速度提升

基础概念

学习范式

推理与能力

基础架构

主流模型

特殊架构

训练技术

应用实践

最佳实践

开发框架

评估工具

基础设施

百科专题

概念定义

详细解释

工作原理

1. 量化数学原理

2. 主流量化格式（2025）

3. 量化算法对比

4. 量化感知训练（QAT）

实际应用

量化效果实测

部署方案选择

实际案例

最佳实践

相关概念

延伸阅读

基础概念

学习范式

推理与能力

基础架构

主流模型

特殊架构

训练技术

应用实践

最佳实践

开发框架

评估工具

基础设施

百科专题

​概念定义

​详细解释

​工作原理

​1. 量化数学原理

​2. 主流量化格式（2025）

​3. 量化算法对比

​4. 量化感知训练（QAT）

​实际应用

​量化效果实测

​部署方案选择

​实际案例

​最佳实践

​相关概念

​延伸阅读

概念定义

详细解释

工作原理

1. 量化数学原理

2. 主流量化格式（2025）

3. 量化算法对比

4. 量化感知训练（QAT）

实际应用

量化效果实测

部署方案选择

实际案例

最佳实践

相关概念

延伸阅读