通过选择性存储激活值并在反向传播时重新计算,用计算时间换取内存空间的优化技术
网络深度 | 标准内存 | 检查点内存 | 节省比例 |
---|---|---|---|
12层 | O(12) | O(√12) ≈ O(4) | 67% |
48层 | O(48) | O(√48) ≈ O(7) | 85% |
144层 | O(144) | O(√144) = O(12) | 92% |
模型 | 激活内存 | 计算开销 | 实际加速 |
---|---|---|---|
GPT-3 175B | -70% | +2.7% | 整体快29% |
Llama-3.2 1B | -60% | +5% | 可在消费级GPU训练 |
T5-11B | -80% | +20% | 4倍更大批次 |