结合4-bit量化和LoRA的超高效微调技术,可在单张消费级GPU上微调650亿参数模型
模型规模 | 全精度微调 | LoRA微调 | QLoRA微调 |
---|---|---|---|
7B | 112GB | 28GB | 7GB |
13B | 208GB | 52GB | 13GB |
33B | 528GB | 132GB | 33GB |
65B | 780GB+ | 195GB | 48GB |
模型 | GPU需求 | 训练时间 | 性能(vs ChatGPT) |
---|---|---|---|
Guanaco-7B | 1×RTX 3090 (24GB) | 5小时 | 85% |
Guanaco-13B | 1×RTX 4090 (24GB) | 8小时 | 91% |
Guanaco-33B | 1×A100 (40GB) | 12小时 | 96% |
Guanaco-65B | 1×A6000 (48GB) | 24小时 | 99.3% |