无需奖励模型的大语言模型对齐技术,直接从人类偏好数据优化模型输出
π
:待优化的策略模型π_ref
:参考模型(通常是SFT模型)y_w
:偏好的回答y_l
:不偏好的回答β
:温度参数(通常0.1-0.5)σ
:sigmoid函数工具/平台 | 特点 | 支持的变体 |
---|---|---|
HuggingFace TRL | 最完整的实现 | DPO、cDPO、IPO、ORPO |
Azure OpenAI | 企业级支持 | DPO(GPT-4.1系列) |
Axolotl | 高性能训练 | DPO、ORPO |
LLaMA-Factory | 中文优化 | DPO、ORPO |