从头训练小模型: 3 传统RLHF与DPO的区别

这个步骤我其实是忽略了。如果我的目标是建立一个安全领域的模型，我个人理解这步骤并不太必要。关于人类偏好对齐：在前面的训练步骤中，模型已经具备了基本的对话能力。

此时模型还不知道什么是好的回答，什么是不好的回答。我们希望它能更符合人类偏好，降低产生让人不满意答案的可能性。

简单来说，就是教会模型使用你们公司的安全符合你们自己的表达方式,只知道这么说话更好

使AI行为符合人类期望：
- 产生更有帮助的回答
- 减少有害、错误或误导性内容 (就比如我们问的是安全相关的问题, 他们要选择不回答)
- 遵循指令并理解微妙的人类意图
- 体现人类价值观和道德准则

所以我的训练步骤中, 暂时省略这个流程

传统RLHF与DPO的区别

传统的RLHF (Reinforcement Learning from Human Feedback) 和DPO (Direct Preference Optimization) 都是用于优化语言模型以对齐人类偏好的方法，但它们在实现方式上有显著差异：

三阶段流程：
- 第一阶段：监督微调 (SFT) - 在高质量数据上微调基础模型
- 第二阶段：训练奖励模型 (RM) - 基于人类偏好反馈训练
- 第三阶段：强化学习 - 使用PPO (Proximal Policy Optimization) 算法基于奖励模型优化策略
复杂性高：
- 需要训练单独的奖励模型
- 强化学习阶段计算复杂且不稳定
- 需要精心调整KL散度惩罚项以防止模型偏离初始分布
计算资源：需要大量计算资源，特别是在PPO阶段