9 如果评估微调过程
9 如果评估微调过程
LOSS 是什么?
LOSS 是一个可微的数学函数量化模型预测与真实值的误差输出,
数值值越大表示错误越大
注意: loss 和模型微调实际效果是没必然联系的, 只是观察微调过程是否正常
微调时用它干什么?
微调的核心目标就是 LOSS 变得越来越小。
作为优化目标指导参数更新方向评估训练效果决定何时停止训练
怎么变小?
通过梯度下降算法调整模型参数, 基本上就是上一个文章提到的超参数的调整
场景的几个场景调整
1. Loss 持续不降:训练过程中 Loss 始终保持高位,无下降趋势
• 学习率(Learning Rate)过小:參数更新幅度不足,模型难以优化
• 数据无规律:数据中存在大量异常值, 数据集太差了
- Loss 持续下降但不收敛:Loss 一直在下降,但收敛速度极慢,训练结束时仍未达到理想水平
• 训练轮致太小
• 学习串(Learning Rate)过大:參数更新幅度过大
- Loss 覆荡波动:Loss 曲线上下一直波动
• 批量大小(Batch Size) 过小:单次更起伏,无稳定下降趋势。
结合验证集的 loss 曲线再评估
场景几个情况:
这个图像展示了四种典型的训练损失和验证损失曲线模式:
- 欠拟合(左上):训练损失和验证损失都居高不下,平行停滞
- 需要调大学习率、Lora 秩,或者增强致据集质量。
- 过拟合(右上):训练损失持续下降,验证损失先降后升,形成经典的过拟合模式
- :降低学习率、增加正则化、早停、增加数据量
- 数据分布问题(左下):训练损失高,验证损失低,存在明显差距
- 验证集可能比训练集简单,包含更多噪声或难例
- 验证集样本量可能过小,不具代表性
- 理想状态(右下):训练损失和验证损失同步下降,健康收敛
All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.