GPRO 的奖励评估机制与优势分析
1. GPRO 如何进行奖励评估?
在 GPRO(Group Relative Policy Optimization)训练过程中,奖励评估的核心在于不依赖单独的奖励模型,而是基于一组候选答案的相对评分进行优化。其具体步骤如下:
-
生成多样化答案
- 给定一个输入 ( x ),模型采用当前策略 ( \pi_\theta ) 生成多个可能的回答 ( y_1, y_2, …, y_n )。
- 这些答案可以通过采样、温度调整、不同解码策略(如 nucleus sampling 或 beam search) 生成。
-
相对奖励评估(Relative Reward Evaluation)
- 传统 PPO(如 RLHF)方式: 需要训练一个奖励模型 ( R(x, y) ) 以预测回答质量,但这种方法依赖高质量人类标注数据,且奖励模型容易出现偏差。
- GPRO 方式: 不训练奖励模型,而是在一个答案集合中,相互比较答案质量,计算相对分数。
- 具体来说:
- 设 ( n ) 个生成答案形成一个 group(组)。
- 通过一个打分策略(可由人类或自动方法提供),对这些答案进行排序。
- 计算每个答案的相对得分 ( r(y_i) ):
[
r(y_i) = f(y_i) - \text{Baseline}
] - 其中:
- ( f(y_i) ) 代表某种答案评分方法(例如基于 BLEU、ROUGE、GPT 评估的分数)。
- Baseline 代表当前 group 中所有答案的平均质量水平,可以是组内样本的均值:
[
\text{Baseline} = \frac{1}{n} \sum_{i=1}^{n} f(y_i