主内容#
一些想法#
论文发现并证明了,基于模型奖励的强化学习方法在训练 LLM 时,“足够好”的奖励模型和“特别好”的奖励模型训练得到的 LLM 表现很接近,启示不必盲求奖励模型的高准确率。并且通过实验验证,无法获得“足够好”的奖励模型时,设计思考过程方法对奖励模型进行校准也能得到很好的提升,并且这种校准对高准确率的奖励模型也有效。
论文设计的 Reasoning Pattern Reward(RPR)是对模型思考输出中关键词(如 First、Second、Finally)出现次数进行奖励,但对于更多的下游任务(分类、推荐、检索),应该怎样设计 RPR?而且论文中也提到随着训练的进行会引起模型的「过度思考」,承认仅使用 RPR 而不使用其他答案校验奖励可能会被模型「hack」并产生问题。所以强化学习领域有没有更合适的、对思考过程进行奖励的方法设计值得研究。