Reward 学习

Reward 学习,是 RL 的关键。比如 OpenAI 在 ChatGPT 中对 Reward 的学习。本节学习 Reward 学习的内容。

课程材料

论文

斯坦福 CS 224r 论文

基于 LLM 的 Reward 设计最新研究论文

LLM as Judge

课本材料

N/A

练习

N/A

论文


Index Previous Next