RickyYel

❯

❯

RLHF 简单介绍

RLHF 简单介绍

2025年9月24日1分钟阅读

Step1. 预训练语言模型

Step2. 训练奖励模型

RM(Reward Model) 的训练是 RLHF 区别于旧范式的开端。这一模型接收一系列文本并返回一个标量奖励，数值上对应人的偏好。我们可以用端到端的方式用 LM(Language Model) 建模，或者用模块化的系统建模 (比如对输出进行排名，再将排名转换为奖励) 。这一奖励数值将对后续无缝接入现有的 RL 算法至关重要。

Step3. 用强化学习微调

参考

https://blog.csdn.net/pearl8899/article/details/138476084
为什么需要 RLHF？SFT 不够吗？ - 何枝的回答 - 知乎
https://www.zhihu.com/question/651021172/answer/3513159005

关系图谱

Step1. 预训练语言模型
Step2. 训练奖励模型
Step3. 用强化学习微调
参考

Created with Quartz v4.5.2 © 2026

👨🏻‍💻GitHub
💬Discord Community
📧Contact
🔗RSS