RickyYel

Home

❯

learn

❯

两阶段训练:SFT+RLHF

两阶段训练:SFT+RLHF

2025年9月24日1分钟阅读

SFT 为了解决模型压根没在回答问题,RLHF 为了解决回答质量不高。

refer

为什么需要 RLHF?SFT 不够吗? - TRiddle 的回答 - 知乎
https://www.zhihu.com/question/651021172/answer/3515756475


关系图谱

Created with Quartz v4.5.2 © 2026

  • 👨🏻‍💻GitHub
  • 💬Discord Community
  • 📧Contact
  • 🔗RSS