Post Training强化学习的前世今生

ShowBL > 科技 > 计算机技术 > Post Training强化学习的前世今生

UP主：

封面：

简介：

视频主要介绍了人类反馈强化学习（RLHF）及其变种算法的发展。2022年底，OpenAI提出通过人类反馈强化学习对大模型进行微调，并引入了“post training”概念。传统的RLHF涉...

ShowBL
www.showbl.com