UP主: 封面: 简介:视频主要介绍了人类反馈强化学习(RLHF)及其变种算法的发展。2022年底,OpenAI提出通过人类反馈强化学习对大模型进行微调,并引入了“post training”概念。传统的RLHF涉...